CN107018466B

CN107018466B - 增强音频记录

Info

Publication number: CN107018466B
Application number: CN201611217472.8A
Authority: CN
Inventors: M.普林斯; H.M.斯托克金; O.A.尼亚穆特
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2015-12-28
Filing date: 2016-12-26
Publication date: 2020-04-07
Anticipated expiration: 2036-12-26
Also published as: EP3188180B1; US20170186463A1; EP3188180A1; US10032475B2; CN107018466A

Abstract

提供一种用于增强音频记录的系统和方法，所述音频记录包括从经由扬声器的音频信号的播出获取的声音信号的记录。所述音频信号以及从而的所述声音信号可以表示某音频内容，例如，无线电台或TV音频。为了执行所述增强，使用所述音频信号抑制所述声音信号的记录，从而获取中间音频记录。然后将所述音频内容的原始版本添加到所述中间音频记录以获取增强的音频记录。该原始版本一般是更高质量的，因为其一般不表示背景音频分量而是有目的地被记录或被生成的。

Description

增强音频记录

技术领域

本发明涉及用于增强音频记录的方法和系统。本发明进一步涉及供在所述系统中使用的发送器设备或接收器设备。本发明进一步涉及计算机程序产品，其包括用于引起处理器系统执行所述方法的指令。

背景技术

音频记录包括由用于产生声音输出的部件（此后简称为“扬声器”）生成的声音信号的记录是经常发生的。例如，当记录人的语音时，由电视或无线电的扬声器生成的在背景中播放的声音信号可能也被记录。在许多情况下，没有主要地进行记录由扬声器生成的声音信号的这样的音频记录。相反，音频记录可能被引导到另一声音信号，例如，人说话的声音信号处。同样地，由扬声器生成的声音信号可以被视为音频记录的“背景”音频分量，而另一声音信号（例如，人说话的声音信号）可以被视为音频记录的“前景”音频分量。

音频记录还可以更结构性地包括由扬声器生成的“背景”声音信号的记录。例如，在社交TV中，彼此远离的用户可以观看相同的电视节目同时经由音频（例如，经由IP语音）或视频（例如，Skype、Lync、WebRTC、FaceTime）与彼此通信，其中后者也包括音频通信。这样，用户可以共同地对电视节目进行观看、讨论和评论，甚至是在彼此远离的情况下。然而，结果，每个用户将通常还听到在背景中播放的其他用户的电视的音频。

背景音频分量可能是在音频记录中相对劣质的。针对这点可能存在多种原因，包括但不限于，通常麦克风被指向“前景”声音源而不是“背景”声音源处，即，扬声器生成声音信号，音频编码器的编解码器是针对前景音频分量（例如，语音）而不是背景音频分量（例如，音乐）而被优化的，并且存在由通过扩音器的重放以及通过麦克风的随后记录引起的附加的“数字到声音到数字”的转换步骤。

去除或削弱音频记录中的这样的背景音频分量是已知的，例如如在PCT/EP2015/067548中描述的那样。

然而，虽然声音信号的记录可能不是音频记录的主要意图，但是虽然如此，可能期望在播出音频记录时重放由声音信号表示的音频内容。也就是说，通过去除背景音频分量，可能也会无意地去除了前景音频分量的上下文。然而为了改善音频记录中的声音信号的记录质量，可以选择例如通过应用适当的音频处理来增加音频记录的质量。然而，这样的音频处理很难获取足够好的结果。

发明内容

获取一种用于增强包括由扬声器生成的声音信号的记录的音频记录、从而获取增强的音频记录的系统或方法将会是有利的。

根据本发明的第一方面，可以提供一种用于增强音频记录的方法。该方法可以包括：

- 访问音频记录，所述音频记录至少包括声音信号的记录，所述声音信号从经由扬声器的音频信号的播出获取，所述音频信号表示音频内容；

- 访问所述音频信号；

- 在所述音频记录中使用所述音频信号抑制所述声音信号的记录，从而获取中间音频记录；

- 将所述音频内容的原始版本添加到所述中间音频记录以获取增强的音频记录，所述音频内容的所述原始版本是所述音频信号或所述音频内容的另一原始版本。

根据本发明的另一方面，可以提供一种包括计算机程序的暂时性或非暂时性计算机可读介质。该计算机程序可以包括用于引起处理器系统执行所述方法的指令。

根据本发明的另一方面，可以提供一种用于增强音频记录的系统。该系统可以包括：

- 第一输入接口，其被配置用于访问音频记录，所述音频记录至少包括声音信号的记录，所述声音信号从经由扬声器的音频信号的播出获取，所述音频信号表示音频内容；

- 第二输入接口，其被配置用于访问所述音频信号；以及

- 处理器系统，其被配置用于：

在所述音频记录中使用所述音频信号抑制所述声音信号的记录，从而获取中间音频记录，以及

将所述音频内容的原始版本添加到所述中间音频记录以获取增强的音频记录，所述音频内容的所述原始版本是所述音频信号或所述音频内容的另一原始版本。

根据本发明的其它方面，可以提供一种供在所述系统中使用的发送器设备和接收器设备。

本发明的上述方面涉及获取包括对从经由扬声器的音频信号播出获取的声音信号的记录的音频记录。此处，术语“声音信号”指代可听信号，并且术语“音频信号”指代这样的声音信号的电子表示。声音信号因此为音频信号通过扬声器以可听形式的再现。通过音频记录的方式，获取声音信号的电子表示。同样地，音频记录包括通过扬声器的音频信号的再现的记录，而不是直接地包括所述音频信号。

所述音频记录“至少”包括所述声音信号的记录，因为所述音频记录可以或者可以不包括其它声音信号的记录。在前一种情况下，可以将所述声音信号与其它声音信号组合在所记录的信号中，产生表示若干声音信号的音频记录。在具体示例中，所述声音信号可以表示背景音频分量，而另一声音信号（例如，人的语音）表示前景音频分量。

访问所述音频信号其自身。这样的访问可以是从外部资源位置的远程访问，其中术语“外部”指代与所述系统分离的资源位置。因此可以从外部资源位置例如经由网络来检索所述音频信号。例如，可以访问音频流，其包括以编码形式的所述音频信号。在已经获取了对所述音频信号的访问的情况下，然后在音频记录中抑制所述声音信号的记录，也就是说使用所述音频信号。用于基于分离地提供的所述音频信号削弱或甚至去除在所述音频记录中所述声音信号的记录的技术其本身在音频处理的技术领域中是已知的。例如，可以从音频记录中减去所述音频信号。结果，获取其中抑制了所述声音信号的中间音频信号。

然后访问由所述音频信号表示的所述音频内容的原始版本。此处，术语“原始版本”指代不是通过由扬声器以可听形式的音频信号的再现的麦克风记录间接地获取的所述音频内容的版本。相反，原始版本表示原始记录或生成的版本。所述原始版本可以是所述音频信号其自身。一个非限制性示例是，如果所述声音信号是通过音频流的播出获取的，那么可以访问同一音频流。然而，所述原始版本也可以是另一原始版本，例如是同一首歌的不同版本。一个非限制性示例可以是，原始播出的音频信号可以是一首歌的单声道记录，在该情况下，那么同一首歌的立体声记录将会表示所述音频内容的另一原始版本。

然后将所述音频内容的所述原始版本插入到所述中间音频信号中，例如通过将所述音频内容的所述原始版本混合到所述中间音频信号的一个或多个现存音轨中，或者通过将所述音频内容的所述原始版本插入到一个或多个附加音轨中。

本发明的以上方面具有如下影响，在音频记录中，用原始记录或生成的所述声音信号的音频内容的版本来替换所述声音信号的记录。该原始版本可能一般是更高质量的，因为其一般不表示“背景”音频分量而是有目的地被记录或被生成的。而且，可以避免由通过扬声器的重放以及随后通过麦克风的记录引起的附加的“数字到声音到数字”的转换步骤，其为针对在音频记录中音频信号具有低劣质量的另一可能原因。结果，获取了其中以更好的质量呈现通过音频信号表示的音频内容的增强的音频记录。例如，音频内容可以更清晰地呈现在增强的音频记录中。一个具体示例是，如果音频内容包括人声分量，那么所述人声分量可能是更易理解的。另一具体示例是，如果所述音频内容表示音乐，则该音乐对于倾听者等来说可能更好听。一般而言，根据一个或多个质量度量，在增强的音频记录中音频内容可以具有改善的质量，所述质量度量诸如信噪比或表达与音频内容的原始版本的相似性的相似性度量。

要指出的是，本地或远程播出设备的示例可以包括但不限于，音频系统、电视、监视器、投影仪、媒体播放器和记录器、机顶盒、智能电话、PC、膝上型笔记本、平板设备等。记录设备的示例包括但不限于，音频记录器、袖珍相机、专业相机、智能电话、平板设备、智能手表、智能眼镜等等。

在实施例中，访问音频信号可以包括：

- 分析音频记录以识别音频信号；

- 基于已经识别的所述音频信号，识别包括所述音频信号的资源位置；以及

- 从所述资源位置访问所述音频信号。

虽然存在对于访问音频信号的若干可能性，但是可能有时需要或期望在能够访问所述音频信号之前首先在所述音频记录中识别所述音频信号。例如，如果存在资源位置处可用的多个音频流，其每一个都表示不同的音频信号，那么可能在已经识别了所述音频记录中的音频信号之后仅仅能够检索适当的音频流。在已经识别了音频记录中的音频信号的情况下，然后可以识别包括所述音频信号的资源位置。此处，术语“资源”可以指代服务器、存储介质、广播信道等等，而“资源位置”可以表示允许访问资源的信息，诸如互联网地址（例如，URL地址）。

在实施例中，识别音频信号可以包括：

- 向所述音频记录应用自动内容辨识技术，诸如水印检测技术或指纹技术，以获取所述音频内容的识别；以及

- 使用所述音频内容的所述识别来识别所述音频信号。

可以通过向所述音频记录应用自动内容辨识技术来识别所述音频内容。这样的自动内容辨识本身是已知的。使用自动内容辨识的优势可以是，可能不需要从记录位置获取另外的信息（诸如经由扬声器的来自播出音频内容的播出设备的播出信息）来识别音频内容。实际上，可以不需要来自这样的播出设备的附加信息。要指出的是，自动内容辨识可能仍涉及到与其它实体（诸如内容辨识数据库）的信息交换。可以使用如本身从自动内容辨识的领域中已知的任何适当的自动内容辨识技术，包括基于水印和/或指纹的那些。要指出的是，自动内容辨识可能会将除了音频记录其自身之外的附加或其它信息纳入考虑。例如，音频内容可能与可以通过利用嵌入在视频内容中的视觉水印来识别的视觉内容相关联。同样地，可以通过识别视频内容来隐含地识别音频内容。

在实施例中，可以从经由扬声器的通过播出设备的所述音频信号的播出来获取所述声音信号，并且识别所述音频信号可以包括从所述播出设备获取指示所述音频信号的播出信息。所述声音信号可以表示通过诸如连接的媒体播放器之类的播出设备的播出。同样地，可以在所述播出设备的帮助下识别所述声音信号，以及从而所述音频信号。特别地，可以使用可以由所述播出设备生成并且可以指示所播出的音频信号的播出信息。例如，所述播出信息可以识别音频流，包括在其处可获得音频流的资源位置。另一示例是所述播出信息可以识别节目标题。

在实施例中，获取所述播出信息可以包括以下中的至少一个：

- 经由网络针对所述播出信息询问所述播出设备；以及

- 所述播出设备经由所述网络发送所述播出信息。

在连接的播出设备到处存在的情况下，经由（本地）网络从这样的播出设备获取播出信息成为可能。例如，播出设备可以例如使用多播DNS、DLNA、DIAL或其它媒体协议广播或以其它方式发送它们的当前活动。可以例如使用相同或相似协议针对播出信息询问播出设备。

在实施例中，该方法可以进一步包括访问使实现在时间上关联所述音频信号与所述声音信号的记录的定时信息，并且抑制所述声音信号的记录可以包括：

- 使用所述定时信息同步所述音频信号与所述声音信号的记录以获取所述音频信号的经同步的版本；以及

- 在所述音频记录中使用所述音频信号的所述经同步的版本抑制所述声音信号的记录。

此处，术语“在时间上关联”指代已确定的两个信号之间的时间上的关系，或者至少指代近似程度，从而使实现所述声音信号的记录与所述声音信号源自其的所述音频信号在时间上对准。然后可以基于所述定时信息同步所述音频信号与所记录的信号。例如，这样的同步可以包括改变所述音频信号和/或所记录的信号的时间戳，或者生成表示所述音频信号与所记录的信号之间的时间差的同步数据。此处，术语“同步”指代到认为适合用于随后的所述声音信号的抑制的程度的同步，通常是以毫秒范围。关于这点要指出的是，噪声抑制技术是已知的，并且可以用于抑制所述声音信号（其实际上被视为“噪声”信号），其能够补偿输入信号之间的“较小”延迟（例如，多达128ms）。这样的技术的示例是使用自适应滤波器的噪声抑制。然而，如果所述同步合理地精确，那么可以使用更简单的噪声抑制技术，例如，使用更短的自适应滤波器、要求更少的迭代等等。例如，可以简单地将经同步的音频信号从所述音频记录中减去，优选地在将经同步的音频信号的一个或多个属性调整以匹配在所述音频记录中所述声音信号的记录的那些之后。

在实施例中，该方法可以进一步包括将所述音频信号的经同步的版本添加到所述中间音频记录；或者将所述音频内容的其它原始版本同步至所述音频记录以获取经同步的其它原始版本，并且将所述经同步的其它原始版本添加到所述中间音频记录。可以在将所述音频内容的原始版本添加到所述中间音频信号之前对其进行同步。将领会的是，期望的同步性级别可能取决于使用实例。例如，当所述音频内容仅为环境的一部分时，到数秒或甚至数十秒级别的粗略同步可能足够。在其它使用实例中，可能期望获取在毫秒之内的同步级别。为了获取这样的同步，可以使用和所使用的相似类型的定时信息，以将所述音频信号同步至所述音频记录。将领会的是，也可以将所述音频内容的原始版本同步至另一声音信号。例如，当将增强的音频记录传输至在其处也正播出所述音频信号的远程位置从而获取远程声音信号时，可以将所述音频内容的原始版本同步至所述远程声音信号。出于该目的，可以以本身在本领域中已知的方式来测量所述音频信号在所述远程位置处的播出定时。

在实施例中，将所述音频内容的原始版本添加到所述中间音频记录可以包括将所述原始版本插入到所述音频记录作为一个或多个附加音轨。通过将所述原始版本插入到所述音频记录作为一个或多个附加音轨，而不是将所述原始版本混合到所述一个或多个现存音轨中，可以例如在增强的音频记录中或在播出时独立于所述音频内容的所述原始版本的音频属性调整所述中间音频信号的音频属性。例如，如果所述中间音频信号表示以语音形式的前景音频分量而所述音频内容表示背景音乐，那么可以增加所述语音的音量以改善所述语音的可理解性。

在实施例中，该方法可以进一步包括使用与用于编码所述中间音频记录的其它音轨不同的编码属性来编码所述一个或多个附加音轨，所述不同编码属性优选地为不同的编解码器或不同的比特率设置。因此，可以针对由或者所述中间音频记录或者所述音频内容所表示的音频类型、各轨道的重要性或其它相异的音频属性来优化编码。例如，当所述中间音频信号表示以语音的形式的前景音频分量而所述音频内容表示以音乐的形式的背景音频分量时，可以使用语音编解码器来编码语音而可以使用音乐或通用编解码器来编码音乐。另一示例是当认为语音（或一般而言前景音频分量）更重要时可以使用比语音更低的编码比特率来编码音乐（或一般而言背景音频分量）。

在实施例中，该方法可以进一步包括调整所述音频内容的原始版本或所述中间音频记录的一个或多个音频属性，所述一个或多个音频属性为以下中的至少一个：音量、定时、音高、频率分量之间的平衡以及在参数化音频表示中使用的参数。例如，音频内容的原始版本的音频属性可以被调整以更好地匹配所述声音信号的初始记录的音频属性中的至少一个，例如以避免增强的音频信号听起来不自然。另一示例是，可以调整所述音频内容的原始版本的音频属性或者前景音频分量的音频属性以获取如由所述中间音频信号表示的所述前景音频分量与如由所述音频内容的原始版本表示的所述背景音频分量之间的更好的差异化。例如，如果所述中间音频信号表示以语音的形式的前景音频分量而所述音频内容表示背景音乐，那么可以增加所述语音的音量以改善所述语音的可理解性。

在实施例中，可以通过发送器设备获取所述音频记录以用于传输至接收器设备，可以通过所述接收器设备执行所述音频记录中的所述声音信号的记录的抑制，并且该方法可以进一步包括：

- 所述发送器设备检索并随后传输所述音频信号给所述接收器设备；或者

- 所述发送器设备向所述接收器设备传输指示可从其处访问所述音频信号的资源位置的元数据，并且所述接收器设备基于所述元数据从所述资源位置检索所述音频信号。

该方法也可以使用若干设备来执行，而不是通过单个设备来执行，所述若干设备诸如其中可以通过发送器设备获取所述音频记录以用于传输给接收器设备、其中所述接收器设备然后用所述音频内容的原始版本替换所述声音信号的记录的发送器/接收器系统中的那些。这样的系统的示例是视频会议系统。在该特定示例中，每个视频会议客户端可以充当用于传输本地记录的媒体流的发送器设备，以及充当用于接收远程记录的（一个或多个）媒体流的接收器设备。然而，也可以存在从发送器设备到接收器设备的媒体记录的单边传输。一般而言，针对使接收器设备能够从资源位置检索音频内容的原始版本存在若干可能性。例如，发送器设备可以检索并随后传输音频内容的原始版本给接收器设备，或者可以向接收器设备传输指示可从其处访问所述音频内容的原始版本的资源位置的元数据。一般而言，接收器设备可以是远程播出设备，其远程地播出增强的音频记录。然而，接收器设备也可以是进一步传输增强的音频记录给一个或多个播出设备的中间设备，或者一起操作例如以执行云处理的一个或多个中间设备。

在实施例中，该系统可以包括发送器设备和接收器设备，所述发送器设备可以至少包括所述第一输入接口，所述接收器设备包括所述处理器系统的至少一部分，并且所述发送器设备可以被配置用于检索所述音频信号并随后将其传输给所述接收器设备；或者向接收器设备传输指示可从其处访问所述音频信号的资源位置的元数据，并且所述接收器设备包括所述第二输入接口以用于基于所述元数据从所述资源位置检索所述音频信号。同样地，所述发送器设备可以或者包括两个输入接口并检索所述音频信号并随后将其传输给所述接收器设备，或者所述接收器设备可以包括所述第二输入接口并使用所传输的元数据来从所述资源位置访问所述音频信号。抑制子系统可以是所述发送器设备或接收器设备的一部分，并且可以被配置用于在所述音频记录中使用所述音频信号抑制所述声音信号的记录以获取所述中间音频记录。所述接收器设备可以至少包括添加子系统，其被配置用于将所述音频内容的原始版本添加到所述中间音频记录。

一般而言，可以提供用于增强音频记录的系统和方法，所述音频记录可以包括从经由扬声器的音频信号的播出获取的声音信号的记录。所述音频信号以及从而的所述声音信号可以表示某音频内容，例如，无线电台或TV音频。为了执行所述增强，可以使用所述音频信号抑制所述声音信号的记录，从而获取中间音频记录。可以将所述音频内容的原始版本添加到所述中间音频记录以获取增强的音频记录。该原始版本可能一般是更高质量的，因为其一般不表示背景音频分量而是有目的地被记录或被生成的，例如是高质量的工作室记录。

本领域技术人员将领会的是，可以以认为有用的任何方式来组合本发明的上述实施例、实现和/或方面中的两个或更多个。

本领域技术人员可以基于本描述来实现对应于所述方法的所描述的修改和变形的所述系统、发送器设备、接收器设备、本地或远程播出设备、记录设备和/或计算机程序的修改和变形。

附图说明

从下文中描述的实施例中本发明的这些和其它方面是显而易见的，并且将参考下文中描述的实施例来阐明它们。在附图中，

图1图示出在媒体记录中的通常场景，也就是说麦克风记录人说话同时也记录经由扬声器的由音频信号播出而生成的声音信号，从而获取包括对语音的记录和所述声音信号的记录的音频记录；

图2示出增强音频记录的方法；

图3示出用于增强音频记录的系统；

图4示出其中本地地（例如，在其中进行音频记录的位置处）执行音频记录的增强的系统，同时还图示出在通过其识别和检索音频信号的记录设备与播出设备之间的消息交换的第一部分；

图5示出在通过其识别和检索音频信号的记录设备与播出设备之间的消息交换的第二部分；

图6示出共同地执行音频记录的增强的记录设备与播出设备之间的消息交换；以及

图7示出示例性数据处理系统。

应指出的是，在不同的图中具有相同参考标号的项目具有相同的结构特征和相同的功能或者是相同的标志。在解释了这样的项目的功能和/或结构的情况下，在详细描述中对其的重复解释是没有必要的。

参考标号列表

提供以下参考标号列表以用于促进对附图的解释，并且不应将其解释为限制权利要求。

010 扬声器

015 声音信号

020 人

025 语音声音信号

030 音频信号

035 音频信号的其它原始版本

040 麦克风

045 音频记录

050 中间音频记录

055 增强的音频记录

100 用于增强音频记录的系统

110 第一输入接口

120 第二输入接口

130 处理器系统

140 抑制子系统

150 添加子系统

200 增强音频记录的方法

210 访问音频记录

220 访问音频信号

230 抑制声音信号的记录

240 添加音频内容的原始版本

300 本地播出设备

310、312 本地记录设备

320 局域网

330、332 其它设备

340 远程播出设备

350 媒体服务器

1000 示例性数据处理系统

1002 处理器

1004 存储器元件

1006 系统总线

1008 本地存储器

1010 大容量储存设备

1012 输入设备

1014 输出设备

1016 网络适配器

1018 应用。

具体实施方式

图1图示出当使用麦克风记录音频时、或者当使用相机记录视频同时记录音频时的通常场景。也就是说，记录人020说话、并且从而记录他/她的语音声音信号025的麦克风040也可以记录经由扬声器010由音频信号的播出而生成的声音信号015。结果，可以获取包括语音的记录以及声音信号的记录的音频记录045。

在记录这样的声音信号015（例如，来自一个或多个扩音器的音乐或TV音频）时，其在音频记录045中的表示通常仅有有限的质量，因为麦克风的特性将通常严重地限制记录质量。特别地，现成的麦克风（例如，如在当今的移动设备中找到的）相比于工作室质量的麦克风具有有限的能力。此外，可能存在房间的影响以及可能地扩音器010的某些影响。而且，音频记录可能是单声道的，从而释放音频中的指向性，而大多数播出设备至少具有两个扩音器并且可以因此以立体声或甚至使用环绕声进行播出。

例如，在通信会话期间，经由扬声器010播出的声音信号015可以被视为背景音频，这可能造成附加问题。也就是说，作为记录过程的部分或者在其之后，可以对所捕捉的声音数字化并利用编解码器对其进行压缩以使实现高效的传送和通信。在通信会话中使用的编解码器通常是专用语音编解码器，其采用底层语音产生模型。采用语音编解码器来编码诸如音乐的一般性音频通常导致低质量。此外，通过语音优化的编解码器而启用的在通信会话中使用的比特率通常不足以以高质量编码音乐。而且，背景音频的音量和前景音频的音量可能是不平衡的。人020可能认为音量平衡是适当的，但是在远程侧（例如，在重放音频记录045的地方）处，音乐可能太响并且从而遮掩了人020的语音声音信号025的重放，或者在意图将其记录为环境的一部分时其可能太轻柔。

当使通信会话作为共享内容消费会话（例如，远程地一起观看TV或一起听音乐）的一部分时，可能发生附加问题。也就是说，甚至当跨越位置同步内容的播出时，该内容的音频将被记录为通信的一部分，并且在（一个或多个）远程位置处以一定的延迟被播出。这通常引起回声，从而引起用户以其期间的一定的延迟听到相同的音频两次：一次直接地来自他们自己的TV播出并且一次作为从远程通信伙伴接收的音频中的背景音频。另一影响可能是音频定相影响，其可以导致音频的（例如，语音的）振幅的减少，这可能阻碍可理解性。

图2示出了用于增强音频记录的方法并且图3示出了用于增强音频记录的系统，所述音频记录包括由经由扬声器的播出生成的声音信号的记录，并且其可以解决上述问题中的一个或多个。

一般而言，可以参考其中本地地获取音频记录并然后将其传输以用于在远程位置处播出的通信会话来描述所述方法和系统。然而，在通信会话中的使用不是限制，因为也可以在通信会话的上下文之外执行所述增强，例如，在其中增强所存储的音频记录的“离线”场景中。例如，用户可以记录他自己和正示出TV节目的TV，并且可以然后对节目进行评论例如以上载到YouTube。在作为结果的媒体记录中，可以以原始音频信号替换TV的声音的记录，从而增强媒体记录的音频。

进一步参考图1，术语“本地播出设备”可以指代经由一个或多个扩音器010播出音频信号、从而生成声音信号015的设备。本地播出设备的示例包括但不限于，电视和音频系统。要指出的是，扩音器010可以是本地播出设备的部分，但不必需是本地播出设备的部分。术语“本地记录设备”可以指代例如采用麦克风040记录声音信号015、从而获取音频记录045的设备，所述音频记录045包括声音信号的记录。术语“远程接收设备”可以指代在远程位置处例如经由诸如互联网的网络接收音频记录045的设备。术语“远程播出设备”可以指代例如经由一个或多个扩音器远程地重放（增强的）音频记录045、从而重放声音信号（或者在增强的音频记录中的音频信号的原始版本）的设备。将领会的是，本地播出设备也可以重放（增强的）音频记录，例如假使离线执行增强并且稍后本地地播出增强的音频记录。术语“背景音频”可以指代声音信号015，以及声音信号015可以被视为音频记录045中的背景音频分量的事实。术语“前景音频”可以指代另一声音信号，诸如语音信号025或由另一播出设备生成的另一声音信号，并且一般而言指代不同于如由要在音频记录中被抑制的声音信号的记录所表示的背景音频的音频。

可以互换地使用术语“记录”和“捕捉”。可以互换地使用术语“播出”和“回放”。音频记录可以是例如具有相关联的视频分量的媒体记录的一部分。一般而言，在描述音频记录的增强时，这样的增强也可以应用于包括音频记录的媒体记录的增强。考虑到表示音频内容的音频信号，可以互换地使用术语“音频信号”和“音频内容”或简称“内容”。此外，音频信号和声音信号的记录二者可以被称为“背景音频”，其中引用的上下文指示该引用是对音频信号的或对声音信号的记录的。当指代音频内容的原始版本替换音频记录中的声音信号的记录时可以互换地使用术语“添加”和“插入”。

用于增强音频记录的方法和系统的以下实施例是基于以下洞察，即如果在音频记录中抑制了声音信号的记录并插入原始音频信号或音频内容的另一原始版本，则可以改善在播出期间的体验的整体质量。另外，可以在添加音频内容的原始版本之前，或者甚至在其之后当将音频内容的原始版本添加为一个或多个分离轨道时调整诸如音量和时间对准之类的音频属性。而且，可以在通信会话的接收端处例如在远程接收设备或远程播出设备处插入音频内容的原始版本，从而潜在地节约带宽。替换地，可以通过网络中的节点插入音频内容的原始版本，潜在地节约从记录设备到网络的上行链路中的带宽。

图2示出增强音频记录的方法200。方法200可以包括在题为“访问音频记录”的操作中访问210音频记录，所述音频记录至少包括声音信号的记录，所述声音信号从经由扬声器的音频信号的播出获取，所述音频信号表示音频内容。方法200可以进一步包括在题为“访问音频信号”的操作中访问220音频信号。方法200可以进一步包括在题为“抑制声音信号的记录”的操作中在音频记录中使用音频信号抑制230声音信号的记录，从而获取中间音频记录。方法200可以进一步包括在题为“添加音频内容的原始版本”的操作中将所述音频内容的原始版本添加240到所述中间音频记录以获取增强的音频记录，所述音频内容的所述原始版本是所述音频信号或所述音频内容的另一原始版本。

将领会的是，虽然图2示出依序地执行的上面操作210-240，但是可以以任何适当顺序（例如连续地、同时地或其组合）执行所述操作，在可适用情况下经受必要的特定顺序（例如，由于输入/输出关系）。例如，可以同时地或倒序地执行抑制230和添加240，例如，当将音频内容的原始版本添加为一个或多个新轨道时，在该情况下可以独立地执行抑制。另一示例是可以同时地或倒序地执行访问210音频记录和访问220音频信号。

方法200的具体示例可以涉及到例如通过访问资源位置来访问音频记录。然后可以例如通过首先识别由音频信号代表的音频内容以及然后检索所述音频信号来访问音频信号。然后可以使用如本身在本领域中已知的回声和/或噪声抑制技术基于所访问的音频信号来抑制声音信号的记录。结果，可以获取主要包括前景音频的中间音频记录。在已经抑制了声音信号的记录情况下，可以将音频信号或音频内容的另一原始版本插入例如到一个或多个现存或新的音轨中。与抑制相反，在需要以更多或更少准确的形式的音频信号其自身以便使用已知回声/噪声抑制技术使实现取消声音信号的记录的情况下，可以插入不同于音频信号的音频内容的另一原始版本。

结果，可以获取增强的音频记录。该增强可以是背景音频具有更高质量的结果。另外，当作为一个或多个新的音轨执行插入时，背景音频可以是与前景音频分离地可调整的，例如通过每个音轨可控制并且因而对于前景和背景音频来说是分离的音量、定时、均衡器设置、音高等。附加地，可以每个音轨使用不同的编码编解码器和比特率，这意味着可以在编码前景音频时使用最佳编解码器，例如语音编解码器，同时在编码背景音频时可以使用另一编解码器，例如音乐编解码器。

图3以框图的形式示出用于增强音频记录的系统100。系统100包括第一输入接口110，其被配置用于访问音频记录045，所述音频记录至少包括声音信号015的记录，所述声音信号从经由扬声器010的音频信号030的播出获取，其中所述音频信号表示音频内容。系统100进一步被示出为包括第二输入接口120，其被配置用于访问音频信号030或其更多或更少准确的表示（还见前面远处的“一般方面”）。系统100进一步包括处理器系统130，其可以包括抑制子系统140，其被配置用于在音频记录045中使用音频信号030抑制声音信号015的记录，从而获取中间音频记录050。处理器系统130可以进一步包括添加子系统150，其用于将所述音频内容的原始版本添加到中间音频记录050以获取增强的音频记录055，所述音频内容的所述原始版本是音频信号030或所述音频内容的另一原始版本035。

将领会的是，第一输入接口110可以采取任何适当的形式，诸如到局域网或广域网的网络接口、到内部或外部数据储存器的储存接口，例如，假使系统100是记录设备的一部分的话的内部接口，等等。音频记录045可以是预先记录的，但是也可以是实时的“直播”流。虽然没有在图3中示出，但是第一输入接口110可以可选地包括用于解码音频记录045的流（例如，音频流或包括音频分量的媒体流）的解码器，从而使得音频记录045或其部分以未压缩或一般而言其它格式可用。同样，第二输入接口120可以采取任何适当形式，诸如到局域网或广域网的网络接口、到内部或外部数据储存器的储存接口等。虽然在图3中未示出，但是第二输入接口120可以可选地包括用于解码音频信号030的流（例如，音频流或媒体流）的解码器。

图4示出其中本地地（例如，在其中进行音频记录的位置处）执行音频记录的增强的系统，同时还图示出在在本地播出设备300与本地记录设备310之间的消息交换的第一部分，其中由记录设备310识别和检索音频信号。图5示出用以识别和检索音频信号的记录设备与播出设备之间的消息交换的第二部分。在该示例中，记录设备310抑制音频记录中的声音信号并插入音频内容的原始版本。同样地，记录设备310可以表示图3的系统100的实施例。

在由图4中的对应标号表示的步骤1中，记录设备310可以开始从声域捕捉音频。为了发现播出设备300，记录设备310可以在局域网320上发送多播发现消息作为步骤2，其可以在记录的开始之前或之后被执行。在局域网320上的其它设备330、332也可以接收所述多播发现消息。检测到这（很可能）就是记录设备310力图识别的播出设备的播出设备300可以对发现消息进行响应，向记录设备310通知播出设备300当前正播出音频信号。要指出的是，发现机制可以是已知机制，从诸如UPnP/DLNA或SLP之类的协议中已知的，并且将参考“检测播出设备”和“发现”进一步讨论所述发现机制。

在已经建立了与播出设备300的连接情况下，可以识别音频信号和播出定时，并且可以基于在记录设备310与播出设备300之间的消息交换检索音频内容的原始版本，如在图5中进一步示出的那样。此处，可以利用在PCT/EP2015/067548中描述的技术，并且特别是其中描述的定时信息，其允许音频信号或其更多或更少准确的表示与所记录的声音信号在时间上进行关联。

在步骤4中，播出设备300和记录设备310可以使用诸如NTP或PTP之类的现存的（或类似于）时间同步协议来同步它们的时钟。这样的同步可能是需要的，如果以时间戳格式传送播出定时的话。在步骤5中，记录设备310可以从播出设备300请求内容ID、用以检索内容（例如，音频信号）的可能的URL以及播出计时。在步骤6中，播出设备300可以指示内容为Content_A，将RTSP URL提供给记录设备，从而指示播出设备300可以递送所述内容，并且进一步包括播出定时。该播出定时可以包括参考墙时钟，其是在播出设备300与记录设备310之间同步的，以及在所指示的时刻处播放的内容的内容时间戳。在步骤7中，记录设备310可以使用RTSP从播出设备检索内容，在该图中非常简化地示出，播出设备300可以在步骤8中递送所述内容。在步骤9中，播出设备300可以再次递送定时信息，因为播出可能随时间漂移。可以定期地重复步骤8和9，直到会话结束。在较长的会话中，也可以重复步骤4，在这里出于简短的目的未示出。此处，使用RTSP和RTP来检索内容，但是可以替代地使用任何内容递送/检索机制，例如，DASH、HLS、在UDP上的MPEG-TS、多播等。要注意的是，由播出设备提供的定时信息可能通常不得不匹配在递送机制中使用的时间戳。

作为上述步骤的结果，记录设备310具有对音频记录的访问以及对如由在音频记录中的声音信号表示的音频内容的原始版本的访问。记录设备310现在可以使用音频内容的原始版本例如使用如在PCT/EP2015/067548中描述的“噪声”抑制或取消机制来抑制声音信号，并且然后插入音频内容的原始版本。

图6示出在记录设备312与远程播出设备340之间的消息交换，其可以共同地执行音频记录的增强。在该示例中，可以本地地由记录设备312来执行声音信号的抑制，如在图4和5中的情况那样，而可以远程地由远程播出设备340来执行音频内容的原始版本的插入。出于该目的，本地记录设备312可以包括抑制子系统140并且远程播出设备340可以包括图3的系统100的添加子系统150。

在步骤1中，记录设备312可以发送中间音频记录（例如，其中已经抑制了声音信号的音频记录）到远程播出设备340。为了能够指示经抑制的声音信号的定时，音频记录可以包括时间戳，从而建立针对音频记录的内容时间线。接下来在步骤2中，记录设备312可以向远程播出设备340用信号通知经抑制的声音信号表示哪个音频内容，很可能包括URL或在哪里检索内容的其它指示符。此外，在步骤2中，记录设备312可以用信号通知定时信息。

例如，可以使用RTP来发送包括RTP时间戳的中间音频记录。在具体示例中，已经被抑制的声音信号可以表示在背景中播放的音乐。记录设备312现在可以向远程播出设备340用信号通知例如正在使用公共可用的音乐数据库（诸如freedb.org）播放哪个音乐。此外，记录设备312可以用信号通知在哪个RTP时间戳处正播放歌曲的哪个部分。例如，在RTP时间戳15790320处（出于可读性，RTP时间戳被转换成十进制），歌曲是在从歌曲的开始的1分37.550秒处。

在接下来的步骤3中，远程播出设备340可以例如使用由记录设备312提供的URL或者使用其自己的库或自己可用的内容来检索内容。在图6的示例中，远程播出设备340可以通过转发如先前从记录设备312接收的内容ID（可能包括URL和定时信息）来向媒体服务器350请求提供内容。媒体服务器350可以在步骤4中通过递送所请求的内容来进行响应。在步骤5中，可以由远程播出设备340插入该内容并且在步骤6中，可以播出增强的音频记录。

以下描述本系统和方法的一般性和具体实施例的进一步可选的方面和/或可能的修改。

检测播出设备

如果从通过播出设备的音频信号的播出获取声音信号，那么可以使用以下中的一个或多个检测播出设备：

- 如果音频记录伴随有相机记录，那么可以使用图像分析技术来检测相机记录中的播出设备。可以由记录设备本地地或者通过使记录设备转发相机记录给远程图像分析组件远程地执行图像分析技术。这样的远程图像分析组件的示例是http://idtv.me/。适当的图像分析技术本身从图像分析和计算机视觉的领域中是已知的，在例如由RichardSzelisk于2010年的“Computer Vision: Algorithms and Applications（计算机视觉：算法与应用）”（于2015年4月15日在http://szeliski.org/Book/drafts/SzeliskiBook_20100903_draft.pdf处查阅）中描述的。

- 播出设备可以例如使用多播DNS、DLNA、DIAL或其它媒体协议在本地网络上播报其活动。作为示例，这样的播报可以是包括“播放信道1”；“URL=…”的消息。替换地，可以针对本地网络中的播出设备的存在和活动来询问所述播出设备。将进一步参考“发现”描述这两方面。

- 用户可以例如经由图形用户界面手动地配置播出设备的存在和/或活动。

识别音频内容

识别音频内容或识别音频信号和从而的音频内容可以包括以下中的一个或多个：

- 播出设备可以例如通过用信号通知无线电或TV台识别符（“BBC 1”）来用信号通知正播出哪个媒体，或者可以针对该信息询问播出设备。

- 播出设备可以提供关于媒体源的附加信息，诸如到媒体源的URL（“http://webserver/BBC1.mpd”）。

- 可以由向音频记录应用自动内容辨识技术（诸如水印检测技术或指纹技术）的处理器系统来识别音频内容以获取音频内容的识别，并且使用音频内容的识别来识别音频信号。这可能需要具有适当类型的识别符的这样的内容的索引。替换地或附加地，可以将音频信号的样本发送到外部（云）服务器（例如，web服务），其通过该样本的自动内容辨识分析并识别音频信号，并向处理器系统通知音频内容的识别。

- 一般地，可以通过识别与音频内容相关联的视觉内容来识别音频内容。例如，可以识别音频信号作为电影的音频分量。为了识别电影或其它类型的这样的视觉内容，可以使用任何已知的自动内容辨识技术。

- 用户可以例如通过识别呈现正播出的音频内容的源的播出设备而手动地指定媒体源。

访问音频内容的原始版本

访问音频内容的原始版本可以涉及本地播出设备其自身例如通过以MPEG-DASH流的形式流式传输媒体流提供视觉内容的所述原始版本。替换地或附加地，可以识别包括所述原始版本的资源位置。例如，使其可用于处理器系统的元数据可以包含正播出的无线电台的简要识别，例如，识别符“BBC 1”。处理器系统然后可以例如通过经由互联网流式传输无线电台的音频流来识别并访问无线电台“BBC 1”。

一般而言，可以使用tv:URI方案用信号通知资源位置，可以在清单文件中提供URL，可以使用CRID内容ID来识别音频内容，可以使用IMDB参考用信号通知电影音频，等等。

插入音频内容的原始版本

在已经获取了对音频内容的原始版本的访问情况下，可以将原始版本插入到中间音频记录中，从而获取增强的音频记录。这样的插入可以是实时地并且以同步方式执行的（但不必需这样），使得增强媒体记录中的音频内容与如先前包括在音频记录中的声音信号的记录同步到至少一定的程度。将参考“插入同步”进一步阐述该方面。

可以在各种阶段处执行插入。例如，可以已经在记录设备其自身中执行插入，使得音频记录的编码版本包含原始版本。另一方式是使远程设备（诸如远程接收器设备或远程播出设备）访问音频记录和音频内容的原始版本两者，并将原始版本插入到音频记录中以获取增强的音频记录。将参考“系统划分”进一步阐述该方面。还可以在音频记录的播出期间执行插入。同样地，可以不分离地存储增强的音频记录而是可以在运行中（on the fly）将其生成”。

要插入的原始版本也可以是音频内容的另一原始版本，例如具有更高质量的、更多信道等等。

插入的同步

存在关于中间音频记录（例如，关于包括在其中的前景音频）同步音频内容的原始版本的插入的至少三种可能方式。如果将音频内容的原始版本插入在一个或多个新音轨中，也可以在增强的音频记录的播出之前或期间执行这样的同步。

- 匹配音频记录中的声音信号的定时，从而重放本地背景音频与本地前景音频的时间对准。这可以涉及测量本地侧处的播出定时，例如，在与（本地）记录设备同步时的本地播出设备的播出定时。

- 不使用严格定时。例如，如果背景音频是无线电台的，那么可以重新插入如当前检索的直播无线电流。也就是说，如果背景音频仅为环境的一部分，那么精确地执行插入不是那么重要。而是，相比于经抑制的声音信号的若干秒或甚至几十秒的定时移位可能是可接受的。

- 匹配远程背景音频的定时，从而确保在增强音频记录的回放期间，在远程侧处的音频记录的背景音频的播出在时间上与远程地相同的背景音频的播出是对准的。这可能在如下情况中是有用的，即其中在本地侧处以及在远程侧处播出相同的音频信号。这可能涉及测量远程侧处的播出定时，例如，远程播出的播出定时。

后一匹配可以应用于所谓的“分开一起观看”使用实例。在该情况中，在彼此远离的两个位置处播出相同的内容（例如，相同的音频信号）。可以互相地同步播出。而且，在两个位置处的用户可以与彼此通信。作为该通信的一部分，可以在两个位置处记录如由内容的播出生成的声音信号，并且在另一（远程）位置处通过通信信道播出所述声音信号。因为通信信道将引入延迟（例如，通常在150ms或更多的数量级中），因此通过音频记录的播出的方式的内容的播出将通常关于内容的本地播出而被延迟。在该情况下，由于跨越位置同步播出，并且内容已经在两个位置处可用，因此不必须与远程位置共享用于插入原始版本的定时信息，因为远程位置可以使用原始内容的其本地播出定时。当这样做的时候，增强音频记录的背景音频将是与内容的本地播出同步的。而且此处，远程侧可以执行背景音频抑制，因为远程侧也有对与本地侧相同的背景音频的访问。

系统划分

将领会的是，包括抑制子系统和添加子系统的处理器系统可以是单个设备的一部分。然而，两个子系统也可以是不同设备的一部分，或者可以以分布的方式来实现。一个非限制性示例是发送器/接收器系统的，其中，在发送器侧处，可以由发送器设备获取音频记录，其中发送器设备然后抑制音频记录中的声音信号以获取中间音频记录用于传输到接收器设备。在接收器侧处，接收器设备然后可以例如在播出之前或在播出期间将音频内容的原始版本插入到中间音频记录中。此处，发送器设备可以包括第一和第二输入接口和抑制子系统，并且接收器设备可以至少包括添加子系统。这样的系统的非限制性示例是视频会议系统。

将领会的是，发送器设备可以是起记录设备的作用的通信设备，并且接收器设备可以是例如相同类型的、起播出设备的作用的另一通信设备。

然而，发送器设备也可以是与记录设备分离的。在这样的示例中，发送器设备、扬声器和记录设备可以位于同一处，例如，在相同房间、相同建筑物、相同外部区域中。然而，这不是必要条件，因为发送器设备可以位于发送器侧处（例如，在“发送”位置处），而扬声器可以位于别处（例如，在不同的位置处，例如，“记录”位置处）并由记录设备记录。同样，接收器设备可以是与远程播出设备分离的。

发现

可以利用不同的发现机制用于发现正由播出设备播出的媒体内容，以便发现由在音频记录中的声音信号的记录表示的音频内容。例如，系统可以主动地轮询局域网以便发现播出设备在网络中的存在。附加地或替换地，播出设备可以经由通知消息向系统多播其存在。

主动地轮询网络可以是基于各种协议。一个示例是UPnP协议。此处，可以使用M-SEARCH来或者直接地或者通过UPnP服务器首先发现本地网络中的设备。下面示出了发现消息的示例。这是用于发现所有UPnP设备的通用发现消息。也可以针对具体设备发送发现消息，例如，针对媒体再现器，而不是用ssdp:all搜索所有设备。

可以在本地网络上多播M-SEARCH，指定正在寻找什么（在该情况下所有设备），例如以以下形式：

M-SEARCH * HTTP/1.1

主机:239.255.255.250:1900

人:“ssdp:discover”

MX:2 (要延迟响应的秒)

ST: ssdp:all (搜索所有设备)

USER-AGENT（用户代理）:安卓/4.3 UPnP/1.1 智能电话 / 3.0 (示例值)

响应可以是包含关于进行响应的设备的信息的200 OK消息，在该情况下播出设备012是媒体再现器。

HTTP/1.1 200 OK

CACHE-CONTROL（高速缓存-控制）: max-age = 1800

日期:2015年3月22日周日 08:49:37 GMT

EXT:

位置: http://192.168.1.5/description

服务器: 安卓/4.3 UPnP/1.1 电视/1.0

ST: ssdp:all

BOOTID.UPNP.ORG:1426860725

CONFIGID.UPNP.ORG:123456

SEARCHPORT.UPNP.ORG:49152

替换地或附加地，播出设备还可以偶尔多播其存在，这可以被系统检测到。下面示出了广告消息的示例。该消息在内容上类似于在对M-SEARCH进行响应时的200 OK消息。

NOTIFY （通知）* HTTP/1.1

主机:239.255.255.250:1900

CACHE-CONTROL（高速缓存-控制）: max-age = 1800

位置: http://192.168.1.5/description

NT: urn:schemas-upnp-org:service:MediaRenderer:1

NTS: ssdp:alive

服务器: 安卓/4.3 UPnP/1.1 电视/1.0

BOOTID.UPNP.ORG:1426860725

CONFIGID.UPNP.ORG:123456

SEARCHPORT.UPNP.ORG:49152

要指出的是，上述示例是在UPnP的上下文内，而存在可以替代地使用的各种发现协议。

一般方面

将领会的是，当在音频记录中使用音频信号来抑制声音信号的记录时，准确地获取表示已经被播出的音频信号的数据不是必须的。也就是说，获取音频信号的副本或者其另一更多或更少准确的表示足够。例如，如果经由扬声器播出音频流，那么可以使用同一音频信号的不同音频流来抑制在音频记录中声音信号的记录，其中不同的音频流是不同的，在于其可能被不同地编码、源自不同的流源等等。

要指出的是，音频记录可以是媒体记录的一部分，所述媒体记录可以包括附加分量，诸如例如，相机记录或一般而言的视频分量、一个或多个附加音轨、各种元数据等等。然而，媒体记录也可以仅包括音频记录。在适当的情况下可以互换地使用这两个术语。

音频记录可以包括从通过不同扬声器的播出获取的声音信号的多个记录。例如，TV音频和无线电可能正同时播放。可以使用如所描述的系统和方法来通过音频记录中的这样的声音信号中的多个的相应原始版本来替换它们，从而建立增强的音频记录。

此外，通过将音频内容的原始版本作为一个或多个新轨道添加到中间音频记录，可以例如通过远程播出设备在播出时编排播出。例如，如果远程播出设备具有对使用5.1环绕设置的多个扬声器的访问，那么远程播出设备可以在中央扬声器上播出前景音频同时在主（前）扬声器或后扬声器上播出背景音频。

其它一般方面

图7是图示出可以在本公开的实施例中使用的示例性数据处理系统的框图。这样的数据处理系统包括在本公开中描述的数据处理实体，包括用于增强音频记录的系统、记录设备、远程或本地播出设备、发送器设备、接收器设备等等。数据处理系统1000可以包括至少一个处理器1002，其通过系统总线1006耦合到存储器元件1004。同样地，数据处理系统可以将程序代码存储在存储器元件1004内。另外，处理器1002可以执行经由系统总线1006从存储器元件1004访问的程序代码。在一个方面中，数据处理系统可以被实现为适合于存储和/或执行程序代码的计算机。然而将领会的是，可以以能够执行本说明书内描述的功能的包括处理器和存储器的任何系统的形式来实现数据处理系统1000。

存储器元件1004可以包括一个或多个物理存储设备，诸如例如，本地存储器1008和一个或多个大容量储存设备1010。本地存储器可以指代随机存取存储器或一般在程序代码的实际执行期间使用的（一个或多个）其它非持久性存储器设备。大容量储存设备可以被实现为硬驱动器、固态盘或其它持久性数据储存设备。处理系统1000还可以包括一个或多个高速缓冲存储器（未示出），其提供至少某些程序代码的暂时性储存以便在执行期间减少必须从大容量储存设备1010检索程序代码的次数。

描绘为输入设备1012和输出设备1014的输入/输出（I/O）设备可以可选地被耦合到数据处理系统。输入设备的示例可以包括但不限于，例如，麦克风、键盘、诸如鼠标之类的指向设备等等。输出设备的示例可以包括但不限于，例如，监视器或显示器、扬声器等等。输入设备和/或输出设备可以或者直接地或者通过介入的I/O控制器被耦合到数据处理系统。网络适配器1016也可以被耦合到数据处理系统以使得其能够变得通过介入的私用或公共网络而耦合到其它系统、计算机系统、远程网络设备和/或远程储存设备。网络适配器可以包括用于接收由到所述数据的所述系统、设备和/或网络传输的数据的数据接收器以及用于向所述系统、设备和/或网络传输数据的数据发射器。调制解调器、线缆调制解调器和以太网卡是可以与数据处理系统1000一起使用的不同类型的网络适配器的示例。

如在图7中所示，存储器元件1004可以存储应用1018。应领会的是，数据处理系统1000可以进一步执行能够促进所述应用的执行的操作系统（未示出）。可以由数据处理系统1000（例如，由处理器1002）执行以可执行程序代码的形式实现的应用。响应于执行应用，数据处理系统可以被配置成执行本文中更详细地描述的一个或多个操作。

在一个方面中，例如，数据处理系统1000可以表示用于增强音频记录的系统。在该情况下，应用1018可以表示应用，其在被执行时将数据处理系统1000配置成执行本文中参考“用于增强音频记录的系统”而描述的各种功能。在另一方面中，数据处理系统1000可以表示设备，诸如本地或远程播出设备、记录设备、发送器设备和/或接收器设备。在该情况下，应用1018可以表示应用，其在被执行时将数据处理系统1000配置成执行本文中参考“播出设备”、“记录设备”、“发送器设备”和/或“接收器设备”而描述的各种功能。本地或远程播出设备的示例可以包括但不限于，音频系统、电视、监视器、投影仪、媒体播放器和记录器、机顶盒、智能电话、PC、膝上型计算机、平板设备等。记录设备的示例包括但不限于，音频记录器、袖珍相机、专业相机、智能电话、平板设备、智能手表、智能眼镜等。发送器设备可以是记录设备。接收器设备可以是远程播出设备。

在权利要求中，置于括号之间的任何参考标号不应被解释为限制权利要求。动词“包括”和其变位的使用不排除除了在权利要求中陈述的元件或步骤之外的那些元件或步骤的存在。在元件前面的冠词“一”或“一个”不排除多个这样的元件的存在。可以借助于包括若干不同元件的硬件并且借助于适当编程的计算机来实现本发明。在阐述若干部件的设备权利要求中，可以通过同一个硬件项目来体现这些部件中的多个。在互相不同的从属权利要求中陈述的某些措施的纯粹的事实不指示不能使用这些措施的组合来获利。

Claims

1.一种增强音频记录的方法，包括：

- 访问所述音频记录，所述音频记录至少包括声音信号的记录，所述声音信号从经由扬声器的通过播出设备的音频信号的播出获取，所述音频信号表示音频内容；

- 从外部资源位置访问所述音频信号；

- 将所述音频内容的原始版本添加到所述中间音频记录以获取增强的音频记录，所述音频内容的所述原始版本是所述音频信号或所述音频内容的另一原始版本；

其中，访问所述音频信号包括：

- 分析音频记录以识别音频信号；

- 基于已经被识别的所述音频信号，识别包括所述音频信号的资源位置；以及

- 从所述资源位置访问所述音频信号。

2.根据权利要求1所述的方法，其中，识别所述音频信号包括：

- 使用所述音频内容的所述识别来识别所述音频信号。

3.根据权利要求1所述的方法，其中，从经由扬声器的通过播出设备的所述音频信号的播出来获取所述声音信号，并且其中，识别所述音频信号包括从所述播出设备获取指示所述音频信号的播出信息。

4.根据权利要求3所述的方法，其中，获取所述播出信息包括以下中的至少一个：

- 经由网络针对所述播出信息询问所述播出设备；以及

- 所述播出设备经由所述网络发送所述播出信息。

5.根据上面权利要求中的任一项所述的方法，还包括访问使实现在时间上关联所述音频信号与所述声音信号的记录的定时信息，并且其中，抑制所述声音信号的记录包括：

- 在所述音频记录中使用所述音频信号的所述经同步的版本抑制对所述声音信号的记录。

6.根据权利要求5所述的方法，还包括：

- 将所述音频信号的经同步的版本添加到所述中间音频记录；或者

- 将所述音频内容的其它原始版本同步至所述音频记录以获取经同步的其它原始版本，并且将所述经同步的其它原始版本添加到所述中间音频记录。

7.根据权利要求1所述的方法，其中，将所述音频内容的原始版本添加到所述中间音频记录包括将所述原始版本插入到所述音频记录作为一个或多个附加音轨。

8.根据权利要求7所述的方法，还包括使用与用于编码所述中间音频记录的其它音轨不同的编码属性来编码所述一个或多个附加音轨，所述不同编码属性优选地为不同的编解码器或不同的比特率设置。

9.根据权利要求1所述的方法，还包括调整所述音频内容的原始版本或所述中间音频记录的一个或多个音频属性，所述一个或多个音频属性为以下中的至少一个：音量、定时、音高、频率分量之间的平衡以及在参数化音频表示中使用的参数。

10.根据权利要求1所述的方法，其中，通过发送器设备获取所述音频记录以用于传输至接收器设备，其中，通过所述接收器设备执行所述音频记录中的所述声音信号的记录的抑制，并且其中，所述方法还包括：

11.一种包括计算机程序的暂时性或非暂时性计算机可读介质，所述计算机程序包括用于引起处理器系统执行根据权利要求1到10中的任一项所述的方法的指令。

12.一种用于增强音频记录的系统，包括：

- 第一输入接口，其被配置用于访问音频记录，所述音频记录至少包括声音信号的记录，所述声音信号从经由扬声器的通过播出设备的音频信号的播出获取，所述音频信号表示音频内容；

- 第二输入接口，其被配置用于从外部资源位置访问所述音频信号；以及

- 处理器系统，其被配置用于：

将所述音频内容的原始版本添加到所述中间音频记录以获取增强的音频记录，所述音频内容的所述原始版本是所述音频信号或所述音频内容的另一原始版本；

所述第一输入接口还被配置用于：

- 分析音频记录以识别音频信号；

- 从所述资源位置访问所述音频信号。

13.一种被配置供在用于增强音频记录的系统中使用的发送器设备，所述系统包括所述发送器设备和接收器设备，所述发送器设备包括：

- 第一输入接口，其被配置用于访问音频记录，所述音频记录至少包括声音信号的记录，所述声音信号从经由扬声器的通过播出设备的音频信号的播出获取，所述音频信号表示音频内容；以及

- 处理器系统的至少一部分，被配置用于：

在所述音频记录中使用所述音频信号抑制所述声音信号的记录，从而获取中间音频记录；

传输所述中间音频记录给所述发送器设备；以及

检索并随后传输所述音频信号给所述接收器设备；或者

- 向所述接收器设备传输指示可从其处访问所述音频信号的资源位置的元数据。

14.一种被配置供在用于增强音频记录的系统中使用的接收器设备，所述系统包括发送器设备和所述接收器设备，所述接收器设备包括：

- 第一输入接口，被配置用于：

从所述发送器设备检索所述音频记录，所述音频记录至少包括声音信号的记录，所述声音信号从经由扬声器的通过播出设备的音频信号的播出获取，所述音频信号表示音频内容，

从所述发送器设备接收所述音频信号或指示可从其处访问所述音频信号的资源位置的元数据；以及

- 处理器系统的至少一部分，被配置用于：

15.根据权利要求14所述的接收器设备，还包括第二输入接口，用于基于所述元数据从所述资源位置检索所述音频信号。