CN115735365A

CN115735365A - 用于上混合视听数据的系统和方法

Info

Publication number: CN115735365A
Application number: CN202080102480.6A
Authority: CN
Inventors: 马诺伊·普拉卡尔; 丹·埃利斯; 肖恩·赫尔希; 理查德·钱宁·莫尔三世; 阿伦·扬森
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-03-03
Also published as: WO2022046045A1; EP4154157A1; US20230308823A1; KR20230017287A; JP2023538801A

Abstract

一种用于上混合视听数据的计算机实施的方法可以包括：获得视听数据，所述视听数据包括输入音频数据和伴随所述输入音频数据的视频数据。所述视频数据的每帧可以仅描绘较大场景的一部分。所述输入音频数据可以具有第一数量的音频通道。所述计算机实施的方法可以包括：将所述视听数据作为输入提供给机器学习的视听上混合模型。所述视听上混合模型可以包括序列到序列模型，所述序列到序列模型被配置为在所述视频数据的多帧上对所述较大场景内的一个或多个音频源的相应地点进行建模。所述计算机实施的方法可以包括：从所述视听上混合模型接收上混合音频数据。所述上混合音频数据可以具有第二数量的音频通道。所述第二数量的音频通道可以大于所述第一数量的音频通道。

Description

用于上混合视听数据的系统和方法

技术领域

本公开总体上涉及用于上混合视听数据的系统和方法。更具体地，本公开涉及机器学习的模型，诸如序列到序列模型，它被配置为产生具有比输入音频数据更大数量的音频通道的上混合音频数据。

背景技术

音频数据可以以具有变化的质量和/或信息程度的各种格式表示。作为一个示例，音频数据可以包括与一个或多个音频通道相关联的信息。例如，音频回放系统可以包括(和/或模拟存在)多个回放设备，所述回放设备可以使用来自音频通道的信息以模拟周围环境中的音频源的方式向用户提供音频。包括音频数据的视听数据(例如视听媒体)可以被提供给用户用于信息、娱乐和/或其他合适的功能。

发明内容

本公开的实施例的各个方面和优点将在以下描述中部分地陈述，或者可以从描述来学习，或者可以通过实施例的实践来学习。

本公开的一个示例方面针对一种用于上混合视听数据的计算机实施的方法。计算机实施的方法可以包括：由包括一个或多个计算设备的计算系统，获得包括输入音频数据和伴随输入音频数据的视频数据的视听数据。视频数据的每帧可以仅描绘较大场景的一部分。输入音频数据可以具有第一数量的音频通道。计算机实施的方法可以包括：由计算系统，将视听数据作为输入提供给机器学习的视听上混合模型。视听上混合模型可以包括序列到序列模型，该序列到序列模型被配置为在视频数据的多帧上对较大场景内的一个或多个音频源的相应地点进行建模。计算机实施的方法可以包括：由计算系统，从视听上混合模型接收上混合音频数据。上混合音频数据可以具有第二数量的音频通道。第二数量的音频通道可以大于第一数量的音频通道。

本公开的另一个示例方面针对一种被配置用于上混合视听数据的计算系统。该计算系统可以包括一个或多个处理器以及一个或多个存储器设备，所述一个或多个存储器设备存储包括指令的计算机可读数据，所述指令在被实施时，使所述一个或多个处理器执行操作。所述操作可以包括：获得视听数据，所述视听数据包括输入音频数据和伴随输入音频数据的视频数据。输入音频数据可以具有第一数量的音频通道。所述操作可以包括：将视听数据作为输入提供给机器学习的视听上混合模型。视听上混合模型可以包括序列到序列模型。所述操作可以包括：从视听上混合模型接收上混合音频数据。上混合音频数据可以具有第二数量的音频通道。第二数量的音频通道可以大于第一数量的音频通道。

本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

本公开的各种实施例的这些和其他特征、方面和优点将参照以下描述和所附权利要求而变得更好理解。被并入到本说明书中并且构成本说明书的一部分的附图图示了本公开的示例实施例，并且连同描述一起用于解释相关原理。

附图说明

针对本领域的普通技术人员的实施例的详细讨论在参照附图的本说明书中进行陈述，其中：

图1A描绘了根据本公开的示例实施例的执行视听上混合的示例计算系统的框图。

图1B描绘了根据本公开的示例实施例的执行视听上混合的示例计算设备的框图。

图1C描绘了根据本公开的示例实施例的执行视听上混合的示例计算设备的框图。

图2描绘了根据本公开的示例实施例的示例视听上混合模型的框图。

图3描绘了根据本公开的示例实施例的示例视听嵌入模型的框图。

图4描绘了根据本公开的示例实施例的示例视听上混合模型的框图。

图5描绘了根据本公开的示例实施例的示例环绕声环境的框图。

图6描绘了根据本公开的示例实施例的执行视听上混合的示例方法的流程图。

跨多个附图重复的附图标记旨在标识各种实施方式中的相同特征。

具体实施方式

通常，本公开针对用于上混合视听数据的系统和方法。例如，系统和方法可以采用一个或多个机器学习的模型，诸如序列到序列模型，以将音频数据上混合到包括音频数据和伴随的视频数据——诸如二维视频数据——的视听数据中。二维视频数据可以允许机器学习的模型学习与音频数据相关联的空间特征，并且产生反映视频数据的至少一部分的空间特征和对应音频数据的音频特征的视听嵌入。例如，视听嵌入可以被(例如由机器学习的模型)使用机器学习的模型来产生上混合音频数据。上混合音频数据可以具有比原始音频数据更大数量的音频通道。例如，音频数据可以从单声道音频(例如具有一个音频通道的音频数据)上混合到立体声音频(例如具有诸如左和右音频通道的两个音频通道的音频数据)。作为另一个示例，音频数据可以从单声道和/或立体声音频上混合到具有三个或更多个音频通道的环绕声音音频数据，诸如六个音频通道(例如5.1音频通道)，诸如大于五个音频通道。作为另一个示例，具有较低数量的音频通道的环绕声音音频数据可以被上混合到具有较大数量的音频通道的环绕声音频。

本文描述的系统和方法可以提供与二维视频数据(例如从二维相机捕获的视频数据)相关联的单声道和/或立体声音频的上混合，诸如表示为多个像素的视频数据，其中每个像素在二维像素阵列中都具有位置。例如，许多专业和/或业余创建的视频媒体(例如在视频共享网站上被共享)包括二维视频和单声道或立体声音频，因为该形式的媒体可以使用常见设备(例如移动电话、摄像机等)容易地捕获。

与二维视频相关联的上混合音频数据能够带来挑战，因为二维视频数据能够提供对二维视频环境的不完整理解，其常规上是创建环绕声体验所必需的。例如，环绕声音频创建常规上可能需要理解与相机视角相关联的三维空间，从所述相机视角来看，视频数据被捕获，诸如与音频源相关联的方向。作为一个示例，环绕声音频可以由具有集合或记录空间周围的已知和/或相关位置的多个麦克风捕获。当这样的信息不可用时，诸如在具有单声道或立体声音频的二维视频中和/或其他低维或低音频通道音频中，能够难以准确地产生上混合音频数据。例如，可能难以或不可能准确地放置来源于静止和/或移动对象的音频数据，诸如静止和/或移动的屏幕外对象(例如环境声音等)，这在产生环绕声音频方面可能是必需的或至少是有益的。此外，与三维视频相关联的更完整的空间感知可能不存在于二维视频中，从而进一步使上混合音频数据的产生复杂化。

例如，视听数据可能是或包括不完整的视频数据。即，视频数据可以提供对声学环境的不完整理解。其示例可以是视频数据包括二维视频数据的情况。例如，视频数据可以由二维相机捕获。

针对不完整的视频数据，视频数据的每帧描绘了仅包括较大场景的一部分的场景。例如，视频数据的帧可以是或包括多个边界。边界可以定义场景的范围，其中较大的场景延伸到边界之外。边界可以由用于捕获视听数据的记录设备——诸如相机——的物理限制或设置来定义。在一些示例中，边界可以包括总体上竖直的边界，例如视频数据可以不提供水平平面中的360度视图。

与视频数据相比，记录的音频数据将通常从较大的场景中捕获声音。例如，在第一时间段中，视频数据和音频数据两者都可以包括生成声音的对象(例如相机和麦克风可以捕获沿着道路驾驶的汽车)。在第二时间段中，对象可能已经移动到视频数据的边界之外(例如汽车可能驾驶超过相机并且离开相机的拍摄范围)。然而，由对象生成的声音仍将被记录，并因此存在于音频数据中。

根据本公开的示例方面的系统和方法可以通过采用机器学习的模型，诸如序列到序列机器学习的模型(例如编码器解码器模型、变换器模型等)，来基于相关的视听数据产生视听嵌入，从而为这些和其他问题提供解决方案。例如，相关的视听数据可以包括具有第一数量的音频通道——诸如少于三个音频通道——的音频数据和对应的视频数据，诸如包括视频帧序列(例如图像)的视频数据。因此，根据本公开的示例方面的系统和方法可以产生包括对视听数据的空间特征的理解的视听嵌入。例如，系统和方法可以为每个输入记录(例如音频数据)产生视听嵌入序列。视听嵌入可以被用于产生上混合音频数据。例如，根据本公开的示例方面，包括单声道和/或立体声音频的视频和/或其他视听媒体可以被转换为包括环绕声音频的视频或其他视听媒体。例如，环绕声音音频数据可以针对空间上变化的回放设备在多个通道处提供音频信号，所述回放设备可以以改进用户体验的方式为用户播放音频，诸如模拟源自可能在回放设备其他地方的地点(例如与对象在视频数据中的地点相对应)的音频。例如，两个或更多个通道处的音频信号可以包括与相同音频事件(例如特定声音效果、口语词等)相关联的音频签名，使得用户将音频事件感知为源自不同于回放设备的空间。即使针对可以仅提供对音频场境的有限理解的二维视频数据，系统和方法也可以显著地执行该上混合。

除了可用于产生上混合音频数据外，视听嵌入还可以被用于声音分离任务、声音定位任务、语义分析任务和可以通过空间理解改进的其他合适的音频定位任务。例如，视听嵌入可以被馈送到声音分离模型、声音定位模型、语义分析模型或另一个合适的任务模型，诸如机器学习的模型。

根据本公开的示例方面，计算系统可以包括一个或多个处理器。所述一个或多个处理器可以被配置为执行用于实施上混合视听数据的计算机实施的方法的操作。例如，计算系统可以包括存储包括指令的计算机可读数据的一个或多个存储器设备，所述指令在被实施时，使所述一个或多个处理器执行操作。计算系统可以是或可以包括一个或多个计算设备，诸如包括所述一个或多个处理器中的一些或者全部的一个或多个计算设备。作为一个示例，计算系统可以包括服务器计算系统、客户端计算系统(例如个人计算设备)、移动设备(例如智能手机、平板计算机、媒体播放器等)和/或包括任何合适的计算设备的任何其他合适的计算系统。

在一些实施方式中，操作可以被实施为程序或应用中的应用层，诸如在被配置为产生或以其他方式提供视听数据的第一层和/或被配置为向用户提供视听数据的第二层之间被提供。作为另一个示例，在一些实施方式中，操作可以利用视听媒体的创建、存储、上传和/或其他传送来连续地被实施。例如，视听媒体可以利用低音频通道音频数据来被创建和/或被传送，并且在创建和/或传送期间，操作可以被实施以产生与低音频通道音频数据一起被提供和/或可替代地被提供的上混合音频数据。例如，上混合音频数据可以与低音频通道音频数据一起被存储在视频上传服务和/或视频流服务中，使得用户可以选择上混合视频数据作为播放选项。

操作和/或计算机实施的方法可以包括(例如由包括一个或多个计算设备的计算系统)获得视听数据。视听数据可以包括音频数据和伴随音频数据的视频数据。例如，音频数据和/或视频数据可以被对应地时间划分。例如，在一些实施方式中，音频数据可以是或可以包括谱图。例如，谱图可以包括关于相对于时间的频率和/或强度的信息。在一些实施方式中，音频数据可以包括音频数据中的一个或多个音频通道中的每个音频通道的谱图。视听数据可以实时(例如从一个或多个记录设备)、从文件(例如媒体文件)和/或以任何其他合适的方式被获得。

视频数据可以是或可以包括便于用户进行视频播放的任何合适格式的计算机可读数据。例如，视频数据可以包括多个视频帧的序列。视频帧可以是图像，诸如RGB图像、CMYK图像和/或任何其他合适的图像。附加地和/或可替代地，视频数据可以以任何合适的格式被存储，诸如提供视频数据压缩的文件格式，诸如例如MP4格式(例如mp4、m4a等)、WMV格式、OGG格式、MOV格式和/或任何其他合适的格式。在一些实施方式中，视频文件格式可以附加地被配置为存储音频数据。在一些实施方式中，视频数据可以是或可以包括二维视频数据(例如从二维相机捕获的视频数据)，诸如表示为多个像素的视频数据，其中每个像素在二维像素阵列中具有位置。

附加地和/或可替代地，操作和/或计算机实施的方法可以包括(例如由计算系统)向视听上混合模型提供视听数据。视听上混合模型可以被配置为接收视听数据(例如音频数据和/或伴随的视频数据)，并且响应于接收到视听数据，基于视听数据来产生上混合音频数据。例如，操作和/或计算机实施的方法可以包括响应于向视听上混合模型提供视听数据，(例如由计算系统)从视听上混合模型接收上混合音频数据。

与作为视听数据的一部分包括的音频数据相比，上混合音频数据可以具有更大数量的音频通道。例如，上混合音频数据可以被提供给包括多个回放设备(例如和/或被配置为模拟多个回放设备)的音频回放系统，其中每个回放设备与唯一的音频通道相关联。作为另一个示例，上混合音频数据可以被存储(例如与视频数据一起)为媒体文件，诸如视听媒体文件。例如，视听上混合模型可以被配置为直接基于视听数据产生上混合音频数据，这可以为与显式实例化坐标系和对象定位任务、声音分离任务等的其他要求相关联的复杂性提供解决方案。例如，视听上混合模型的使用可以避免需要对音频数据的显式(例如显式实例化，诸如通过坐标系)360度理解。

音频通道可以是或包括用于向一个或多个回放设备——诸如扬声器、耳机等——传达音频信号的合适介质。例如，音频通道可以是或可以包括有线或其他隔离信号通信介质。作为另一个示例，音频通道可以是或包括诸如复用信号的多个通道的信号中的逻辑划分。音频数据可以包括与多个音频通道相关联的数据，诸如与音频数据被配置用于的每个通道相关联的唯一音频信号(例如唯一谱图)。例如，在包括与多个音频通道相关联的数据的音频数据的播放期间，每个通道的音频数据可以被(例如独立地)馈送到唯一的回放设备(例如扬声器)，使得每个回放设备输出不同的声音。

原始音频数据和/或上混合音频数据的音频通道可以各自是完整的音频通道和/或可以是或包括部分音频通道。例如，上混合音频数据可以是5.1通道音频数据，其包括具有全频带的五个通道和具有有限频带的第六通道(例如用于效果)。

附加地和/或可替代地，通道可以与已知的空间配置相关联。例如，单通道音频数据(例如单声道音频)可以被提供给每个回放设备，而不管空间定向如何，这对于向用户传达完整的音频数据可能是有益的，无论用户是在一个回放设备上还是在许多回放设备上正在收听(例如仅收听一对耳机中的单个耳机)。作为另一个示例，双通道音频数据(例如立体声音频)可以包括通常与相对于观察点(例如电视屏幕、耳机前面等)的左侧相关联的一个通道，并且被配置为向用户的左侧(例如在观察点左侧的回放设备处)提供音频，而第二通道可以与右侧相关联。

附加地，5.1通道系统可以包括具有左前通道、右前通道、中央通道、左环绕通道、右环绕通道和/或低频效果通道(例如用于超低音音箱)的音频数据。虽然数据可能不一定从按照该约定布置的回放设备被提供给用户，但是如果被提供给与该配置匹配的回放设备，则音频数据通常将如音频数据所意图的向用户传达声学环境。根据本公开的示例方面，包括任何合适数量的通道的其他合适的音频数据配置可以被采用。

视听上混合模型可以包括一个或多个输入流和/或输出流。例如，在一些实施方式中，视听上混合模型可以包括用于输入数据的每个通道的一个输入流，诸如用于输入音频数据的每个音频通道的一个流和用于视频数据的流。作为另一个示例，视听上混合模型可以包括用于上混合音频数据的每个通道的一个输出流。例如，被配置为将双通道立体声音频转换为5.1通道环绕声音频的视听上混合模型可以包括用于双通道音频数据的两个输入流、用于视频数据的输入流和用于5.1通道环绕声音音频数据的六个输出流。

通过使用音频数据和伴随的视频数据两者作为输入数据，视听上混合模型可以学习视频数据中的(例如声音产生的)对象的地点与音频数据中的对应音频信号之间的对应关系。该对应关系可用于从音频信号重构上混合声音景观(例如环绕声音音频数据)。例如，视听上混合模型可以基于视频数据学习与屏幕上的声音产生对象相关的信息。附加地，视听上混合模型可以对屏幕外的对象做出有根据的预测，诸如基于对象最后被看到或即将进入的位置的预测。

在一些实施方式中，模型可以被约束为要求对象地点的连续性(例如相对于视频数据中的固定视角)。例如，约束对象地点的连续性可以辅助模型为视频数据中的对象提供合理的源地点指派。例如，约束可以被实施为对状态向量和/或输出中的潜在改变的限制。

视听上混合模型可以是机器学习的(例如是或包括一个或多个机器学习的模型)。例如，视听上混合模型可以是自监督的机器学习的模型。在一些实施方式中，视听上混合模型可以是或可以包括(例如机器学习的)序列到序列模型。序列到序列模型可以是被配置为采用第一数据序列(例如视听数据)并且基于第一数据序列产生第二数据序列(例如上混合音频数据)的模型。作为示例，序列到序列模型可以是或可以包括编码器-解码器模型、神经网络(例如递归神经网络(RNN)、卷积神经网络(CNN)等)、长短期记忆(LSTM)模型、变换器模型、门控递归单元(GRU)模型和/或其他合适的序列到序列模型或其部分。

序列到序列模型可以被配置为在视频数据的多帧上对较大场景内的一个或多个音频源的相应地点进行建模。例如，序列到序列模型(例如编码器-解码器)可以将输入视听数据映射到数据的潜伏时序向量表示，其可以被用于生成每个输出通道。例如，序列到序列模型可以直观地考虑贯穿视频数据中的场景的对象的地点，即使是对象在屏幕外时。这可以辅助模型构建准确的上混合音频数据，其保留移动的或屏幕外的对象、场景中的来源于相机后面的对象的环境音频等的空间一致性。

作为一个示例，视听上混合模型可以是或可以包括编码器-解码器模型，诸如包括一个或多个神经网络(例如递归神经网络、卷积神经网络、线性网络等)的编码器-解码器模型。例如，编码器-解码器模型可以通过将输入数据提供给编码器子模型来捕获输入数据(例如视听数据)的场境信息作为内部状态向量(例如嵌入)。例如，在一些实施例中，编码器子模型可以包括用于每个输入序列的输入通道(例如单独的映射神经网络)。例如，编码器子模型可以包括用于视听数据中所包括的音频数据和视频数据的单独的和/或相关的输入通道(例如单独的神经网络)。包括相关的输入通道可以允许视听上混合模型学习视频数据中存在的并且与音频数据相关联的场境信息，这对于上混合音频数据尤其是对于二维视频数据能够是有益的。

内部状态向量可以被提供给解码器子模型，以基于内部状态向量产生输出数据(例如上混合音频数据)。内部状态向量可以附加地保留来自先前状态(例如序列中的先前输入)的信息，这可以允许序列到序列模型学习输入数据的历史信息(例如当前视频帧中可能在屏幕外的视频数据中的先前视觉实体)。子模型(例如编码器子模型和/或解码器子模型)可以包括神经网络，诸如递归神经网络。

在一些实施方式中，视听上混合模型可以包括注意力机制。注意力机制可以被配置为允许视听上混合模型观察输入数据的窗口，诸如输入数据序列中的输入数据的多于一个条目。例如，窗口可以是时间窗口(例如输入数据序列的子集)。作为示例，诸如在视听上混合模型是编码器-解码器模型的实施方式中，注意力机制可以包括各自被提供给解码器子模型的多于一个内部状态向量。附加地和/或可替代地，注意力机制可以包括一个或多个场境向量。例如，场境向量可以是内部状态向量的一个或多个加权和。包括多个场境向量和/或内部状态向量可以提供对视听数据的更深入理解，其包括在更长的时间序列上的理解(例如以记住场景中先前与屏幕外对象相关联的信息)。场境向量可以与内部状态向量组合，并且被用于代替单个内部状态向量(例如作为解码器子模型的输入被提供)。附加地和/或可替代地，注意力机制可以包括对准模型(例如机器学习的模型)，其被配置为提供输入内部状态向量的注意力分数。例如，注意力分数可以由特定内部状态向量的对准模型提供(例如与场境向量组合)，以确定与内部状态向量相关联的特定输入数据条目有多重要。

例如，在一些实施方式中，视听上混合模型可以产生输入视听数据的低维嵌入(例如具有小于100维的嵌入)。例如，诸如在具有带有注意力机制的编码器-解码器模型的实施方式中，嵌入可以由编码器子模型产生。这些嵌入可以对关于相关音频和视觉事件(例如具有对应的声音产生对象的地点的声音)的有用信息进行编码。针对空间敏感的各种音频任务，嵌入可以被提供给任务特定的机器学习的模型(例如任务特定层，诸如神经网络层)。作为一个示例，嵌入可以被提供为声音分离模型的输入，该声音分离模型产生隔离的音频信号，其中编码的视频信息可以有益于分离音频源。作为另一个示例，嵌入可以被提供给声源定位模型以定位声源，其中编码的视频信息可以有益于定位声源。例如，嵌入可以用于执行高质量视听场景的部分和/或完整注释任务。

附加地和/或可替代地，在一些实施方式中，视听上混合模型可以被配置为接收与视听数据相关联的补充数据。补充数据可以是或可以包括补充视听数据中的音频和/或视频数据的数据。作为一个示例，补充数据可以包括与视频数据相关联的对象检测数据(例如来自对象检测模型)，诸如对象边界(例如边界框)、对象分类、对象追踪(例如对象轨迹，诸如预测轨迹)、相机追踪信息和/或任何其他合适的补充数据。然而，在一些实施方式中，视听上混合模型可以学习上混合音频数据而不需要该补充数据，这在减少导出补充数据的附加数据处理要求和/或在这样的数据不可用的情况下(例如针对二维视频中的屏幕外对象)能够是有益的。例如，视听上混合模型可以共同学习关于对象检测和追踪来上混合音频数据(例如关于空间特征来上混合音频数据)，而不需要这些任务和/或提供关于这些任务的信息的数据的实例化和/或传送的单独模型。

附加地和/或可替代地，根据本公开的示例方面的系统和方法可以提供训练视听上混合模型。例如，包括一个或多个计算设备的计算系统可以被配置为在训练数据上训练视听上混合模型。模型可以在模型在推断时间操作的相同地点(例如存储器中的相同地址、相同计算设备等)处被训练，和/或可以在第一计算系统(例如训练计算系统)处被训练，并且在训练之后和/或推断时间之前被传送到单独的第二计算系统。例如，训练视听上混合模型可以包括：(例如由具有一个或多个计算设备的计算系统)获得视听训练数据，该视听训练数据包括具有第二数量的音频通道的视频训练数据和音频训练数据；(例如由计算系统)下混合音频训练数据以产生包括第一数量的音频通道的下混合音频训练数据；将视频训练数据和对应的下混合音频训练数据(由计算系统)提供给视听上混合模型；从视听上混合模型(例如由计算系统)获得具有第二数量的音频通道的预测上混合音频数据输出；(例如由计算系统)确定预测上混合音频数据与音频训练数据之间的差异；以及基于该差异(例如由计算系统)更新模型的一个或多个参数。

例如，训练视听上混合模型可以包括(例如由包括一个或多个计算设备的计算系统)获得包括视听训练数据的训练数据。视听训练数据可以是或可以包括视频数据和/或伴随视频数据的较高通道音频数据。例如，视听训练数据可以包括多个(例如数千个或更多个)视频媒体实体，诸如专业和/或业余视频，其包括较高通道音频数据，诸如环绕声音频。较高通道音频数据可以包括与多个音频通道——诸如第一数量的音频通道——相关联的数据。例如，较高通道音频数据可以是具有大于三个音频通道(例如六个音频通道)——诸如视听上混合模型用于输出所期望的多个通道——的环绕声较高通道音频数据。

训练视听上混合模型可以附加地和/或可替代地包括(例如由计算系统)下混合视听训练数据的音频数据，以产生下混合音频数据。与通常能够需要预测来填充与较高数量的通道相关联的数据的上混合音频数据不同，下混合音频数据通常可以被确定性地执行，诸如通过规则、启发式、协议等。例如，将环绕声音频和/或立体声音频下混合到单声道音频可以简单地包括在单个音频通道上组合多个音频通道中的每个音频通道。

作为一个示例，下混合音频数据可以包括获得具有第一数量通道的较高通道音频数据，以被下混合到具有第二数量通道的较低通道音频数据。针对较高通道音频数据的每个音频通道，较低通道音频数据中的对应通道——诸如最近的(例如空间上最接近的)通道——可以被选择，并且来自较高通道音频数据音频通道的音频数据可以与较低通道音频数据的对应通道相关联。例如，较高通道音频数据的一个或多个音频通道可以被组合在较低通道音频数据中的单个音频通道上。

视听上混合模型可以通过向视听上混合模型提供视频数据和对应的下混合音频数据来被训练。例如，原始的较高通道音频数据可以被用作视听上混合模型的预期输出，并且来自视听上混合模型的预测的较高通道音频数据可以针对原始的较高通道音频数据来被评估。例如，用于训练模型(例如通过反向传播)的损失可以基于原始和预测的较高通道音频数据之间的差异。例如，损失函数可以包括对复杂谱图的回归。作为另一个示例，损失函数可以包括对幅度谱图的回归，这可以被输入到渐渗波形重构系统。

本公开的各个方面可以提供多个技术效果和益处。例如，即使在视频数据提供对声学环境的不完整理解的情况下，诸如例如在视频数据是二维的情况下，本公开的各个方面也可以实现音频数据与伴随的视频数据的上混合。

例如，本公开的各个方面可以提供对计算技术的改进。例如，通过获得包括输入音频数据和伴随输入音频数据的视频数据的视听数据，输入音频数据具有第一数量的音频通道，将视听数据作为输入提供给机器学习的视听上混合模型，并且从具有第二数量的音频通道的视听上混合模式接收上混合音频数据，第二数量的音频通道大于第一数量的音频通道，本公开的各个方面可以改进计算技术。例如，这可以提供具有更大数量的音频通道的输入音频数据的改进表示，这可以允许使用音频数据(例如用于音频播放)的计算系统提供改进的用户收听体验，诸如音频事件中的改进的空间分集。

现在参照附图，本公开的示例实施例将被进一步详细讨论。

图1A描绘了根据本公开的示例实施例的执行视听上混合的示例计算系统100的框图。系统100包括通过网络180通信耦合的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102可以是任何类型的计算设备，诸如例如个人计算设备(例如膝上型计算机或台式计算机)、移动计算设备(例如智能手机或平板计算机)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或者任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。所述一个或多个处理器112可以是任何合适的处理设备(例如处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或者被操作地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器114可以存储数据116和指令118，所述数据116和指令118由处理器112执行以使用户计算设备102执行操作。

在一些实施方式中，用户计算设备102可以存储或包括一个或多个视听上混合模型120。例如，视听上混合模型120可以是或者可以以其他方式包括各种机器学习的模型，诸如神经网络(例如深度神经网络)或者其他类型的机器学习的模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如长短期记忆递归神经网络)、卷积神经网络或者其他形式的神经网络。示例视听上混合模型120参照图2至3讨论。

在一些实施方式中，所述一个或多个视听上混合模型120可以通过网络180从服务器计算系统130接收，在用户计算设备存储器114中被存储，并且然后由所述一个或多个处理器112使用或以其他方式实施。在一些实施方式中，用户计算设备102可以实施单个视听上混合模型120的多个并行实例(例如跨视听上混合服务的多个实例执行并行视听上混合)。

更具体地，视听上混合模型可以被配置为接收视听数据(例如音频数据和/或伴随的视频数据)，并且响应于接收到视听数据，基于视听数据来产生上混合音频数据。例如，操作和/或计算机实施的方法可以包括：响应于向视听上混合模型提供视听数据，(例如由计算系统)从视听上混合模型接收上混合音频数据。

与作为视听数据的一部分包括的音频数据相比，上混合音频数据可以具有更大数量的音频通道。例如，上混合音频数据可以被提供给包括多个回放设备(例如和/或被配置为模拟多个回放设备)的音频回放系统，其中每个回放设备与唯一的音频通道相关联。作为另一个示例，上混合音频数据可以被存储(例如与视频数据一起)为媒体文件，诸如视听媒体文件。例如，视听上混合模型可以被配置为直接基于视听数据产生上混合音频数据，这可以为与显式实例化坐标系和对象定位任务、声音分离任务等的其他要求相关联的复杂性提供解决方案。例如，视听上混合模型的使用可以避免需要对音频数据的360度理解。

附加地或可替代地，一个或多个视听上混合模型140可以被包括或者以其他方式存储在服务器计算系统130中并且由服务器计算系统130实施，该服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如，视听上混合模型140可以由服务器计算系统140实施为web服务(例如视听上混合服务)的一部分。因此，一个或多个模型120可以被存储和实施在用户计算设备102处和/或一个或多个模型140可以被存储和实施在服务器计算系统130处。

用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如手指或手写笔)的触摸敏感的触敏组件(例如触摸显示屏或触摸板)。触敏组件可以用于实施虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或者用户通过其可以提供用户输入的其他部件。

服务器计算系统130包括一个或多个处理器132和存储器134。所述一个或多个处理器132可以是任何合适的处理设备(例如处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或者被操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器134可以存储数据136和指令138，该数据136和指令138由处理器132执行以使服务器计算系统130执行操作。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备，或者以其他方式由其实施。在服务器计算系统130包括多个服务器计算设备的实例中，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某个组合来操作。

如上所述，服务器计算系统130可以存储或以其他方式包括一个或多个机器学习的视听上混合模型140。例如，模型140可以是或可以以其他方式包括各种机器学习的模型。示例机器学习的模型包括神经网络或者其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。示例模型140参照图2至3讨论。

用户计算设备102和/或服务器计算系统130可以经由与训练计算系统150的交互来训练模型120和/或140，该训练计算系统150通过网络180被通信地耦合。训练计算系统150可以与服务器计算系统130分离，或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。所述一个或多个处理器152可以是任何合适的处理设备(例如处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或者被操作地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器154可以存储数据156和指令158，该数据156和指令158由处理器152执行以使训练计算系统150执行操作。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备，或者以其他方式由其实施。

训练计算系统150可以包括模型训练器160，它使用各种训练或学习技术——诸如例如误差的向后传播——来训练在用户计算设备102和/或服务器计算系统130处存储的机器学习的模型120和/或140。例如，损失函数可以通过模型来反向传播，以更新模型的一个或多个参数(例如基于损失函数的梯度)。各种损失函数可以被使用，诸如均方误差、似然损失、交叉熵损失、铰链损失和/或各种其他损失函数。梯度下降技术可以被用于通过多个训练迭代来迭代地更新参数。

在一些实施方式中，执行误差的反向传播可以包括通过时间执行截断反向传播。模型训练器160可以执行多个泛化技术(例如权重衰减、信息漏失等)以改进被训练的模型的泛化能力。

具体地，模型训练器160可以基于训练数据集合162训练视听上混合模型120和/或140。训练数据162可以包括例如视听训练数据。视听训练数据可以是或可以包括视频数据和/或伴随视频数据的较高通道音频数据。例如，视听训练数据可以包括多个(例如数千个或更多个)视频媒体实体，诸如专业和/或业余视频，其包括较高通道音频数据，诸如环绕声音频。较高通道音频数据可以包括与多个音频通道——诸如第一数量的音频通道——相关联的数据。例如，较高通道音频数据可以是具有大于三个音频通道(例如六个音频通道)——诸如视听上混合模型用于输出所期望的多个通道——的环绕声较高通道音频数据。

附加地和/或可替代地，训练数据可以包括从较高通道音频数据下混合的下混合音频数据。例如，视频数据和对应的下混合音频数据到视听上混合模型。例如，原始的较高通道音频数据可以被用作视听上混合模型的预期输出，并且来自视听上混合模型的预测的较高通道音频数据可以针对原始的较高通道音频数据来被评估。例如，用于训练模型(例如通过反向传播)的损失可以基于原始和预测的较高通道音频数据之间的差异。例如，损失函数可以包括对复杂谱图的回归。作为另一个示例，损失函数可以包括对幅度谱图的回归，这可以被输入到渐渗波形重构系统。

在一些实施方式中，如果用户已经提供了同意，则训练示例可以由用户计算设备102提供。因此，在这样的实施方式中，被提供给用户计算设备102的模型120可以由训练计算系统150在从用户计算设备102接收的用户特定数据上训练。在一些实例中，该过程可以被称为个性化模型。

模型训练器160包括用于提供期望功能性的计算机逻辑。模型训练器160可以被实施在控制通用处理器的硬件、固件和/或软件中。例如，在一些实施方式中，模型训练器160包括在存储设备上被存储、被加载到存储器中并且由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器160包括在有形计算机可读存储介质——诸如RAM硬盘或者光学或磁性介质——中被存储的计算机可执行指令的一个或多个集合。

网络180可以是任何类型的通信网络，诸如局域网(例如内联网)、广域网(例如互联网)或其某个组合，并且可以包括任何数量的有线或无线链路。通常，通过网络180的通信可以经由任何类型的有线和/或无线连接，使用各种通信协议(例如TCP/IP、HTTP、SMTP、FTP)、编码或者格式(例如HTML、XML)和/或保护方案(例如VPN、安全HTTP、SSL)来执行。

本说明书中描述的机器学习的模型可以被用于各种任务、应用和/或用例，诸如例如视听上混合、声音分离和/或隔离等。

在一些实施方式中，本公开的机器学习的模型的输入可以是图像数据(例如包括多个图像帧的视频数据的图像帧)。机器学习的模型可以处理图像数据以生成输出。作为示例，机器学习的模型可以处理图像数据以生成图像辨识输出(例如图像数据的辨识、图像数据的潜伏嵌入、图像数据的编码表示、图像数据的散列等)。作为另一个示例，机器学习的模型可以处理图像数据以生成图像分割输出。作为另一个示例，机器学习的模型可以处理图像数据以生成图像分类输出。作为另一个示例，机器学习的模型可以处理图像数据以生成图像数据修改输出(例如图像数据的更改等)。作为另一个示例，机器学习的模型可以处理图像数据以生成编码图像数据输出(例如图像数据的编码和/或压缩表示等)。作为另一个示例，机器学习的模型可以处理图像数据以生成上混合图像数据输出。作为另一个示例，机器学习的模型可以处理图像数据以生成预测输出。

在一些实施方式中，本公开的机器学习的模型的输入可以是潜伏编码数据(例如输入的潜伏空间表示等)。机器学习的模型可以处理潜伏编码数据以生成输出。作为另一个示例，机器学习的模型可以处理潜伏编码数据以生成辨识输出。作为另一个示例，机器学习的模型可以处理潜伏编码数据以生成重构输出。作为另一个示例，机器学习的模型可以处理潜伏编码数据以生成搜索输出。作为另一个示例，机器学习的模型可以处理潜伏编码数据以生成重新聚类输出。作为另一个示例，机器学习的模型可以处理潜伏编码数据以生成预测输出。

在一些实施方式中，本公开的机器学习的模型的输入可以是统计数据。机器学习的模型可以处理统计数据以生成输出。作为示例，机器学习的模型可以处理统计数据以生成辨识输出。作为另一个示例，机器学习的模型可以处理统计数据以生成预测输出。作为另一个示例，机器学习的模型可以处理统计数据以生成分类输出。作为另一个示例，机器学习的模型可以处理统计数据以生成分割输出。作为另一个示例，机器学习的模型可以处理统计数据以生成分割输出。作为另一个示例，机器学习的模型可以处理统计数据以生成可视化输出。作为另一个示例，机器学习的模型可以处理统计数据以生成诊断输出。

在一些情况下，机器学习的模型可以被配置为执行包括编码输入数据用于可靠和/或高效传输或存储(和/或对应解码)的任务。例如，该任务可以是音频压缩任务。输入可以包括音频数据，并且输出可以包括压缩的音频数据。在另一个示例中，输入包括视频数据(例如一个或多个图像或视频)，输出包括压缩的视频数据，并且该任务是视频数据压缩任务。在另一个示例中，该任务可以包括生成输入数据(例如输入音频或视频数据)的嵌入。

在一些情况下，输入包括视频数据，并且任务是计算机视觉任务。在一些情况下，输入包括一个或多个图像的像素数据，并且任务是图像处理任务。例如，图像处理任务可以是图像分类，其中输出是分数集合，每个分数与不同的对象类相对应，并且表示所述一个或多个图像描绘属于对象类的对象的似然性。图像处理任务可以是对象检测，其中图像处理输出标识所述一个或多个图像中的一个或多个区域，并且针对每个区域，标识该区域描绘感兴趣对象的似然性。作为另一个示例，图像处理任务可以是图像分割，其中图像处理输出为所述一个或多个图像中的每个像素定义预定类别集合中的每个类别的相应似然性。例如，类别集合可以是前景和背景。作为另一个示例，类别集合可以是对象类。作为另一个示例，图像处理任务可以是深度估计，其中图像处理输出为所述一个或多个图像中的每个像素定义相应的深度值。作为另一个示例，图像处理任务可以是运动估计，其中网络输入包括多个图像，并且图像处理输出为输入图像中的一个输入图像的每个像素定义在网络输入中的图像之间的像素处描绘的场景的运动。

图1A图示了可以被用于实施本公开的一个示例计算系统。其他计算系统也可以被使用。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集合162。在这样的实施方式中，模型120可以在用户计算设备102处被本地训练和使用。在这样的实施方式中的一些实施方式中，用户计算设备102可以实施模型训练器160以基于用户特定数据对模型120进行个性化。

图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括多个应用(例如应用1至N)。每个应用都包含其自己的机器学习库和机器学习的模型。例如，每个应用都可以包括机器学习的模型。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图1B所图示的，每个应用可以与计算设备的多个其他组件通信，诸如例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实施方式中，每个应用可以使用API(例如公共API)与每个设备组件通信。在一些实施方式中，由每个应用使用的API都特定于该应用。

图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如应用1至N)。每个应用都与中央智能层通信。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用都可以使用API(例如跨所有应用的公共API)与中央智能层(以及在其中存储的模型)通信。

中央智能层包括多个机器学习的模型。例如，如图1C所图示的，相应的机器学习的模型(例如模型)可以针对每个应用被提供，并且由中央智能层管理。在其他实施方式中，两个或更多个应用可以共享单个机器学习的模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统内或以其他方式由其实施。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备50的数据的集中储存库。如图1C所图示的，中央设备数据层可以与计算设备的多个其他组件通信，诸如例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如私有API)与每个设备组件通信。

图2描绘了根据本公开的示例实施例的示例视听上混合模型200的框图。在一些实施方式中，视听上混合模型200被训练为接收描述视听数据——诸如音频数据(例如一个或多个谱图)和/或伴随的视频数据(例如视频数据的一个或多个图像帧)——的输入数据集合204，并且作为接收到输入数据204的结果，提供输出数据206，该输出数据206包括具有比输入音频数据更大数量的通道的上混合音频数据。因此，在一些实施方式中，视听上混合模型200可以包括序列到序列模型202，诸如例如编码器-解码器模型、变换器模型等，其可操作以上混合音频数据以具有更大数量的通道，其中通道当中的音频数据的布置基于伴随的视频数据。

图3描绘了根据本公开的示例实施例的示例视听嵌入模型300的框图。视听嵌入模型300可以包括视听编码器模型302。视听编码器模型302可以被配置为基于输入数据310产生一个或多个视听嵌入303。输入数据310可以包括视听数据(例如音频数据和/或视频数据)。视听编码器模型302可以产生对输入数据310中存在的信息进行编码的嵌入303。例如，视听编码器模型302可以是与本文描述的视听上混合模型中的编码器子模型类似和/或相同的编码器。例如，来自经训练的视听上混合模型的编码器子模型可以与视听上混合模型的其他组件(诸如解码器子模型)分离，并且被用于视听嵌入模型300。对于嵌入303被提供给解码器子模型或其他上混合模型附加地或可替代地，嵌入可以被提供给任务特定模型304，该任务特定模型304被配置为基于嵌入303产生任务特定输出数据320。例如，任务特定模型304可以是声音分离模型、声源定位模型等。

图4描绘了根据本公开的示例实施例的示例视听上混合模型400的框图。视听上混合模型400类似于图2的视听上混合模型200，并且进一步包括注意力机制402。注意力机制402可以被配置为允许视听上混合模块400观察输入数据的窗口，诸如输入数据序列中的输入数据的多于一个条目。例如，窗口可以是时间窗口(例如输入数据序列的子集)。作为示例，诸如在视听上混合模型400(例如序列到序列模型402)是编码器-解码器模型的实施方式中，注意力机制402可以包括各自被提供给解码器子模型的多于一个内部状态向量。附加地和/或可替代地，注意力机制402可以包括一个或多个场境向量。例如，场境向量可以是内部状态向量的一个或多个加权和。包括多个场境向量和/或内部状态向量可以提供对视听数据的更深入理解，其包括在更长的时间序列上的理解(例如以记住场景中先前与屏幕外对象相关联的信息)。场境向量可以与内部状态向量组合，并且被用于代替单个内部状态向量(例如作为向解码器子模型的输入提供)。附加地和/或可替代地，注意力机制402可以包括对准模型(例如机器学习的模型)，其被配置为提供输入内部状态向量的注意力分数。例如，注意力分数可以由特定内部状态向量的对准模型提供(例如与场境向量组合)，以确定与内部状态向量相关联的特定输入数据条目有多重要。

图5描绘了根据本公开的示例实施例的示例环绕声环境500的框图。例如，上混合音频数据可以被配置为在根据环绕声环境500布置的回放设备上播放。例如，环绕声环境500可以根据收听区域510布置。环绕声环境500可以包括回放设备501至505，每个回放设备被配置为播放环绕声音音频数据的唯一音频通道。例如，在回放设备501至505播放环绕声音音频数据的唯一音频通道时，收听区域510处或其附近的用户或其他收听实体可以被提供改进的收听体验，诸如模仿与视频数据中的声音产生对象相关联的方向的收听体验。例如，环绕声环境500可以是5.1通道环绕声环境，其包括左前回放设备501的左前通道、中央回放设备502的中央通道、右前回放设备503的右前通道、左环绕回放设备504的左环绕通道以及右环绕回放设备505的右环绕通道。

图6描绘了根据本公开的示例实施例的执行视听上混合的示例方法的流程图。尽管出于图示和讨论的目的，图6描绘了以特定次序执行的步骤，但本公开的方法不被限于具体图示的次序或布置。在不偏离本公开的范围的情况下，方法600的各个步骤可以以各种方式被省略、被重新布置、被组合和/或被适应。

计算机实施的方法600可以包括：在602处，(例如由包括一个或多个计算设备的计算系统)获得视听数据。视听数据可以包括音频数据和伴随音频数据的视频数据。例如，音频数据和/或视频数据可以被对应地时间划分。例如，在一些实施方式中，音频数据可以是或可以包括谱图。例如，谱图可以包括关于相对于时间的频率和/或强度的信息。在一些实施方式中，音频数据可以包括音频数据中的一个或多个音频通道中的每个音频通道的谱图。视听数据可以实时(例如从一个或多个记录设备)、从文件(例如媒体文件)和/或以任何其他合适的方式获得。

视频数据可以是或可以包括便于用户进行视频播放的任何合适格式的计算机可读数据。例如，视频数据可以包括多个视频帧的序列。视频帧可以是图像，诸如RGB图像、CMYK图像和/或任何其他合适的图像。附加地和/或可替代地，视频数据可以以任何合适的格式存储，诸如提供视频数据压缩的文件格式，诸如例如MP4格式(例如mp4、m4a等)、WMV格式、OGG格式、MOV格式和/或任何其他合适的格式。在一些实施方式中，视频文件格式可以附加地被配置为存储音频数据。在一些实施方式中，视频数据可以是或可以包括二维视频数据(例如从二维相机捕获的视频数据)，诸如表示为多个像素的视频数据，其中每个像素在二维像素阵列中都具有位置。

附加地和/或可替代地，计算机实施的方法600可以包括：在604处，向视听上混合模型(例如由计算系统)提供视听数据。视听上混合模型可以被配置为接收视听数据(例如音频数据和/或伴随的视频数据)，并且响应于接收到视听数据，基于视听数据来产生上混合音频数据。例如，计算机实施的方法600可以包括：在606处，响应于向视听上混合模型提供视听数据，从视听上混合模型(例如由计算系统)接收上混合音频数据。

音频通道可以是或包括用于向一个或多个回放设备——诸如扬声器、耳机等——传达音频信号的合适介质。例如，音频通道可以是或可以包括有线或其他隔离信号通信介质。作为另一个示例，音频通道可以是或包括诸如复用信号的包括多个通道的信号中的逻辑划分。音频数据可以包括与多个音频通道相关联的数据，诸如与音频数据被配置用于的每个通道相关联的唯一音频信号(例如唯一谱图)。例如，在包括与多个音频通道相关联的数据的音频数据的播放期间，每个通道的音频数据可以被(例如独立地)馈送到唯一的回放设备(例如扬声器)，使得每个回放设备输出不同的声音。

附加地和/或可替代地，通道可以与已知的空间配置相关联。例如，单声道音频数据(例如单声道音频)可以被提供给每个回放设备，而不管空间定向如何，这对于向用户传达完整的音频数据可能是有益的，无论用户是在一个回放设备上还是在许多回放设备上正在收听(例如仅收听一对耳机中的单个耳机)。作为另一个示例，双通道音频数据(例如立体声音频)可以包括通常与相对于观察点(例如电视屏幕、耳机前面等)的左侧相关联的一个通道，并且被配置为向用户的左侧(例如在观察点左侧的回放设备处)提供音频，而第二通道可以与右侧相关联。

附加地，5.1通道系统可以包括具有左前通道、右前通道、中央通道、左环绕通道、右环绕通道和/或低频效果通道(例如用于超低音音箱)的音频数据。虽然数据可能不一定从按照该约定布置的回放设备提供给用户，但是如果被提供给与该配置匹配的回放设备，则音频数据通常将如音频数据所意图的向用户传达声学环境。根据本公开的示例方面，包括任何合适数量的通道的其他合适的音频数据配置可以被采用。

视听上混合模型可以是机器学习的(例如是或包括一个或多个机器学习的模型)。例如，视听上混合模型可以是自监督的机器学习的模型。在一些实施方式中，视听上混合模型可以是或可以包括(例如机器学习的)序列到序列模型。序列到序列模型可以是被配置为采用第一数据序列(例如视听数据)并且基于第一数据序列产生第二数据序列(例如上混合音频数据)的模型。作为示例，序列到序列模型可以是或可以包括编码器-解码器模型、神经网络(例如递归神经网络(RNN)、卷积神经网络(CNN)等)、长短期记忆(LSTM)模型、变换器模型、门控递归单元(GRU)模型和/或其他合适的序列到序列模型或其部分。例如，序列到序列模型(例如编码器-解码器)可以将输入视听数据映射到数据的潜伏时序向量表示，其可以被用于生成每个输出信道。例如，序列到序列模型可以直观地考虑贯穿视频数据中的场景的对象的地点，即使是对象在屏幕外时。

例如，在一些实施方式中，视听上混合模型可以产生输入视听数据的低维嵌入(例如具有小于100维的嵌入)。例如，诸如在具有编码器-解码器模型的带有注意力机制的实施方式中，嵌入可以由编码器子模型产生。这些嵌入可以对关于相关音频和视觉事件(例如具有对应的声音产生对象的地点的声音)的有用信息进行编码。针对空间敏感的各种音频任务，嵌入可以被提供给任务特定的机器学习的模型(例如任务特定层，诸如神经网络层)。作为一个示例，嵌入可以被提供为声音分离模型的输入，该声音分离模型产生隔离的音频信号，其中编码的视频信息可以有益于分离音频源。作为另一个示例，嵌入可以被提供给声源定位模型以定位声源，其中编码的视频信息可以有益于定位声源。例如，嵌入可以用于执行高质量视听场景的部分和/或完整注释任务。

本文讨论的技术参照服务器、数据库、软件应用和其他基于计算机的系统以及采取的动作和发送给这样的系统并且从这样的系统发送的信息。基于计算机的系统的固有的灵活性允许组件之间和当中的各种可能的配置、组合以及任务和功能性的划分。例如，本文讨论的过程可以使用单个设备或组件或组合工作的多个设备或组件来实施。数据库和应用可以被实施在单个系统上或者跨多个系统分布。分布式组件可以顺序或者并行操作。

虽然本主题已经相对于其各种具体示例实施例详细描述，但每个示例都是以解释的方式提供的，而不是对本公开的限制。在达到对前述内容的理解后，本领域技术人员可以容易地产生这样的实施例的更改、变化和等效物。因此，本主题公开不排除包括对于本领域的普通技术人员将显而易见的本主题的这样的修改、变化和/或添加。例如，作为一个实施例的一部分图示或描述的特征可以与另一个实施例一起使用，以产生又进一步的实施例。因此，本公开旨在覆盖这样的更改、变化和等效物。

Claims

1.一种用于上混合视听数据的计算机实施的方法，所述计算机实施的方法包括：

由包括一个或多个计算设备的计算系统获得视听数据，所述视听数据包括输入音频数据和伴随所述输入音频数据的视频数据，其中，所述视频数据的每帧仅描绘较大场景的一部分，并且其中，所述输入音频数据具有第一数量的音频通道；

由所述计算系统将所述视听数据作为输入提供给机器学习的视听上混合模型，所述视听上混合模型包括序列到序列模型，所述序列到序列模型被配置为在所述视频数据的多帧上对所述较大场景内的一个或多个音频源的相应地点进行建模；以及

由所述计算系统从所述视听上混合模型接收上混合音频数据，所述上混合音频数据具有第二数量的音频通道，所述第二数量的音频通道大于所述第一数量的音频通道。

2.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述视听上混合模型包括编码器-解码器模型。

3.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述视听上混合模型包括变换器模型。

4.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述视听上混合模型包括注意力机制。

5.根据权利要求4所述的计算机实施的方法，其中，所述注意力机制包括多个场境向量和对准模型。

6.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述视听上混合模型包括：多个输入流，所述多个输入流中的每个输入流与所述输入音频数据的相应音频通道相对应；以及多个输出流，所述多个输出流中的每个输出流与所述上混合音频数据的相应音频通道相对应。

7.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述视频数据包括二维视频数据。

8.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述输入音频数据包括单声道音频数据，所述单声道音频数据具有单个音频通道。

9.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述上混合音频数据包括立体声音频数据，所述立体声音频数据具有左音频通道和右音频通道。

10.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述输入音频数据包括立体声音频数据，所述立体声音频数据具有左音频通道和右音频通道。

11.根据任何一项前述权利要求所述的计算机实施的方法，其中，所述上混合音频数据包括环绕声音音频数据，所述环绕声音音频数据具有三个或更多个音频通道。

12.根据任何一项前述权利要求所述的计算机实施的方法，其中，训练所述机器学习的视听上混合模型包括：

由所述计算系统获得视听训练数据，所述视听训练数据包括视频训练数据和具有所述第二数量的音频通道的音频训练数据；

由所述计算系统下混合所述音频训练数据，以产生包括所述第一数量的音频通道的下混合音频训练数据；

由所述计算系统将所述视频训练数据和对应的下混合音频训练数据提供给所述视听上混合模型；

由所述计算系统从所述视听上混合模型获得包括所述第二数量的音频通道的预测上混合音频数据输出；

由所述计算系统确定在所述预测上混合音频数据和所述音频训练数据之间的差异；以及

基于所述差异来更新所述模型的一个或多个参数。

13.一种被配置用于上混合视听数据的计算系统，所述计算系统包括：

一个或多个处理器；以及

存储包括指令的计算机可读数据的一个或多个存储器设备，所述指令在被实施时，使所述一个或多个处理器执行操作，所述操作包括：

获得视听数据，所述视听数据包括输入音频数据和伴随所述输入音频数据的视频数据，所述输入音频数据具有第一数量的音频通道；

将所述视听数据作为输入提供给机器学习的视听上混合模型，所述视听上混合模型包括序列到序列模型；以及

从所述视听上混合模型接收上混合音频数据，所述上混合音频数据具有第二数量的音频通道，所述第二数量的音频通道大于所述第一数量的音频通道。

14.根据权利要求13所述的计算系统，其中，所述视听上混合模型包括编码器-解码器模型。

15.根据权利要求13或14所述的计算系统，其中，所述视听上混合模型包括变换器模型。

16.根据权利要求13至15中的任一项所述的计算系统，其中，所述视听上混合模型包括注意力机制。

17.根据权利要求16所述的计算系统，其中，所述注意力机制包括多个场境向量和对准模型。

18.根据权利要求13至17中的任一项所述的计算系统，其中，所述视听上混合模型包括多个内部状态向量。

19.根据权利要求13至18中的任一项所述的计算系统，其中，所述视听上混合模型包括：多个输入流，所述多个输入流中的每个输入流与所述输入音频数据的相应音频通道相对应；以及多个输出流，所述多个输出流中的每个输出流与所述上混合音频数据的相应音频通道相对应。

20.根据权利要求13至19中的任一项所述的计算系统，其中，所述视频数据包括二维视频数据。