CN113515188A

CN113515188A - 辅助装置的特征向量到音频的跨模态转换的设备及方法

Info

Publication number: CN113515188A
Application number: CN202011363599.7A
Authority: CN
Inventors: A·A·波特; D·B·卡夫迪尔; 金哲暄; M·帕特尔; D·G·金贝尔; 刘琼
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-10-01
Filing date: 2020-11-27
Publication date: 2021-10-19
Also published as: US20210097888A1; JP2021056499A; US11069259B2

Abstract

辅助装置的特征向量到音频的跨模态转换的设备及方法。提供了一种计算机实现的方法，该方法包括：将接收信号嵌入到第一模态中；将第一模态的嵌入的接收信号再嵌入到第二模态的信号中，并生成第二模态中的输出；以及基于输出，渲染被配置为要感测的第二模态中的信号，其中，嵌入、再嵌入和生成应用了通过执行对抗学习操作并执行度量学习操作而训练的模型，对抗学习操作与从所生成的输出鉴别目标分布的实际示例相关联，度量学习操作与生成具有感知距离的输出相关联。

Description

辅助装置的特征向量到音频的跨模态转换的设备及方法

技术领域

示例实现的各方面涉及一种与特征向量从第一模态到第二模态的跨模态转换相关联的方法、系统和用户体验，并且更具体地，涉及一种在保留几何结构的同时将深度学习与对抗学习和度量学习相关联地应用的方法。

背景技术

人类可能期望诸如通过眼睛和耳朵之类的感觉反馈。但是，一些人可能有视觉障碍，因此他们不能在眼睛中获得感觉反馈。此外，一些人可能需要来自诸如假肢之类的医疗装置的反馈。一般而言，人类可能希望增强他或她的神经系统或生物系统，并接收可靠形式的反馈，尤其是在他们患有视力障碍等的情况下。

例如但不作为限制，视觉使人类能够短暂地瞥一眼(例如，一秒钟)诸如房间或接口之类的对象，然后能够描述与对象相关联的关键特征。但是，如果正在描述的与对象相关联的关键特征比几个单词长或者需要进一步的上下文或描述，则由于需要使用诸如英语之类的口语语言来传达输出，导致沟通关键特征所需的时间可能太长，诸如超过一秒钟。因此，单独使用语言交流的相关技术方法可能不足。

除了人类以外，诸如蝙蝠之类的一些动物能够使用听觉系统进行导航，而不是使用视觉导航。然而，由于在各种频率范围上感知和听到信号的能力的差异，这样的方法对于人类可能不是有效的。然而，相关技术不拥有这种能力。

深度学习的相关技术方法已经提供了将高级视觉信息有效地嵌入到相对低维的Euclidean(欧几里得)空间中的方法。然而，在相关领域中存在未满足的需求，即，深度学习方法能够以保留几何形状的方式在人的模态或感觉与第二模态或感觉之间进行转换。

发明内容

根据示例实现的一个方面，提供了一种计算机实现的方法，该方法包括：将接收信号嵌入到第一模态中；将第一模态的嵌入的接收信号再嵌入到第二模态的信号中，并生成第二模态中的输出；以及基于输出，渲染被配置为要感测的第二模态中的信号，其中，嵌入、再嵌入和生成应用了通过执行对抗学习操作并执行度量学习操作而训练的模型，对抗学习操作与从所生成的输出鉴别目标分布的实际示例相关联，度量学习操作与生成具有感知距离的输出相关联。

示例实现还可以包括具有储存器和处理器的非暂时性计算机可读介质，该处理器能够执行指令，该指令用于按照保留感知距离的方式将信息从第一模态变换为第二模态。

附图说明

图1例示了示出流水线的示例实现。

图2例示了根据示例实现的原型。

图3例示了根据示例实现的空间音频渲染方法。

图4例示了根据示例实现的内插方法。

图5例示了一些示例实现的示例过程。

图6例示了具有适于在一些示例实现中使用的示例计算机装置的示例计算环境。

图7示出了适于一些示例实现的示例环境。

具体实施方式

以下详细描述提供了本申请的附图和示例实现的进一步细节。为了清楚起见，省略了附图标记以及附图之间冗余元件的描述。贯穿说明书中使用的术语仅作为示例提供，并非旨在进行限制。

示例实现的各方面针对基于深度学习的系统，该基于深度学习的系统从诸如视觉(或其它类型)信号的第一模态中提取高级信息并将其表示为诸如声学的第二模态。可以将目标音频分布定制为具有足够大小的声音(例如，人类语音)的任何分布。

尽管语音被公开为声音，但是可以用其它声音代替。例如但不限于，代替使用人类语音声音，可以使用诸如音乐之类的另一种声音来代替人类语音声音或与人类语音声音结合使用。

根据示例实现，信号到音频转换系统保留了特征嵌入模型能够被教导而区分开的、任何信号之间的学习的几何关系(例如，面部、对象、情绪等)。结果，可以产生包含感官受损用户能够以允许他们更好地理解他们的环境的方式使用的感觉上可听的高级信息的声音。示例实现可以实现这些，而不需要注释数据来学习高级图像特征到音频之间的映射。

如以上参照相关技术所解释的，当使用口语向视力障碍的人员传达视觉信息时，简洁可能是一个挑战。示例实现的各方面涉及与将视觉信息转换为感知音频域的占优机器学习特征嵌入相关联的系统和方法。可以在第一模态和第二模态之间保留嵌入的Euclidean几何形状。例如但不作为限制，未转换特征向量之间的距离等于(或强烈地等同于)相应转换(例如，音频信号)之间的基于梅尔倒谱(mel cepstrum)的音调距离。

附加地，示例实现不需要注释数据来学习高级特征(例如，面部、对象、情感)和音频之间的映射。而是，示例实现使用对抗学习来学习关联，如下面更详细地说明的。

根据示例实现，提供了特征向量从第一模态到第二模态的跨模态转换。更具体地，提供了诸如在辅助装置中可以采用的、从视觉模态到音频模态的跨模态转换。

更具体地，几何结构可以转移。例如但不作为限制，在使用面部识别情况的示例下，可以提供嵌入在诸如128维球体的多维球体中的面部的视觉印象。应用三重态损失函数，使得相似的面孔看起来更近，和/或不同的面孔看起来更远。然后，根据示例实现，以上解释的嵌入图像可以转移到音频域，以与音频信号相关联。更具体地，可以以与人类直觉相互关联的方式来区分声音。此外，可以在声音之间执行内插。更具体地，在两个声音之间存在构成与第一模态的数据点的最接近匹配的空间的情况下，可以通过在声音之间(尤其是关于人类语音)进行内插来生成适当的声音。

根据一个示例实现，基于深度学习的框架将从图像或其它信号(例如，面部识别/表情、对象位置等)中提取的高级信息转换为音频。可以在将输入嵌入到Euclidean空间的子集中的任何特征嵌入模型(即，任何模型f:X->Y，其中||f(y₁)-f(y₂)||₂是有意义的)上来构建该示例实现。

根据示例实现，提供了能够从图像中提取期望特征的预训练特征嵌入模型。该模型也可以称为“基础模型”。然后对再嵌入网络执行训练，该再嵌入网络将基础模型的输出映射到目标感知音频域。可以通过任何足够大且多样化的声音数据集来确定该感知音频域。

更具体地说，使用生成式对抗学习(GAN)方法来训练再嵌入网络。例如，GAN方法强迫i)输出声音符合目标数据集指定的声音分布，并且ii)基本模型的输出之间的距离与再嵌入模型的相应输出之间的距离相等。在示例实现中，两个音频信号之间的距离可以通过取那些信号的Mel(梅尔)频率倒谱系数(MFCC)的平方差之和来计算。但是，针对感知距离，单独使用MFCC可能有各种缺点(例如，基于噪声相似性的误差)；因此，如下所说明的，组合使用MFCC。此外，训练数据可以包括原始数据集、另一相关数据集或随机生成的与基本模型相关联的输出相同形状的阵列。

图1例示了根据示例实现的流水线100。更具体地，诸如与图像101相关联的信号之类的输入信号或其它输入信号被提供给编码器103。例如但不作为限制，编码器103可以是FaceNet，但不限于此。编码器103执行将来自高维空间的输入信号或图像101编码为矢量或更高秩张量的操作。更具体地，编码器103可以包括但不限于诸如特征嵌入网络之类的特征嵌入模型105。可选地，特征嵌入模型105可以是预训练的和固定的，或者是不可微分/不可训练的。根据一个示例实现，特征嵌入网络可以采用FaceNet的OpenFace实现。然而，本示例实现不限于此。

编码器103的输出被提供给包括再嵌入网络109的再嵌入块107。再嵌入块107将作为编码器103的输出的特征映射图发送到音频空间中。为了提供对网络生成的声音类型的控制，提供了“辨别”网络，以将特征向量变换为符合声音的目标分布的声音。

再嵌入网络109的作为生成的声音的输出被提供给对抗学习111和度量学习117。提供对抗学习111以提高鉴别器113区分真实声音和所生成声音的能力，并提高生成器生成将蒙蔽鉴别器113的声音的能力。根据示例实现，生成器可以单独包括再嵌入网络107，或者包括编码器103和再嵌入网络107的组合。

更具体地说，为了强迫输出声音符合目标分布，采用了鉴别器网络。训练鉴别器网络，以预测声音是源自目标分布还是由生成器合成的。训练生成器网络(即，再嵌入网络)有两个目标：1.蒙蔽鉴别器；以及2.确保在任何两个生成的输出(例如，声音)之间的距离近似等于(最大为缩放常数)两个相应输入的距离。在训练期间，鉴别器网络接收生成的示例声音以及“真实声音”的示例，这些“真实声音”是来自目标分布的声音。因此，在115处产生鉴别器损失。与以下说明的度量学习以及度量损失一起，根据示例命令(dictation)的模型是所生成的对抗网络(GAN)。

提供度量学习117以鼓励输出声音具有有意义的感知距离。更具体地说，在编码器103是固定的、不可微分的或不允许权重更新的情况下，提供了基于MFCC 119的度量损失函数。MFCC变换119强迫从图像/信号到声音的转换保留由预训练编码器103所学习的度量。更具体地说，度量损失函数可以包括以下关系式(1)中所示的函数：

其中，N是批量大小，φ是编码器，x_i和y_i分别是我们输入批次和所生成的音频输出中的第i图像(或信号)。因此，在121处产生度量损失。

在一些条件下，诸如当成本不禁止如此做时，训练数据是可用的，并且编码器103是可微分和可训练的，可选地，示例实现可以允许对编码器103进行权重更新。此外，作为另一可选示例方法，示例实现可以允许从头(scratch)开始对系统进行端到端的培训。因此，代替关系式(1)，使用适当的基于距离的损失函数(例如，三重态损失)。

根据示例实现，可以结合前述方面提供包括相关硬件的原型。例如但不作为限制，如图2所示，提供了可穿戴硬件的原型200。例如但不作为限制，诸如相机之类的视觉输入装置201可以安装在诸如眼镜架之类的可穿戴装置203上，该可穿戴装置203包括诸如嵌入其中的“开放式耳朵”耳机(例如，立体声扬声器)之类的音频输出。相机可以是通过附接件205附接到眼镜的深度相机。根据该示例实现，用户可以佩戴该设备，并且随着用户移动头部，他们将能够使相机捕捉图像，并提供与图像中一个或更多个对象相关联的输出声音。

然而，示例实现不限于此，并且可以提供被配置为接收或捕获图像的其它结构(例如，帽子、手表、衣物、医疗装置、移动电话或可以位于用户身上的或与用户相结合的任何其它对象)，该图像可以与位于用户身上的或由用户佩戴的位置相关联。此外，如本领域技术人员将理解的，音频输出也可以由其它扬声器、耳机或方法来提供。

根据图2的一个示例实现，采用空间化音频和RGBD相机，以为用户提供传达由示例实现检测到的对象的位置和深度的功能。更具体地，可以通过流水线100检测、裁剪并发送对象和面部以产生声音。可以使用空间化音频来回放那些产生的声音，以按照自然感知的方式指示它们的身份、位置和/或其它属性。

图3示出了根据示例实现的空间音频渲染系统300的概观。更具体地说，示例实现取得音频样本，并生成与场景中的每个样本或面部相关联的源节点。因此，利用距离数据，将对象在图像中的位置转换成听觉场景中的声源位置。

例如但不作为限制，在301处，接收3-D面部位置数据303并将其提供给在305处的包括生成的音频的媒体元素功能。在307处，由媒体元素音频功能创建源节点。在309处，诸如通过应用旋转矩阵来应用渲染器，并相应地生成为左和右音频通道311，进而又在313处输出到耳机。

可以评估前述示例实现。例如但不作为限制，基于FaceNet的模型可以用于执行初步用户研究，以针对一个或更多个区域评估示例实现。

根据一种评估方法，可以评估与度量一致的感知。给定相同面部或两个不同面部的两个随机选择的图像，可以确定由示例实现输出的两个相应声音是被人类分别感知为相同还是不同。例如但不作为限制，该评估将是基于不同面部被感知为与不同声音相关联，以及相同或相似面部被感知为与相同或相似声音相关联的。

根据另一种评估方法，可以评估声音的记忆性。给定不同面部的k张随机选择的图像，可以确定用户是否能够有效地记忆输出声音。根据示例评估方法，可以相对于从随机指配了英文名称制成的控件配对来比较记忆所生成的声音-身份配对的用户性能。例如但不作为限制，该评估将与用户能够容易地学习回忆与声音相关联的含义相关联，诸如用户记住该声音与人相关联。

根据另一种评估方法，可以评估问题回答和意外特征提取。例如但不作为限制，可以测试用户从所产生的声音中提取简单模式的能力，诸如戴眼镜的面部听起来与不戴眼镜的面部是否不同，是否能够听出头发颜色等。

图4例示了根据与从第一模态到第二模态的变换相关联的示例实现的方法400。在这里，第一模态是视觉，并且第二模态是声音。在此，术语“模态”可以是指与感测到的信息(诸如视觉、声音、温度、压力等)相关联的模式。例如，必须确定关于希望被传达的信息。根据本示例实现，如上所说明的，针对诸如面部401之类的基于视觉的信息，可以使用编码器。

编码器可以是用基于距离的损失训练的任何编码器。例如但不作为限制，FaceNet可以用作编码器，即，被设计为将图像面部以相似面部的图像被发送给相似向量(按L2距离)的方式嵌入为128维单位向量的网络作为编码器。然后，转换系统将提供从面部图像到声音的映射，使得相似面部将映射到相似声音，并且不相似面部将映射到不相似声音。例如但不作为限制，目标数据集可以由人类语音组成。所生成的声音尽管并非必须是可识别的单词或短语，但是也将类似于人类语音。

如403处所示，面部图像被嵌入到高维球体中。基于距离的损失越小的面部被认为越相似，而基于距离的损失越大的面部被认为越少相似。

在405，声音被生成为符合声音的目标分布。数据集被选择为足够大并且相对于声音样本而变化，以提供音频信号，该音频信号可以与用户可以理解或能够学习有效解释的声音之间的直观相似性相关。

在407，如以上所说明的，应用分别包括鉴别器损失的计算和度量损失的计算的对抗学习和度量学习，以确保所选择的声音样本与直觉最紧密相关。

尽管前述示例实现涉及按照为用户提供与面部相关联的可识别语音的方式从第一模态转变为第二模态，但是本示例实现不限于此，并且其它应用可以与上述示例结合或者代替上述示例，而不脱离本发明范围。

例如但不作为限制，示例实现可以在与导航辅助(诸如辅助视力障碍用户导航环境)相关联的系统中使用。可以关于深度和障碍物提供声音信息，使得用户即使有视觉障碍也仍能够有效地导航环境。在一些示例实现中，这可以集中于用户在诸如火车站或其它繁华区域的步行。然而，本示例实现不限于此，并且可以考虑其它导航目的，诸如视觉障碍人士能够参加以前难以参加或危险的诸如运动、业余爱好等的活动。

示例实现也可以与辅助视觉障碍用户能够看见相关联地使用。此外，可以为无论是否有视觉障碍的用户提供您的标准范围之外的视觉输入，使得能够向用户提供该范围之外的信息，诸如能够看到用户的后背。这样的方法对于在其它方面有障碍(诸如具有颈部或背部损伤并且不能转头)，但是希望能够在人流大、驾驶或转动脖子或背部将使用户能够在环境中执行功能的其它情况下导航的用户也可能是有用的。

类似地，示例实现可以向用户提供观看除了通常可见的光谱域之外的光谱域的能力。例如但不限于，转换可以从第一视觉域到第二视觉域，或者是音频域到视觉域。此外，本示例实现不限于两个域，并且还可以涉及多个域(例如，温度、视觉、压力或其它)。

示例实现还可以向用户提供反馈，诸如与假肢或机械臂相关联的反馈。例如，第一域中的压力感测信息可以被变换为音频反馈，以提供向用户通知压力大小的适当性的音频输出。

根据另一示例实现，音频输入可以在工业设置中被提供为第一模态，该第一模态被变换为诸如视觉的第二模态。例如但不作为限制，在标准范围内运行的装备通常会发出一定范围内的振动。但是，当装备接近故障事件或维护周期时，装备发出的声音可能改变，或者装备可能发出在视觉上无法检测到或者由于费用高昂或进出困难而不能容易地检修的其它声音(例如，微裂纹或内部裂纹)。当示例实现感测到这样的声音时，可以执行到第二模态的转换以提供关于将要发生故障的部件或关于维护事件的维护信息。

此外，示例实现还涉及诸如在视频、电影、隐藏式字幕等中的图像字幕转换。

图5例示了根据示例实现的示例过程500。如本文中所说明的，可以在一个或更多个装置上执行示例过程500。示例过程可以包括学习501和推断503。

在学习501处，可以执行对抗学习操作505。如以上所说明的，对于可以鉴别真实声音和所产生的声音的鉴别器，生成鉴别器损失。在507，通过使用MFC变换，例如通过使用如以上所说明的度量损失函数来确定度量损失。因此，输出音频信息可以产生具有有意义的感知距离的声音。

一旦在学习501中已经训练了模型，则在推断503处，在509处以第一模态接收诸如图像或信号的信息。如以上所说明的，诸如通过使用特征嵌入模型，编码器可以用于执行嵌入。

在511，第一模态的已经嵌入的信息被转换成第二模态。在本示例实现中，第一模态是图像或信号，并且第二模态是与图像或信号相关联的声音。例如但不作为限制，再嵌入网络可以用于执行基于与图像相对应的声音之间的距离损失来确定适当声音的操作。

在513，可以渲染音频。例如但不作为限制，输出可以被提供到耳机或与在耳朵处或附近具有音频输出的可穿戴式眼镜相关联的前述装置，以按照第二模态向用户提供音频输出。此外，如本领域技术人员将理解的，可以在推论503与学习(例如，训练)501之间执行反向传播。

对于在合适且足够的数据集上在501处训练的模型，相似的新面部可以转换为相似的新声音，并且不相似的新面部可以转换为不相似的新声音。这些声音仍将符合目标分布。

此外，一旦模型经过训练，该模型具有与每个可能的面部相关联的声音(例如，“无环境差别技术”)，使得所有可能的面部可以具有被指配给它们的独特声音，并且仍能够保留距离，即使由编码器产生的单位向量与先前遇到的单位向量不同。

根据示例实现，不必强制为每个面部保留的声音符合目标音频分布，仅需要在图像被转换成音频时仍保留这些点IS之间的距离。结果，每个可能的面部具有指配给它的独特声音。根据这种方法，当模型在训练期间接收到的输入更加均匀地分布时，可以帮助模型学习源域的几何形状。

图6例示了具有适合于在一些示例实现中使用的示例计算装置605的示例计算环境600。计算环境600中的计算装置605可以包括一个或更多个处理单元、内核或处理器610、存储器615(例如，RAM、ROM等)、内部储存器620(例如，磁储存器、光储存器、固态储存器和/或有机物)和/或I/O接口625，这些组件中的任何一个可以联接在通信机制或总线630上以用于通信信息，或嵌入在计算装置605中。

根据本示例实现，与神经活动相关联的处理可以在作为中央处理单元(CPU)的处理器610上发生。另选地，在不脱离本发明构思的情况下可以用其它处理器代替。例如但不作为限制，图形处理单元(GPU)和/或神经处理单元(NPU)可以代替CPU或与CPU结合使用，以执行用于前述示例实现的处理。

计算装置605可以通信地联接到输入/接口635和输出装置/接口640。输入/接口635和输出装置/接口640中的一者或两者可以是有线接口或无线接口，并且可以是可拆卸的。输入/接口635可以包括可以用于提供输入的任何装置、组件、传感器或物理或虚拟接口(例如，按钮、触摸屏接口、键盘、定点/光标控件、麦克风、相机、盲文、运动传感器、光学阅读器等)。

输出装置/接口640可以包括显示器、电视机、监视器、打印机、扬声器、盲文等。在一些示例实现中，输入/接口635(例如，用户接口)和输出装置/接口640可以嵌入计算装置605或物理地联接至计算装置605。在其它示例实现中，其它计算装置可以用作计算装置605的输入/接口635和输出装置/接口640，或提供计算装置605的输入/接口635和输出装置/接口640的功能。

计算装置605的示例可以包括但不限于高速移动装置(例如，智能电话、车辆和其它机器中的装置、人类和动物携带的装置等)、移动装置(例如，平板电脑、笔记本电脑、膝上型计算机、个人计算机、便携式电视机、收音机等)、以及并非为移动性而设计的装置(例如，台式计算机、服务器装置、其它计算机、信息亭、其内嵌入有一个或更多个处理器和/或联接到一个或更多个处理器的电视机、收音机等)。

计算装置605可以可通信地联接(例如，经由I/O接口625)至外部储存器645和网络650以用于与包括相同或不同配置的一个或更多个计算装置的任何数量的联网组件、装置和系统进行通信。计算装置605或任何连接的计算装置可以用作或被称为服务器、客户端、瘦服务器、通用机器、专用机器或另一标签，或者提供服务器、客户端、瘦服务器、通用机器、专用机器或另一标签的服务。例如但不作为限制，网络650可以包括区块链网络和/或云。

I/O接口625可以包括但不限于使用任何通信或I/O协议或标准(例如，以太网、802.11xs、通用系统总线、WiMAX、调制解调器、蜂窝网络协议等)以用于向和/或从计算环境600中的至少所有已连接组件、装置和网络通信信息的有线和/或无线接口。网络650可以是任何网络或网络组合(例如，互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

计算装置605可以使用包括暂时性介质和非暂时性介质的计算机可用或计算机可读介质和/或使用包括暂时性介质和非暂时性介质的计算机可用或计算机可读介质来通信。暂时性介质包括传输介质(例如，金属电缆、光纤)、信号、载波等。非暂时性介质包括磁介质(例如，磁盘和磁带)、光学介质(例如，CD ROM、数字视频磁盘、蓝光盘)、固态介质(例如，RAM、ROM、闪存、固态储存器)以及其它非易失性储存器或存储器。

计算装置605可以用于实现在一些示例计算环境中的技术、方法、应用、过程或计算机可执行指令。可以从暂时性介质中检索计算机可执行指令，并将其存储在非暂时性介质中并从该非暂时性介质中检索。可执行指令可以源自任何编程、脚本和机器语言(例如，C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)中的一种或更多种。

处理器610可以在本机或虚拟环境中的任何操作系统(OS)(未示出)下执行。可以部署一个或更多个应用，包括逻辑单元655、应用编程接口(API)单元660、输入单元665、输出单元670、编码单元675、再嵌入单元680、学习单元685和用于不同单元彼此通信、与OS通信以及与其它应用(未示出)通信的单元间通信机制695。

例如，编码单元675、再嵌入单元680和学习单元685可以实现以上关于上述结构所示出的一个或更多个处理。所描述的单元和元件可以在设计、功能、配置或实现上变化，并且不限于所提供的描述。

在一些示例实现中，当API单元660接收到信息或执行指令时，它可以向一个或多个其它单元(例如，逻辑单元655、输入单元665、编码单元675、再嵌入单元680和学习单元685)通信。

例如，如以上所说明，编码单元675可以从模拟数据、历史数据或一个或更多个传感器接收第一模态的信息并进行处理。例如，如以上所描述的以及在图1至图7所例示的，编码单元675的输出被提供给再嵌入单元680，再嵌入单元680执行必要的操作以生成声音。附加地，学习单元685可以基于编码单元675和再嵌入单元680的输出来执行诸如对抗学习和度量学习的操作，并使用度量损失函数来鉴别真实声音和生成声音，并鼓励输出声音具有有意义的感知距离。

在一些情况下，在以上描述的一些示例实现中，逻辑单元655可以被配置为控制单元之间的信息流，并引导由API单元660、输入单元665、编码单元675、再嵌入单元680和学习单元685提供的服务。例如，一个或更多个过程或实现的流程可以由逻辑单元655单独控制或结合API单元660来控制。

图7示出了适于一些示例实现的示例环境。环境700包括装置705至745，并且每个装置经由例如网络750(例如，通过有线连接和/或无线连接)可通信地连接到至少一个其它装置。一些装置可以可通信地连接到一个或更多个储存装置730和745。

一个或更多个装置705至745的示例可以分别是图6中描述的计算装置605。装置705至745可以包括但不限于如以上所说明的具有监视器和相关联的网络摄像头的计算机705(例如，膝上型计算装置)、移动装置710(例如，智能手机或平板电脑)、电视机715、与车辆720相关联的装置、服务器计算机725、计算装置735至740、储存装置730和745。

在一些实现中，装置705至720可以被认为是与用户相关联的用户装置，该用户可以远程获得用作前述示例性实现的输入的感测输入。在本示例实现中，如以上所说明的，这些用户装置705至720中的一个或更多个可以与能够感测本示例实现所需的信息的一个或更多个传感器相关联，所述一个或更多个传感器为诸如在用户身体处(例如，在眼镜上)的相机或与向用户提供音频输出相关联的扬声器。

与相关技术方法相比，本示例实现可以具有各种益处和优点。例如但不作为限制，相关技术方法可以采用逐像素方式来通信图像中的信息，而本示例实现不编码或保留像素信息，而是编码或保留由学习特征嵌入提取的高级信息。结果，通过将特征空间的几何结构映射到感知音频域中，可以将信息从宽范围的域转换成感知上有意义的音频。

附加地，本示例实现可以提供调节输出音频信号的分布的能力。结果，用户可以对转换听起来像什么有很大的控制。例如但不作为限制，可以调整音频输出以使用用户优选的口语的音素。此外，相对于示例实现的区别，相关技术方法不提供面部信息或空间音频反馈。

本文描述的示例实现与相关技术进一步区别在于，尽管用于视力障碍人士的相关技术音频辅助装置可以包括空间化音频，但是相关技术的方法不提供人的面部信息以及面部表情、情绪反应、身体运动量或互动。

尽管已经示出和描述了一些示例实现，但是提供这些示例实现是为了将本文所述的主题传达给熟悉该领域的人们。应该理解的是，本文描述的主题可以以各种形式实现而不限于所描述的示例实现。可以在没有那些具体定义或描述的事项的情况下，或者在具有未描述的其它元件或不同元件或事项的情况下实践本文描述的主题。熟悉本领域的技术人员将理解，可以在不脱离如所附权利要求及其等同物所限定的本文所描述的主题的情况下，对这些示例实现进行改变。

本公开的一些非限制性实施方式的各方面解决了上面讨论的特征和/或上面没有描述的其它特征。然而，非限制性实施方式的各方面不需要解决上述特征，并且本公开的非限制性实施方式的各方面可以不解决上述特征。

Claims

1.一种用于跨模态转换的计算机实现的方法，该计算机实现的方法包括以下步骤：

将接收信号嵌入到第一模态中；

将所述第一模态的所嵌入的接收信号再嵌入到第二模态的信号中，并生成所述第二模态中的输出；以及

基于所述输出，渲染被配置为要感测的所述第二模态中的信号，其中，嵌入步骤、再嵌入步骤和生成步骤应用了通过执行对抗学习操作并执行度量学习操作而训练的模型，所述对抗学习操作与从所生成的输出鉴别目标分布的实际示例相关联，所述度量学习操作与生成具有感知距离的输出相关联。

2.根据权利要求1所述的计算机实现的方法，其中，所述嵌入步骤由应用特征嵌入模型的编码器执行。

3.根据权利要求1所述的计算机实现的方法，其中，所述再嵌入步骤由再嵌入网络执行。

4.根据权利要求1所述的计算机实现的方法，其中，执行所述对抗学习的步骤包括：将所生成的输出提供给在所生成的输出与所述输出的实际版本之间进行鉴别的鉴别器网络，以生成鉴别器损失。

5.根据权利要求1所述的计算机实现的方法，其中，执行所述度量学习的步骤包括：应用梅尔频率倒谱MFC变换，以生成与确定所述感知距离相关联的度量损失函数。

6.根据权利要求1所述的计算机实现的方法，其中，所述第一模态是视觉的，并且所述第二模态是音频的。

7.一种非暂时性计算机可读介质，该非暂时性计算机可读介质被配置为在处理器上执行机器可读指令，该指令包括：

将接收信号嵌入到第一模态中；

基于所述输出，渲染被配置为要感测的所述第二模态中的信号，其中，嵌入操作、再嵌入操作和生成操作应用了通过执行对抗学习操作并执行度量学习操作而训练的模型，所述对抗学习操作与从所生成的输出鉴别目标分布的实际示例相关联，所述度量学习操作与生成具有感知距离的输出相关联。

8.根据权利要求7所述的非暂时性计算机可读介质，其中，所述嵌入操作由应用特征嵌入模型的编码器执行。

9.根据权利要求7所述的非暂时性计算机可读介质，其中，所述再嵌入操作由再嵌入网络执行。

10.根据权利要求7所述的非暂时性计算机可读介质，其中，执行所述对抗学习的操作包括：将所生成的输出提供给在所生成的输出与所述输出的实际版本之间进行鉴别的鉴别器网络，以生成鉴别器损失。

11.根据权利要求7所述的非暂时性计算机可读介质，其中，执行所述度量学习的操作包括：应用梅尔频率倒谱MFC变换，以生成与确定所述感知距离相关联的度量损失函数。

12.根据权利要求7所述的非暂时性计算机可读介质，其中，所述第一模态是视觉的，并且所述第二模态是音频的。

13.一种用于跨模态转换的设备，该设备包括：

输入装置，该输入装置被配置为接收具有第一模态的信息；

输出装置，该输出装置被配置为输出具有第二模态的信息；以及

处理器，该处理器接收具有所述第一模态的所述信息并生成具有所述第二模态的所述信息，该处理器被配置为：

将接收信号嵌入到第一模态中；

将第一模态的所嵌入的接收信号再嵌入到第二模态的信号中，并生成所述第二模态中的输出；以及

基于所述输出，渲染被配置为要感测的所述第二模态中的信号，其中，被配置为嵌入、再嵌入和生成的所述处理器应用了通过执行对抗学习操作并执行度量学习操作而训练的模型，所述对抗学习操作与从所生成的输出鉴别目标分布的实际示例相关联，所述度量学习操作与生成具有感知距离的输出相关联。

14.根据权利要求13所述的设备，其中，所述输入装置包括相机，并且所述输出装置包括扬声器或耳机。

15.根据权利要求13所述的设备，其中，所述第一模态是视觉的，并且所述第二模态是音频的。

16.根据权利要求13所述的设备，其中，所述输入装置和所述输出装置安装在可穿戴装置上。

17.根据权利要求16所述的设备，其中，所述可穿戴装置包括眼镜。

18.根据权利要求13所述的设备，其中，所述处理器被配置为由应用特征嵌入模型的编码器进行嵌入，并且由再嵌入网络进行再嵌入。

19.根据权利要求13所述的设备，其中，执行所述对抗学习的操作包括：将所生成的输出提供给在所生成的输出与所述输出的实际版本之间进行鉴别的鉴别器网络，以生成鉴别器损失；并且执行所述度量学习的操作包括：应用梅尔频率倒谱MFC变换，以生成与确定所述感知距离相关联的度量损失函数。

20.根据权利要求13所述的设备，其中，学习所述第一模态和所述第二模态之间的映射不需要注释数据。