CN111433843B

CN111433843B - 语义音频表示的无监督学习

Info

Publication number: CN111433843B
Application number: CN201880070177.5A
Authority: CN
Inventors: 阿伦·扬森; 马诺伊·普拉卡尔; 理查德·钱宁·莫尔; 肖恩·赫尔希; 拉泰特·潘德亚; 瑞安·里夫金; 刘家洋; 丹尼尔·埃利斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-10-27
Filing date: 2018-10-26
Publication date: 2024-05-28
Anticipated expiration: 2038-10-26
Also published as: US11335328B2; US20200349921A1; EP3688750A1; EP3688750B1; WO2019084419A1; CN111433843A

Abstract

提供了用于生成训练三元组的方法，该训练三元组可用于训练多维嵌入以表示存在于音频记录的语料库中的非语音声音的语义内容。这些训练三元组可以与三元组损失函数一起使用以训练多维嵌入，使得可以将嵌入用于对音频记录的语料库的内容进行聚类，以便于从语料库中按示例查询，从而允许少量的手动标注的音频记录被一般化，或有助于一些其他音频分类任务。三元组采样方法可以单独使用或一起使用，并且每种方法都表示有关音频记录的语义结构的启发式方法。

Description

语义音频表示的无监督学习

相关申请的交叉引用

本申请要求于2017年10月27日提交的美国临时专利申请No.62/577,908的优先权，其通过引用合并于此。

技术领域

本申请涉及语义音频表示的无监督学习。

背景技术

可以训练人工神经网络来识别和/或分类音频记录的内容。此类分类可用于确定记录的语义内容或上下文，确定记录的位置，识别记录的目的，生成记录的内容标记，为记录选择一个或多个音频处理步骤或提供一些其他好处。音频记录的内容可能包括语音或其他声音。为了训练这样的分类器，可以为音频记录提供手动生成的标签。但是，这种手动标签的生成可能很昂贵。另外，在手动标注过程开始之前，此类手动标签可能需要用于要生成的音频内容的可能标签的专用集合；这样的专用集合可能缺少用于音频记录的所有声音内容的标签。

发明内容

本公开的一方面涉及一种方法，包括：(i)获得包括多个声音记录的训练数据；(ii)生成多个训练三元组，其中，多个训练三元组中的每个训练三元组包括来自多个声音记录的相应锚音频片段、正音频片段和负音频片段，其中生成多个训练三元组包括执行第一三元组采样操作、第二三元组采样操作、第三三元组采样操作或第四三元组采样操作中的一个；(iii)将多个训练三元组中的每个训练三元组的每个音频片段映射到n维特征空间中的相应特征向量；以及(iv)基于所确定的特征向量来更新映射，使得损失函数减小。损失函数包括多个项的总和，其中多个项中的每个项对应于多个训练三元组中的相应训练三元组。当第一距离不小于第二距离至少指定的阈值量时，通过相对于第二距离增加第一距离来增加对应于特定训练三元组的损失函数的项，其中，第一距离在特定训练三元组的锚音频片段的特征向量和特定训练三元组的正音频片段的特征向量之间，并且其中，第二距离在特定训练三元组的锚音频片段的特征向量和特定训练三元组的负音频片段的特征向量之间。执行第一三元组采样操作包括：从多个声音记录中为多个训练三元组中的第一训练三元组选择锚音频片段；通过将噪声添加到第一训练三元组的锚音频片段来确定第一训练三元组的正音频片段；通过从多个声音记录中选择与第一训练三元组的锚音频片段不同的音频片段来确定第一训练三元组的负音频片段。执行第二三元组采样操作包括：从多个声音记录中为多个训练三元组中的第二训练三元组选择锚音频片段；通过对第二训练三元组的锚音频片段应用频移或时移来确定第二训练三元组的正音频片段；通过从多个声音记录中选择与第二训练三元组的锚音频片段不同的音频片段来确定第二训练三元组的负音频片段。执行第三三元组采样操作包括：从多个声音记录中为多个训练三元组中的第三训练三元组选择锚音频片段；通过从多个声音记录中选择不同于第三训练三元组的锚音频片段的音频片段来确定第三训练三元组的负音频片段；通过确定第三训练三元组的锚音频片段和第三训练三元组的负音频片段的加权组合来确定第三训练三元组的正音频片段。执行第四三元组采样操作包括：从多个声音记录中为多个训练三元组的第四训练三元组选择锚音频片段；通过从多个声音记录中选择不同于第四训练三元组的锚音频片段的音频片段来确定第四训练三元组的正音频片段，其中第四训练三元组的锚音频片段和第四训练三元组的正音频片段对应于训练数据的第一声音记录的相应片段；通过从多个声音记录中选择与第四训练三元组的锚音频片段和第四训练三元组的正音频片段都不相同的音频片段来确定第四训练三元组的负音频片段，其中第四训练三元组的负音频片段对应于训练数据的第二声音记录的片段，其中第二声音记录与第一声音记录不同。

本公开的另一方面涉及一种方法，包括：(i)获得包括多个声音记录的训练数据；(ii)生成多个训练三元组，其中，多个训练三元组中的每个训练三元组包括来自多个声音记录的相应锚音频片段、正音频片段和负音频片段，其中生成多个训练三元组包括：(a)执行第一三元组采样操作以生成多个训练三元组中的第一训练三元组子集；(b)执行第二三元组采样操作以生成多个训练三元组中的第二训练三元组子集，其中第二三元组采样操作是与第一三元组采样操作不同的三元组采样操作；(iii)将多个训练三元组中的每个训练三元组的每个音频片段映射到n维特征空间中的相应特征向量；(iv)基于所确定的特征向量来更新映射，使得损失函数减小。损失函数包括多个项的总和。多个项中的每个项对应于多个训练三元组中的相应训练三元组，并且当第一距离不小于第二距离至少指定的阈值量时，通过相对于第二距离增加第一距离来增加对应于特定训练三元组的损失函数的项，其中，第一距离在特定训练三元组的锚音频片段的特征向量和特定训练三元组的正音频片段的特征向量之间，并且其中，第二距离在特定训练三元组的锚音频片段的特征向量与特定训练三元组的负音频片段的特征向量之间。

本公开的又一方面涉及一种方法，包括：(i)获得包括多个声音记录的训练数据；(ii)生成多个训练三元组，其中，多个训练三元组中的每个训练三元组包括来自多个声音记录的相应锚音频片段、正音频片段和负音频片段，其中生成多个训练三元组包括：(a)从多个声音记录中为多个训练三元组中的特定训练三元组选择锚音频片段；(b)通过从声音记录中选择与特定训练三元组的锚音频片段不同的音频片段来确定特定训练三元组的负音频片段；(c)确定特定训练三元组的正音频片段；(iii)将多个训练三元组中的每个训练三元组的每个音频片段映射到n维特征空间中的相应特征向量；(iv)基于所确定的特征向量来更新映射，使得损失函数减小。损失函数包括多个项的总和，其中多个项中的每个项对应于多个训练三元组中的相应训练三元组。当第一距离不小于第二距离至少指定的阈值量时，通过相对于第二距离增加第一距离来增加对应于特定训练三元组的损失函数的项，其中，第一距离在特定训练三元组的锚音频片段的特征向量和特定训练三元组的正音频片段的特征向量之间，并且其中，第二距离在特定训练三元组的锚音频片段的特征向量和特定训练三元组的负音频片段的特征向量之间。确定特定训练三元组的正音频片段包括以下中的一个：(1)将噪声添加到特定训练三元组的锚音频片段中；(2)对特定训练三元组的锚音频片段应用频移或时移；(3)确定特定训练三元组的锚音频片段和特定训练三元组的负音频片段的加权组合；或(4)从多个声音记录中选择不同于特定训练三元组的锚音频片段和特定训练三元组的负音频片段的音频片段，使得特定训练三元组的锚音频片段和特定训练三元组的正音频片段对应于训练数据的第一声音记录的相应片段，并且其中，特定训练三元组的负音频片段对应于训练数据的与第一声音记录不同的第二声音记录的片段。

本公开的又一方面涉及一种包括其上存储有程序指令的非暂时性计算机可读介质的制品，所述程序指令在由计算设备执行时使该计算设备执行以上方法中的任何一种。

本公开的又一方面涉及一种系统，该系统包括：(i)控制器；和(ii)其上存储有程序指令的非暂时性计算机可读介质，该程序指令在由控制器执行时使该控制器执行以上方法中的任何一种。

通过适当地参考附图阅读以下详细描述，这些以及其他方面，优点和替代方案对于本领域普通技术人员将变得显而易见。此外，应当理解，在本发明内容部分和本文其他地方提供的描述旨在通过示例而非限制的方式说明所要求保护的主题。

附图说明

图1A描绘了包含示例声音记录的示例环境。

图1B描绘了从图1A的示例声音记录的相应片段中确定的示例声谱图。

图2描绘了声谱图到n维特征空间的示例映射。

图3A描绘了来自采样的三元组的声谱图到n维特征空间的示例映射。

图3B描绘了来自采样的三元组的声谱图到n维特征空间的示例映射。

图3C描绘了示例损失函数。

图4是示出示例系统的一些组件的简化框图。

图5是根据示例实施例的方法的流程图。

具体实施方式

本文描述了方法和系统的示例。应当理解，词语“示例性”、“示例”和“说明性”在本文中用来表示“用作示例、实例或说明”。本文中被描述为“示例性”、“示例”或“说明性”的任何实施例或特征不必被解释为比其他实施例或特征优选或有利。此外，本文描述的示例性实施例并不意味着是限制性的。容易理解的是，所公开的系统和方法的某些方面可以以多种不同的配置来布置和组合。

I.概述

音频记录可以包括各种非语音声音。这些非语音声音可以包括与机器的操作、天气、人或动物的运动、警报声或其他报警声音、由动物产生的吠声或其他声音、或其他声音有关的噪声。这样的声音可以提供指示进行音频记录的位置(例如，火车站，电梯)、进行音频记录的时间和位置的环境状况(例如，附近的交通水平、天气，机器、车辆、人或动物的存在)、在进行音频记录的时间和位置发生的事件(例如，车祸、火车或其他车辆的到来)的信息或与音频录制有关的一些其他感兴趣的信息。检测、识别、分类或以其他方式分析音频记录中的此类声音可能是有益的，例如，预测进行音频记录的时间或位置，从类别列表中确定音频记录的类别，查找在声音内容、位置等方面与音频记录相似的其他音频记录，或提供其他一些好处。

可以训练人工神经网络或其他机器学习算法来执行这种识别。这可能包括获得音频记录的手动生成的标签。手动生成的标签随后可用于经由监督学习过程来训练机器学习算法。但是，这种手动标签的生成可能很昂贵。另外，可能难以确定用于这样的手动标注的枚举的标签集合，该枚举的标签集合足够全面以使得能够充分标注在各种音频记录的完整集合中存在的所有声音。

可替代地，本文描述的方法可以用于以无监督的方式生成在音频记录的片段和语义编码的n维特征空间中的特征向量之间的映射(例如，人工神经网络、非线性核)。可以使用本文描述的方法来训练这样的映射，以使得从相似的声音(例如，紧急警报声或狗的叫声)生成的特征向量在n维特征空间内(例如，关于欧几里得距离)是邻近的。然后，这样的映射可以用于(例如，经由聚类过程)识别彼此相似的音频样本，以便检索包含语义上相似的内容的音频记录，以便将手动生成的标签从小的监督训练示例集合引导到更大的音频记录集合上，或提供一些其他好处。

为了训练这样的映射，本文描述的方法可以用于从音频记录的输入集合生成训练示例。这样的训练示例可以用于以无监督的方式训练映射。这些方法包括对音频记录的片段进行采样，以便生成音频片段的三元组，该音频片段的三元组可与三元组损失函数结合使用以用于训练映射。这些采样方法生成包括锚片段(anchor segment)、正片段(positivesegment)和负片段(negative segment)的三元组，其已被选择，使得锚片段在映射定义的特征空间中应更邻近正片段而不是负片段。因此，可以将锚片段与正片段和负片段之间的距离输入到损失函数(例如，铰链损失(hinge loss)函数)中，使得训练映射以提供这种特征空间。

本文所述的采样方法自动提供表现出这样的关系的三元组(例如，其中锚片段的内容可能更多地与正片段的内容相关而不是与负片段的内容相关的三元组)。在第一示例中，采样方法通过将噪声(例如，高斯噪声)添加到锚片段来提供正片段。在第二示例中，通过从与锚片段相同的音频记录中随机选择附加的音频片段来提供正片段，而负片段是从除了采样正片段和锚片段的音频记录之外的音频记录中选择的。在第三示例中，通过生成随机选择的锚片段和负片段的加权组合来采样正片段，其中加权有利于锚片段指定的量。在第四示例中，通过对锚片段应用时移和/或频移来生成正片段。用于训练映射的三元组集合可以包括使用本文所述的这些或其他采样方法中的一个生成的三元组，或者可以包括使用本文所述的采样方法的组合生成的三元组(例如，分别根据第一、第二、第三和第四种训练方法生成的训练三元组的第一、第二、第三和第四子集)。

应该理解的是，以上实施例和本文描述的其他实施例是出于说明的目的而提供的，并且不旨在是限制性的。

II.将音频记录映射到语义编码的特征空间

对于各种应用而言，在n维特征空间中获得音频的片段之间的映射(例如，人工神经网络、非线性核、机器学习算法或结构或一些其他线性或非线性映射)可能是有益的，其中该特征空间内的邻近表示音频片段的内容之间的语义相似性。这样的映射可用于确定音频片段之间的语义相似度(例如，音频片段可能包含相似的声音，已从相似的场所记录，或可能在一些其他方面在语义上相似)，识别语义上相似于目标音频记录(或其片段)的音频记录和/或其片段，识别音频记录/音频片段的簇(cluster)或确定音频记录集合内的一些其他语义结构，允许手动标注的音频片段集合用于以监督的方式训练质量改进的分类器或其他机器学习算法，以通过利用由映射定义的n维特征空间内的有益语义结构来识别音频记录/片段的标签，或提供一些其他好处。

图1A示出了示例音频记录100，其包含多个声音110a、110b、110c。该声音可以表示可识别的声音，例如，狗的叫声、消防车发出的重复警报声、车库警告蜂鸣器的嗡嗡声或一些其他声音。获得映射或其他算法以将音频记录的片段(例如，分别包含声音110a、110b、110c的音频记录的片段)映射到语义编码的n维特征空间中的相应特征向量可能是有益的。这些特征向量可以允许确定关于声音110a、110b、110c和/或关于音频记录100的标识或其他信息(例如，生成音频记录100的位置和/或时间、在生成音频记录100的时间和位置附近发生的事件、声音110a、110b、110c与音频记录集合中包含的其他声音之间的相似度)。

音频记录100可以包括语音。在这样的示例中，在如本文其他部分所述使用音频记录100训练映射之前，可以(例如，经由自动或手动方法)识别语音声音，并将其从音频记录100中移除。可替代地，这种语音声音可以被包括在用于训练、生成或以其他方式获得映射的音频记录中，在这种情况下，映射可以定义n维语义空间，该n维语义空间对关于除了非语音声音之外的语音声音的信息(例如，音素、单词等)进行编码。

为了使用映射来生成用于音频记录的这种特征向量，可以随时间将音频记录分割成多个片段。然后可以针对音频记录的每个片段确定特征向量。这可以包括执行一些滤波或其他预处理，然后将滤波后的或以其他方式预处理的音频片段应用于映射，以便在n维特征空间中生成用于该音频片段的相应的特征向量。例如，可以针对音频记录的每个片段生成声谱图(spectrogram)。这通过图1B示例性地示出，图1B示出了从音频记录100的相应片段生成的多个声谱图150。例如，已经从包含第一声音110a的音频记录100的片段中生成了特定声谱图155。每个声谱图对于其相应时间段内的多个时间点中的每一个包括与在相应时间点的音频记录100内的相应频率的强度和/或能量相对应的多个频率分量。

然后将与每个时间段有关的声谱图或其他信息(例如，该时间段期间的音频记录100的滤波后版本、该时间段期间的音频记录100的原始音频信号、应用于非线性核之后的音频信号的版本)应用到映射，以便在由映射定义的语义编码的n维特征空间内生成相应的特征向量。因此，该映射可以包括人工神经网络、非线性核、滤波器、滤波器组、卷积滤波器、分类器或其他结构，以便于针对音频信号的片段的声谱图或其他表示在n维特征空间中生成特征向量。在其中音频信号的片段由声谱图(或由两个或多个索引编索引的值表示的其他结构)表示的示例中，映射可以包括卷积滤波器或来自图像处理领域的一些其他结构。例如，映射可以包括卷积神经网络，该卷积神经网络包括应用于声谱图的一个或多个卷积滤波器，并且该卷积的结果可以应用于卷积神经网络的一个或多个单元层。该映射可以包括神经网络，该神经网络具有与n维特征空间的维数n相对应的多个线性(或以其他方式配置)的输出单元。

如本文中其他地方所描述的，可以训练映射，使得其将具有相似内容(例如，全部包含动物的噪声，全部包含狗的叫声，全部包含风的声音，全部包含紧急车辆警报声)的音频的时间段(例如，从时间段生成的声谱图)映射到在语义编码的n维特征空间内(例如，在欧几里得距离的意义上)是邻近的特征向量。图2示出了从音频记录的相应片段(例如，从相同的音频记录或从不同的音频记录)生成的多个声谱图。图2还示出了n维特征空间中的二维(“DIM1”和“DIM2”)。

如本文中所描述的映射已经用于针对声谱图200a、200b、200c、200d、200e中的每一个在n维特征空间中生成相应的特征向量250a、250b、250c、250d、250e。前三个声谱图200a、200b、200c对应于音频的包括第一类语义相关内容(例如，不同种类的鸟叫声或狗叫声)的相应时间段而后两个声谱图200d、200e对应于音频的包括与前三个声谱图200a、200b、200c的内容在语义上不相关的第二类语义相关内容(例如，紧急车辆警报声)的相应时间段。

因此，可以通过由这样的映射定义的语义编码的n维特征空间内确定通过将映射应用于从音频片段确定的声谱图而确定的特征向量之间的距离，确定音频片段的内容之间的语义相似度或不相似度。这可以允许识别包含语义相关内容和/或语义上与目标音频片段(和/或包含一个或多个音频片段的音频记录)相关的音频片段(和/或包含此类片段的音频记录)(例如，以方便按示例查询的应用(query-by-example application))。

在另一个示例中，可以使用聚类算法(例如，k均值)来识别相关音频片段的簇或可用音频片段集合内的其他语义结构。例如，可以在图2所示的n维特征空间内识别特征向量250a、250b、250c、250d、250e的第一260a簇和第二260b簇。这种识别可以包括确定n维空间内的簇的位置，指定n维空间内的区域(例如，所示的虚线区域)，指定n维空间内的分区(例如，超平面)或确定有关n维空间内的这样的簇的位置和/或范围的其他信息。然后，这些识别出的簇可以用于识别包含语义上相关的内容和/或语义上与目标音频片段相关的音频片段集合。

在又一个应用中，本文所述的映射可用于改善监督分类任务中的性能。例如，第一训练数据集合可以包括多个音频片段和/或音频记录，这些音频片段和/或音频记录具有表示音频片段/记录的内容的相关联的手动或以其他方式生成的分类值。可以基于包括另外多个音频片段和/或记录(例如，可以包括或可以不包括来自第一训练数据集合的音频片段的音频片段集合)的第二训练数据集合来生成如本文所述的映射。然后可以将所生成的映射应用于第一训练集合的音频片段以在由映射定义的语义编码的向量空间中生成对应的特征向量。然后可以训练分类器(例如，人工神经网络、支持向量机)以基于相应的特征向量来预测分类值。

相对于直接在第一训练数据集合上训练(即，不使用映射将第一训练数据集合映射到n维特征空间中)的分类器，这样的分类器可以得到改善，因为映射可以向所得的特征向量提供有用的语义结构，这可以使得分类器比没有这种语义结构时更准确、更简约和/或更通用。然后，这样的分类器以及相关的映射可以用于通过将附加的音频片段映射到n维特征空间中的特征向量并且然后将特征向量应用于训练的分类器以输出分类值来确定附加的音频片段的分类值(例如，“狗的叫声”、“车辆声音”、“紧急车辆警报声”)。

III.采样三元组以在三元组损失函数上进行训练

如本文所述将输入声谱图(或有关音频片段的其他信息)映射到n维特征空间中的特征向量的映射(例如，定义特征空间的映射，该特征空间在语义上被编码为使得包含语义相似内容的音频片段在该特征空间内彼此邻近)可以以多种方式生成。该训练可以包括获得多个训练示例，每个训练示例表示语义上相似和/或不相似的音频片段的示例。可以将映射应用于训练示例，然后将映射的输出应用于损失函数，该损失函数提供的损失项在映射性能更差时会更大。然后可以(例如，经由反向传播或一些其他机器学习训练算法)使用损失函数的输出来更新映射。

难以定义音频片段对在语义上或多或少相似的量化程度。定义特定音频片段(“锚”片段)是否比第二音频片段(“负”片段)更像第一音频片段(“正”片段)可能更直接。因此，如本文所描述的用于训练映射的训练示例集合可以包括音频片段的多个“三元组”，其中每个三元组包括锚片段，其更像三元组的正片段而不是三元组的负片段。然后可以使用这样的三元组来训练映射，使得该映射定义n维特征空间，使得针对训练三元组的锚片段确定的特征向量在n维特征空间内更邻近针对相应的正片段确定的特征向量，而不是更邻近针对相应的负片段确定的特征向量。

图3A示出了n维特征空间内的示例训练三元组300a的锚片段的特征向量310a、示例训练三元组300a的正片段的特征向量310p以及示例训练三元组300a的负片段的特征向量310n的相对位置。特征空间内的锚310a特征向量和正310p特征向量之间的距离(例如，欧几里得距离)由距离“D_p1”指示，并且锚310a特征向量和负310n特征向量之间的距离由距离“D_n1”指示。用于生成所示出的特征向量310a、310p、310n的映射定义了语义编码的n维特征空间，其中，锚片段的特征向量310a在n维特征空间内正确地更邻近于正片段的特征向量310p而不是负片段的特征向量310n(即，D_p1小于D_n1)。

距离或关于特征向量的相对位置的一些其他信息可用于更新或以其他方式训练映射(例如，减小D_p1和/或减小D_n1)。可替代地，在对于特定的训练三元组锚片段特征向量与正片段特征向量之间的距离(“锚-正距离”)小于锚片段特征向量与负片段特征向量之间的距离(“锚-负距离”)(例如，其中锚-正距离小于锚-负距离多于特定训练三元组的阈值量)情况下，可以仅基于其他训练三元组来更新映射。

图3B示出了n维特征空间内的另一示例训练三元组300b的锚片段的特征向量320a、示例训练三元组300b的正片段的特征向量320p以及示例训练三元组300b的负片段的特征向量320n的相对位置。特征空间内的锚320a特征向量和正320p特征向量之间的距离(例如，欧几里得距离)由距离“D_p2”指示，并且锚320a特征向量与负320n特征向量之间的距离由距离“D_n2”指示。用于生成所示出的特征向量320a、320p、320n的映射定义了语义编码的n维特征空间，其中，锚片段的特征向量320a在n维特征空间内错误地更邻近于正片段的特征向量320p而不是负片段的特征向量320n(即，D_p2小于D_n2)。因此，距离或关于特征向量的相对位置的一些其他信息可用于更新或以其他方式训练映射(例如，减小D_p2和/或减小D_n2)，以便改善映射。

可以提供损失函数，该损失函数接收这样的训练三元组的片段的特征向量的相对位置(例如，接收锚特征向量与正特征向量和负特征向量中的每一个之间的欧几里得距离)并输出可用于更新和/或训练映射的损失值，以提高映射将训练片段投影到n维特征空间的能力，使得锚片段被投影到更接近其相应正片段的特征向量而不是其相应负片段的特征向量的相应特征向量。这样的损失函数可以包括用于训练映射的每个音频片段三元组的项(例如，损失函数可以包括这样的项的总和)。根据应用，这些损失项可以包括铰链损失函数、S形或逻辑函数或一些其他函数。

在一些示例中，可以限制每个三元组的损失项，使得当正特征向量更邻近锚特征向量而不是负特征向量时(例如，当锚-正欧几里得距离小于锚-负欧几里得距离至少一个阈值量时)，损失项为零(或一些其他常数)。在这样的示例中，可以主要基于那些训练三元组来更新映射，对于那些训练三元组，映射不能生成比负特征向量更足够邻近锚特征向量的正特征向量。对于特定的训练三元组，这样的损失函数的项在图3C中示出。当锚-正特征向量距离(“D_p”)小于锚-负向特征向量距离(“D_n”)之间的差(“DIFFERENCE”)多于阈值量“δ”时，图3C的损失函数350返回“0”。该损失函数可以被表示为

其中L是损失函数，g是要训练的映射，T是N个训练三元组的集合，(用索引i表示的)每个训练三元组包括锚谱图x_a、正谱图x_p和负谱图x_n，‖·‖₂是L2范数或欧几里得距离，[·]₊是标准铰链损失函数，而δ是阈值参数。

可以经由各种方法来生成音频片段的三元组和/或由此确定的声谱图。可以手动生成这样的三元组(例如，通过向人呈现音频的各种三元组并从该人接收哪些三元组更相似的指示)。但是，这种手动注释可能很昂贵。取而代之的是，可以经由多种不同的采样方法从音频记录的训练集合中自动生成用于如本文所述训练映射的音频片段的三元组(即，锚音频片段、正音频片段和负音频片段的集合)。每种采样方法可以基于与音频片段的可能的语义结构和/或相关性有关的相应的启发式方法。然后可以使用所提供的采样方法中的一种或多种或者所提供的采样方法和一些附加采样方法的组合来生成训练三元组的集合。例如，可以通过使用本文描述的所有采样方法来生成训练三元组的集合。

例如，向音频片段添加一定量的噪声通常不应改变音频片段的分类和/或语义内容。因此，可以通过从音频记录的训练集合中选择锚音频片段来生成音频片段的训练三元组。然后可以通过将噪声(例如，高斯噪声)添加到锚音频片段来生成用于三元组的正音频片段。然后，可以通过从音频记录的训练集合中选择与所选择的锚片段不同的另一个音频片段来生成用于三元组的负音频片段。

在另一个示例中，将时间和/或频率上的小偏移应用于音频片段的声谱图通常不应改变时移和/或频移的音频片段的分类和/或语义内容。因此，可以通过从音频记录的训练集合中选择锚音频片段并由此生成声谱图来生成声谱图的训练三元组。然后可以通过将时间和/或频率上的偏移应用于锚声谱图来生成用于三元组的正音频片段。然后，可以通过从音频记录的训练集合中选择与所选择的锚片段不同的另一个音频片段并由此确定声谱图来生成用于三元组的负声谱图。

在又一示例中，两个不同音频片段的不相等加权的组合通常应(关于分类值、语义内容等)更接近地对应于在加权组合中被表示为更大程度的音频片段。因此，可以通过从音频记录的训练集合中选择锚音频片段来生成声谱图的训练三元组。然后，可以通过从音频记录的训练集合中选择与所选择的锚片段不同的另一个音频片段来生成用于三元组的负声谱图。然后，可以通过生成锚片段和负片段的加权组合来生成用于三元组的正音频片段，其中加权组合对锚声谱图加权地更重。可以对这种加权进行归一化，以解决锚声谱图和负声谱图中表示的能量和/或功率的差异。例如，可以根据下式生成正音频片段和/或正声谱图：

x_p＝x_a+α[E(x_a)/E(x_n)]x_n

其中，x_p,x_n和x_a分别是锚、负、正声谱图或音频片段，E(·)是音频片段/声谱图的总能量，并且α是设置为小于1的正值的加权参数。

在另一个示例中，关于分类和/或语义内容，来自同一音频记录的不同音频片段样本通常应该比从不同音频记录采样的音频片段更相似。因此，可以通过从音频记录的训练集合的第一音频记录中选择锚音频片段来生成声谱图的训练三元组。然后可以通过从第一音频记录中采样另一个音频片段来生成用于三元组的正音频片段。然后，可以通过从不同于第一音频记录的第二音频记录采样音频片段来生成用于三元组的负声谱图。为了增加锚音频片段和正音频片段表示相似的分类和/或语义内容的可能性，可以将正音频片段的采样限制在第一音频记录中的距锚音频片段最大时间差之内的音频片段。

IV.示例系统

可以由一个或多个计算系统来执行计算功能(例如，用于将音频记录的片段的声谱图或其他表示映射到语义编码的特征空间内的特征向量的功能、用于基于音频片段的多个三元组和/或由此确定的声谱图训练这样的映射的功能、用于从音频记录的训练集合中采样这样的训练三元组的功能)。这样的计算系统可以被集成到诸如移动电话，平板计算机、膝上型计算机、服务器、家庭自动化元件、独立视频捕获和处理设备、云计算网络和/或可编程的逻辑控制器的计算设备中或采取其形式。为了示例的目的，图4是示出示例计算设备400的一些组件的简化框图。

作为示例而非限制，计算设备400可以是蜂窝移动电话(例如，智能电话)、摄像机、计算机(诸如台式机、笔记本、平板电脑或手持计算机)、个人数字助理(PDA)、可穿戴计算设备、服务器、云计算系统(例如，联网的多个服务器或其他计算单元)或一些其他类型的设备或设备的组合。应当理解，计算设备400可以表示物理设备、应用在其上以软件操作的特定物理硬件平台或者被配置为执行映射、训练和/或音频处理功能的硬件和软件的其他组合。

如图4所示，计算设备400可以包括通信接口402、用户接口404、处理器406和数据存储408，所有这些都可以通过系统总线、网络或其他连接机制410通信地链接在一起。

通信接口402可以用于允许计算设备400使用电、磁、电磁、光或其他信号的模拟或数字调制与其他设备、接入网络和/或传输网络进行通信。因此，通信接口402可以促进电路交换和/或分组交换通信，诸如普通旧电话服务(POTS)通信和/或互联网协议(IP)或其他分组通信。例如，通信接口402可以包括芯片组和天线，所述芯片组和天线被布置用于与无线电接入网络或接入点进行无线通信。而且，通信接口402可以采取有线接口的形式或包括有线接口，诸如以太网、通用串行总线(USB)或高清多媒体接口(HDMI)端口。通信接口402也可以采取无线接口的形式或包括无线接口，诸如Wifi、全球定位系统(GPS)或广域无线接口(例如，WiMAX或3GPP长期演进(LTE))。然而，可以在通信接口402上使用其他形式的物理层接口和其他类型的标准或专有通信协议。此外，通信接口402可以包括多个物理通信接口(例如，Wifi接口、/>接口和广域无线接口)。

在一些实施例中，通信接口402可以用于允许计算设备400与其他设备、远程服务器、接入网络和/或传输网络进行通信。例如，通信接口402可以用于发送和/或接收音频记录的指示，发送已经使用本文所述的方法生成的映射的指示或一些其他信息。例如，计算设备400可以是计算机、服务器、云计算系统或配置为执行本文所述方法的其他系统，而远程系统可以是手机、数码相机或其他捕获设备，该其他捕获设备被配置为发送音频记录并从计算设备400接收音频记录和/或其音频片段的分类值、在语义上与所发送的音频记录相似的音频记录和/或其片段的指示，或接收一些来自计算设备400的其他信息。

用户接口404可以用于允许计算设备400与用户交互，例如从用户接收输入和/或向用户提供输出。因此，用户接口404可以包括输入组件，诸如键区、键盘、触敏或存在敏感面板、计算机鼠标、轨迹球、操纵杆、麦克风等。用户接口404还可以包括一个或多个输出组件，诸如显示屏，该显示屏可以例如与存在敏感面板组合。显示屏可以基于CRT、LCD和/或LED技术，或者其他目前已知或以后开发的技术。用户接口404也可以被配置为经由扬声器、扬声器插孔、音频输出端口、音频输出设备、耳机和/或其他类似设备来生成可听输出。

在一些实施例中，用户接口404可以包括用于向用户呈现视频或其他图像的显示器。另外，用户接口404可以包括有助于计算设备400的配置和操作的一个或多个按钮、开关、旋钮和/或拨盘。这些按钮、开关、旋钮和/或拨盘的一些或全部可能在触敏或存在敏感面板上作为功能实现。

处理器406可以包括一个或多个通用处理器——例如，微处理器——和/或一个或多个专用处理器——例如，数字信号处理器(DSP)、图形处理单元(GPU)、浮点单元(FPU)、网络处理器或专用集成电路(ASIC)。在某些情况下，专用处理器可能能够执行音频处理和神经网络计算以及其他应用或功能。数据存储408可以包括一个或多个易失性和/或非易失性存储组件，诸如磁性、光学、闪存或有机存储，并且可以全部或部分地与处理器406集成。数据存储408可以包括可移动和/或不可移动的组件。

处理器406能够执行存储在数据存储408中的程序指令418(例如，已编译或未编译的程序逻辑和/或机器代码)以执行本文所述的各种功能。因此，数据存储408可以包括其上存储有程序指令的非暂时性计算机可读介质，该程序指令在由计算设备400执行时使计算设备400执行本说明书和/或附图中公开的任何方法、过程或功能。

举例来说，程序指令418可以包括安装在计算设备400上的操作系统422(例如，操作系统内核、设备驱动程序和/或其他模块)和一个或多个应用程序420(例如，音频记录功能、音频处理、神经网络或其他分类器或映射训练)。

应用程序420可以采取“应用”的形式，其可以通过一个或多个在线应用商店或应用市场(经由例如通信接口402)下载到计算设备400。然而，应用程序也可以以其他方式安装在计算设备400上，诸如经由web浏览器或通过计算设备400的物理接口(例如，USB端口)。

在一些示例中，根据应用，本文描述的方法的部分可以由不同的设备执行。例如，系统的不同设备可以具有不同数量的计算资源(例如，存储器、处理器周期)和用于设备之间的通信的不同信息带宽。例如，第一设备可以是蜂窝电话或其他视听捕获设备，其可以将音频记录传输到另一设备或服务器，该另一设备或服务器具有必要的计算资源以对所传输的音频信息执行本文所述的方法。可以根据这样的考虑来分配本文描述的方法的不同部分。

V.示例方法

图5是用于生成映射(例如，人工神经网络、非线性核)的方法500的流程图，该映射可以将音频信号的片段的声谱图(或其他表示)映射到n维特征空间内的特征向量，使得包括语义上相似的内容(例如，动物噪声、狗的叫声、紧急车辆警报声等)的音频片段被映射到特征空间内彼此邻近的特征向量。方法500包括获得包括多个声音记录的训练数据(510)。这可以包括操作一个或多个麦克风以记录来自一个或多个环境的音频信号。附加地或可替代地，这可以包括访问包含音频记录的一个或多个数据库。方法500另外包括基于训练数据确定多个声谱图，其中，多个声谱图内的每个声谱图对应于训练数据的相应片段，并且是基于训练数据的相应片段来确定的(520)。

方法500另外包括生成多个训练三元组，其中多个训练三元组中的每个训练三元组包括来自多个声谱图的相应锚声谱图、正声谱图和负声谱图(530)。这可以包括执行以下采样操作中的一个或多个(例如，第一采样操作和第二采样操作)：(i)从多个声谱图中选择锚声谱图，通过将噪声添加到锚声谱图中来确定正声谱图，以及通过从多个声谱图中选择与锚声谱图不同的声谱图来确定负声谱图；(ii)从多个声谱图中选择锚声谱图，通过对锚声谱图应用频移或时移来确定正声谱图，以及通过从多个声谱图中选择与锚声谱图不同的声谱图来确定负声谱图；(iii)从多个声谱图中选择锚声谱图，通过从多个声谱图中选择与锚声谱图不同的声谱图来确定负声谱图，以及通过确定锚声谱图和负声谱图的加权组合来确定正声谱图；或(iv)从多个声谱图中选择锚声谱图，通过从多个声谱图中选择与锚声谱图不同的声谱图来确定正声谱图，使得锚声谱图和正声谱图对应于训练数据的第一声音记录的相应片段，以及通过从多个声谱图中选择与锚声谱图和正声谱图都不相同并且对应于训练数据的第二声音记录的片段的声谱图来确定负声谱图，其中第二声音记录不同于第一声音记录。

方法500另外包括将多个训练三元组中的每个训练三元组的每个声谱图映射到n维特征空间中的相应特征向量(540)。方法500进一步包括基于所确定的特征向量来更新映射，使得损失函数减小(550)。损失函数包括多个项的总和，其中多个项中的每个项对应于多个训练三元组中的相应训练三元组。当锚-正距离不小于锚-负距离至少指定的阈值量时，通过相对于锚-负距离增加锚-正距离来增加与特定训练三元组相对应的损失函数的项。距离可以是欧几里得距离或一些其他感兴趣的距离度量(例如，L₁距离、L₀距离)。损失函数的每个项可以是铰链损失函数或一些其他感兴趣的损失函数(例如，可微分的损失函数)。基于损失函数更新映射可以包括使用反向传播或用于基于损失函数和/或其单个项更新映射的一些其他方法。

方法500可以包括附加元素或特征。例如，方法500可包括使用映射来识别特征空间内的特征向量的簇，和/或通过识别音频片段集合内的具有与目标音频片段的映射生成的特征向量最邻近的映射生成的特征向量的音频片段来识别音频记录集合内的与目标音频片段相似的音频片段(例如，识别最邻近目标音频片段的特征向量的特征向量)。方法500可以包括使用映射来基于分类标记的音频片段的集合来生成改进的分类器，例如，通过训练分类器以基于使用映射针对音频片段生成的特征向量来预测与音频片段相对应的分类。

VI.结论

上面的详细描述参照附图描述了所公开的系统、设备和方法的各种特征和功能。在附图中，除非上下文另外指出，否则相似的符号通常标识相似的组件。在详细描述中、附图和权利要求中描述的说明性实施例并不意味着是限制性的。在不脱离本文提出的主题的范围的情况下，可以利用其他实施例，并且可以进行其他改变。容易理解的是，可以以各种不同的配置来布置、替换、组合、分离和设计如本文一般地描述的以及在附图中示出的本公开的各方面，所有这些都是本文明确设想的。

关于附图中以及如本文所讨论的任何或所有消息流图、场景和流程图，每个步骤、框和/或通信可以表示根据示例实施例的信息的处理和/或信息的传输。替代实施例被包括在这些示例实施例的范围内。在这些替代实施例中，例如，根据所涉及的功能，描述为步骤、框、传输、通信、请求、响应和/或消息的功能可以不按所示出或所讨论的顺序执行，包括基本上同时执行或以相反的顺序执行。此外，更多或更少的步骤、框和/或功能可以与本文讨论的消息流图、场景和流程图中的任何一种一起使用，并且这些消息流图、场景和流程图可以部分或全部地彼此组合。

表示信息处理的步骤或框可以对应于可以被配置为执行本文描述的方法或技术的特定逻辑功能的电路。可替代地或附加地，表示信息处理的步骤或框可以对应于程序代码(包括相关数据)的模块、片段或部分。程序代码可以包括一个或多个可由处理器执行的指令，以用于在该方法或技术中实现特定的逻辑功能或动作。程序代码和/或相关数据可以存储在任何类型的计算机可读介质上，诸如存储设备，包括磁盘驱动器、硬盘驱动器或其他存储介质。

计算机可读介质还可以包括非暂时性计算机可读介质，诸如短时间段存储数据的计算机可读介质，如寄存器存储器、处理器高速缓存和/或随机存取存储器(RAM)。计算机可读介质还可以包括用于较长时间段存储程序代码和/或数据的非暂时性计算机可读介质，诸如辅助或永久性长期存储，例如，如只读存储器(ROM)、光盘或磁盘、和/或光盘只读存储器(CD-ROM)。计算机可读介质还可以是任何其他易失性或非易失性存储系统。例如，计算机可读介质可以被认为是计算机可读存储介质或有形存储设备。

此外，表示一个或多个信息传输的步骤或框可以对应于同一物理设备中的软件和/或硬件模块之间的信息传输。然而，其他信息传输可以在不同物理设备中的软件模块和/或硬件模块之间进行。

尽管本文已经公开了各个方面和实施例，但是其他方面和实施例对于本领域技术人员将是显而易见的。本文所公开的各个方面和实施例是出于说明的目的，而不是旨在进行限制，其真实范围由所附权利要求指示。

Claims

1.一种用于语义音频表示的无监督学习的方法，包括：

获得训练数据，其中所述训练数据包括多个声音记录；

生成多个训练三元组，其中，所述多个训练三元组中的每个训练三元组包括来自所述多个声音记录的相应锚音频片段、正音频片段和负音频片段，其中，生成所述多个训练三元组包括：(i)执行第一三元组采样操作以生成所述多个训练三元组的第一训练三元组子集；以及(ii)执行第二三元组采样操作以生成所述多个训练三元组的第二训练三元组子集，其中所述第二三元组采样操作是与所述第一三元组采样操作不同的三元组采样操作；

将所述多个训练三元组中的每个训练三元组的每个音频片段映射到n维特征空间中的相应特征向量；以及

基于所确定的特征向量以无监督的方式来更新所述映射，使得损失函数减小，其中所述损失函数包括多个项的总和，其中所述多个项中的每个项对应于所述多个训练三元组中的相应训练三元组，并且其中当第一距离不小于第二距离至少指定的阈值量时，通过相对于所述第二距离增加所述第一距离来增加与特定训练三元组相对应的损失函数的项，其中，所述第一距离在所述特定训练三元组的锚音频片段的特征向量和所述特定训练三元组的正音频片段的特征向量之间，并且其中，所述第二距离在所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的负音频片段的特征向量之间。

2.根据权利要求1所述的方法，其中，将给定音频片段映射到所述n维特征空间中的对应特征向量包括：

基于所述给定音频片段来确定声谱图；以及

将所确定的声谱图映射到所述n维特征空间中的所述对应特征向量。

3.根据权利要求1所述的方法，其中，执行所述第一三元组采样操作包括：

从所述多个声音记录中为所述第一训练三元组子集中的特定训练三元组选择锚音频片段；

通过将噪声添加到所述特定训练三元组的所述锚音频片段来确定所述特定训练三元组的正音频片段；以及

通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段不同的音频片段来确定所述特定训练三元组的负音频片段。

4.根据权利要求1所述的方法，其中，执行所述第一三元组采样操作包括：

通过对第一训练三元组的所述锚音频片段应用频移或时移中的至少一个来确定所述第一训练三元组的正音频片段；以及

5.根据权利要求1所述的方法，其中，执行所述第一三元组采样操作包括：

通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段不同的音频片段来确定所述特定训练三元组的负音频片段；以及

通过确定所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述负音频片段的加权组合来确定所述特定训练三元组的正音频片段。

6.根据权利要求1所述的方法，其中，执行所述第一三元组采样操作包括：

通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段不同的音频片段来确定所述特定训练三元组的正音频片段，其中所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述正音频片段对应于所述训练数据的第一声音记录的相应片段；以及

通过从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述正音频片段都不相同的音频片段来确定所述特定训练三元组的负音频片段，其中所述特定训练三元组的所述负音频片段对应于所述训练数据的第二声音记录的片段，其中所述第二声音记录不同于所述第一声音记录。

7.根据权利要求1所述的方法，其中，所述第一距离是所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的所述正音频片段的特征向量之间的所述n维特征空间内的欧几里得距离，其中所述第二距离是所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的所述负音频片段的特征向量之间的所述n维特征空间内的欧几里得距离，并且其中，对应于所述特定训练三元组的损失函数的项包括铰链损失函数，所述铰链损失函数被应用于所述第一距离的平方和所述第二距离的平方之间的差。

8.根据权利要求1所述的方法，其中，所述映射包括卷积神经网络。

9.根据权利要求1至8中的任一项所述的方法，进一步包括：

应用更新的映射以为所述多个训练三元组中的每个训练三元组的每个锚音频片段确定所述n维特征空间中的相应更新的特征向量；

获得声音数据的附加片段；

将所述更新的映射应用于所述声音数据的附加片段，以确定所述声音数据的附加片段的所述n维特征空间中的附加特征向量；

基于在所述n维特征空间内与所述附加特征向量的邻近度，选择更新的特征向量中的一个；以及

经由所述锚音频片段中的相应锚音频片段，检索所述训练数据的与所选择的更新的特征相对应的片段。

10.根据权利要求1至8中的任一项所述的方法，进一步包括：

应用所述更新的映射以为所述多个训练三元组中的每个训练三元组的每个锚音频片段确定所述n维特征空间中的相应更新的特征向量；以及

基于所述更新的特征向量来确定所述n维特征空间内的与更新的特征向量的相应簇相对应的至少两个簇位置。

11.根据权利要求10所述的方法，进一步包括：

获得声音数据的附加片段；

为所述声音数据的附加片段获得分类值；

基于所述附加特征向量与所述至少两个簇位置中的簇位置之间的所述n维特征空间内的邻近度，从所述至少两个簇位置中为所述声音数据的附加片段选择簇位置；

基于所述n维特征空间内与所选择的簇位置的邻近度，选择多个更新的特征向量；以及

将所述分类值应用于所述训练数据的分别与所选择的更新的特征向量相对应的多个片段。

12.根据权利要求1至8中的任一项所述的方法，进一步包括：

获得声音数据的多个附加片段；

获得多个分类值，其中，所获得的分类值中的每一个分类值对应于所获得的声音数据的附加片段中的相应附加片段；

将更新的映射算法应用于所述声音数据的附加片段中的每一个附加片段，以确定所述n维特征空间中的相应附加特征向量；以及

基于附加声谱图和所获得的多个分类值来训练分类器。

13.根据权利要求12所述的方法，进一步包括：

获得声音数据的另外片段；

将所述更新的映射应用于所述声音数据的另外片段，以确定所述声音数据的另外片段的所述n维特征空间中的另外特征向量；以及

将经训练的分类器应用于所述另外特征向量，以为所述声音数据的另外片段生成分类值。

14.一种用于语义音频表示的无监督学习的方法，包括：

获得训练数据，其中所述训练数据包括多个声音记录；

生成多个训练三元组，其中所述多个训练三元组中的每个训练三元组包括来自所述多个声音记录的相应锚音频片段、正音频片段和负音频片段，其中生成所述多个训练三元组包括执行以下操作中的一个：

(i)第一三元组采样操作，其中，执行所述第一三元组采样操作包括：

从所述多个声音记录中为所述多个训练三元组中的第一训练三元组选择锚音频片段；

通过将噪声添加到所述第一训练三元组的所述锚音频片段来确定所述第一训练三元组的正音频片段；以及

通过从所述多个声音记录中选择与所述第一训练三元组的所述锚音频片段不同的音频片段来确定所述第一训练三元组的负音频片段；

(ii)第二三元组采样操作，其中，执行所述第二三元组采样操作包括：

从所述多个声音记录中为所述多个训练三元组中的第二训练三元组选择锚音频片段；

通过对所述第二训练三元组的所述锚音频片段应用频移或时移来确定所述第二训练三元组的正音频片段；以及

通过从所述多个声音记录中选择与所述第二训练三元组的所述锚音频片段不同的音频片段来确定所述第二训练三元组的负音频片段；

(iii)第三三元组采样操作，其中，执行所述第三三元组采样操作包括：

从所述多个声音记录中为所述多个训练三元组中的第三训练三元组选择锚音频片段；

通过从所述多个声音记录中选择与所述第三训练三元组的所述锚音频片段不同的音频片段来确定所述第三训练三元组的负音频片段；以及

通过确定所述第三训练三元组的所述锚音频片段和所述第三训练三元组的所述负音频片段的加权组合来确定所述第三训练三元组的正音频片段；或者

(iv)第四三元组采样操作，其中，执行所述第四三元组采样操作包括：

从所述多个声音记录中为所述多个训练三元组中的第四训练三元组选择锚音频片段；

通过从所述多个声音记录中选择与所述第四训练三元组的所述锚音频片段不同的音频片段来确定所述第四训练三元组的正音频片段，其中所述第四训练三元组的所述锚音频片段和所述第四训练三元组的所述正音频片段对应于所述训练数据的第一声音记录的相应片段；以及

通过从所述多个声音记录中选择与所述第四训练三元组的所述锚音频片段和所述第四训练三元组的所述正音频片段都不相同的音频片段来确定所述第四训练三元组的负音频片段，其中所述第四训练三元组的所述负音频片段对应于所述训练数据的第二声音记录的片段，其中所述第二声音记录不同于所述第一声音记录；

基于所确定的特征向量以无监督的方式来更新所述映射，使得损失函数减小，其中所述损失函数包括多个项的总和，其中所述多个项中的每个项对应于所述多个训练三元组中的相应训练三元组，并且其中当第一距离不小于第二距离至少指定的阈值量时，通过相对于所述第二距离增加所述第一距离来增加与特定训练三元组相对应的损失函数的项，其中，所述第一距离在所述特定训练三元组的锚音频片段的特征向量与所述特定训练三元组的正音频片段的特征向量之间，并且其中，所述第二距离在所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的负音频片段的特征向量之间。

15.根据权利要求14所述的方法，其中，将给定音频片段映射到所述n维特征空间中的对应特征向量包括：

基于所述给定音频片段来确定声谱图；以及

16.根据权利要求14所述的方法，其中，生成所述多个训练三元组包括执行所述第四三元组采样操作。

17.根据权利要求16所述的方法，其中，生成所述多个训练三元组进一步包括执行所述第一三元组采样操作、所述第二三元组采样操作或所述第三三元组采样操作中的一个。

18.根据权利要求16所述的方法，其中，生成所述多个训练三元组进一步包括执行所述第一三元组采样操作、所述第二三元组采样操作和所述第三三元组采样操作。

19.根据权利要求14所述的方法，其中，所述第一距离是所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的所述正音频片段的特征向量之间的所述n维特征空间内的欧几里得距离，其中所述第二距离是所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的所述负音频片段的特征向量之间的所述n维特征空间内的欧几里得距离，并且其中，对应于所述特定训练三元组的损失函数的项包括铰链损失函数，所述铰链损失函数被应用于所述第一距离的平方和所述第二距离的平方之间的差。

20.根据权利要求14所述的方法，其中，所述映射包括卷积神经网络。

21.根据权利要求14-20中的任一项所述的方法，进一步包括：

获得声音数据的附加片段；

22.根据权利要求14至20中的任一项所述的方法，进一步包括：

基于所述更新的特征向量来确定所述n维特征空间内的与所述n维特征空间内的更新的特征向量的相应簇相对应的至少两个位置。

23.根据权利要求22所述的方法，进一步包括：

获得声音数据的附加片段；

为所述声音数据的附加片段获得分类值；

24.根据权利要求14-20中的任一项所述的方法，进一步包括：

获得声音数据的多个附加片段；

基于所述声音数据的附加片段和所获得的多个分类值来训练分类器。

25.根据权利要求24所述的方法，进一步包括：

获得声音数据的另外片段；

26.一种用于语义音频表示的无监督学习的方法，包括：

获得训练数据，所述训练数据包括多个声音记录；

生成多个训练三元组，其中所述多个训练三元组中的每个训练三元组包括来自所述多个声音记录的相应锚音频片段、正音频片段和负音频片段，其中生成所述多个训练三元组包括：

从所述多个声音记录中为所述多个训练三元组中的特定训练三元组选择锚音频片段；

确定所述特定训练三元组的正音频片段，其中确定所述特定训练三元组的正音频片段包括以下中的一个：(i)将噪声添加到所述特定训练三元组的所述锚音频片段；(ii)对所述特定训练三元组的所述锚音频片段应用频移或时移；(iii)确定所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述负音频片段的加权组合；或(iv)从所述多个声音记录中选择与所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述负音频片段都不同的音频片段，使得所述特定训练三元组的所述锚音频片段和所述特定训练三元组的所述正音频片段对应于所述训练数据的第一声音记录的相应片段，并且其中，所述特定训练三元组的所述负音频片段对应于所述训练数据的不同于所述第一声音记录的第二声音记录的片段；

基于所确定的特征向量以无监督的方式来更新所述映射，使得损失函数减小，其中所述损失函数包括多个项的总和，其中所述多个项中的每个项对应于所述多个训练三元组中的相应训练三元组，并且其中当第一距离不小于第二距离至少指定的阈值量时，通过相对于所述第二距离增加所述第一距离来增加与特定训练三元组相对应的损失函数的项，其中，所述第一距离在所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的所述正音频片段的特征向量之间，并且其中，所述第二距离在所述特定训练三元组的所述锚音频片段的特征向量与所述特定训练三元组的所述负音频片段的特征向量之间。

27.根据权利要求26所述的方法，其中，将给定音频片段映射到所述n维特征空间中的对应特征向量包括：

基于所述给定音频片段来确定声谱图；以及

28.一种包括其上存储有程序指令的非暂时性计算机可读介质的制品，所述程序指令在由计算设备执行时使所述计算设备执行权利要求1-27中的任一项所述的方法。

29.一种用于语义音频表示的无监督学习的系统，包括：

控制器；和

其上存储有程序指令的非暂时性计算机可读介质，所述程序指令在由所述控制器执行时使所述控制器执行权利要求1-27中的任一项所述的方法。