CN112309428A

CN112309428A - 获得歌声检测模型

Info

Publication number: CN112309428A
Application number: CN201910694160.3A
Authority: CN
Inventors: 侯元波; 栾剑; 宋謌平
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-02-02
Anticipated expiration: 2039-07-30
Also published as: WO2021021305A1; CN112309428B

Abstract

本公开提供了用于获得歌声检测模型的方法和装置。可以将多个话音片段和多个器乐片段合成为多个音频片段。可以利用所述多个音频片段来训练话音检测模型。可以将所述话音检测模型的至少一部分迁移到歌声检测模型。可以利用一组多音音乐片段来训练所述歌声检测模型。

Description

获得歌声检测模型

背景技术

歌声(singing voice)检测技术可以用于确定音乐片段(clip)中的歌声的端点，例如，确定在多音(polyphonic)音乐片段中的歌声区域和非歌声区域等。在本文中，多音音乐片段可以指包含混合在一起的歌声以及伴奏的音频片段。对于音乐信息提取(MusicInformation Retrieval：MIR)任务而言，在多音音乐片段中对歌声区域的成功检测是非常重要的。典型的MIR任务可以包括例如音乐摘要、音乐提取、音乐标注、音乐类型分类、歌声分离等。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于获得歌声检测模型的方法和装置。可以将多个话音片段和多个器乐片段合成为多个音频片段。可以利用所述多个音频片段来训练话音检测模型。可以将所述话音检测模型的至少一部分迁移到歌声检测模型。可以利用一组多音音乐片段来训练所述歌声检测模型。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的歌声检测的示例性应用。

图2示出了根据实施例的歌声检测的示例性应用。

图3示出了根据实施例的基于迁移学习来获得歌声检测模型的示例性过程。

图4示出了根据实施例的话音检测模型的示例性实现方式。

图5示出了根据实施例的歌声检测模型的示例性实现方式。

图6示出了根据实施例的用于获得歌声检测模型的示例性方法的流程图。

图7示出了根据实施例的用于获得歌声检测模型的示例性装置。

图8示出了根据实施例的用于获得歌声检测模型的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

目前，深度学习技术已被应用于歌声检测。可以将深度神经网络用于估计理想二进制声谱遮罩(Ideal Binary Spectrogram Mask)，其表示歌声比伴奏更为显著的声谱段。可以基于卷积神经网络(CNN)构建基于时间和音色特征的模型，以用于提高MIR的性能。可以采用循环神经网络(RNN)来预测与原始信号相乘的软遮罩以获得期望的隔离区域。上述这些系统的训练需要大规模的经过准确标记的多音音乐片段数据集，在该数据集中以帧级别标注了歌声、伴奏等的端点。然而，这样的大规模标记数据集通常是不可获得的，并且人为标记也是费时且昂贵的。因此，只有小规模的经过标记的多音音乐片段数据集可以被实际用于训练这些系统。

为了克服训练数据不足的问题，迁移学习被提出用于提取从源任务学习的知识并且应用于相似但不同的目标任务。迁移学习可以缓解用于目标任务的训练数据不足的问题并且易于概括出模型。迁移学习已被尝试用于歌声检测。例如，可以基于具有不同类型歌曲的数据集来训练用于音乐标注的CNN，然后将该CNN迁移到其它音乐相关分类和回归任务，如歌声检测。然而，这种基于迁移学习的歌声检测仅仅能够在不同类型歌曲之间迁移歌声知识。

本公开的实施例提出了从话音(speech)向歌声的知识迁移。例如，可以首先训练用于话音检测源任务的话音检测模型，然后将话音检测模型的一部分迁移到用于歌声检测目标任务的歌声检测模型，进而使用少量的经过标记的多音音乐片段来训练歌声检测模型。尽管在讲话与演唱之间存在差异，并且声学特性也可能随着伴奏的改变而改变，但是话音与歌声二者之间仍然具有可以利用的有用的相似性。对于从话音片段中学习的潜在表示的迁移可以改进歌声检测的性能。所学习的潜在表示将会保留话音检测源任务的相关信息，并迁移到歌声检测目标任务。此外，在源任务中的话音与目标任务中的歌声之间共享知识可以使得歌声检测模型能够以更普遍性和鲁棒性的方式来理解包括话音、歌声等的人类声音。

干净的话音片段以及器乐片段都是可以例如在网络上广泛地大量获得的，并且可以通过各种已有的技术容易地检测出话音片段中的话音端点并进而提供帧级别的话音标记。在本文中，话音片段可以仅包括人类讲话的声音，器乐片段可以仅包括所演奏的乐器声。可以将话音片段和器乐片段合成在一起，以形成用于训练话音检测模型的大规模的音频片段训练数据集。考虑到讲话与演唱之间的可能的不同发声方式和声带振动程度，在将所训练的话音检测模型的一部分迁移到歌声检测模型之后，可以利用包括少量的经过标记的多音音乐片段的多音音乐片段训练数据集来进一步训练或优化歌声检测模型。得益于从话音检测所迁移来的知识，尽管只使用了少量的经过标记的多音音乐片段，所获得的歌声检测模型仍然将具有比传统歌声检测模型更高的准确性。

在一个方面，话音检测模型可以采用例如CNN来执行在音频片段中区分话音和非话音的源任务。歌声检测模型可以采用例如卷积循环神经网络(CRNN)来执行在多音音乐片段中的歌声检测的目标任务。在进行迁移时，可以将话音检测模型中的CNN的至少一部分，例如至少一些卷积层，迁移到歌声检测模型的CRNN中。可以采用不同的知识迁移模式。在一种模式中，在利用多音音乐片段训练数据集来训练歌声检测模型时，歌声检测模型中包括的从话音检测模型所迁移来的部分可以保留原来的参数。在另一种模式中，可以利用多音音乐片段训练数据集来调试或精调歌声检测模型中包括的从话音检测模型所迁移来的部分的参数。

本公开的实施例克服了用于训练歌声检测模型的训练数据不足的问题，使得所获得的歌声检测模型包含了话音和歌声两者中的声音知识，并且使得特征提取能够更高效地对声音进行表示。所提出的迁移学习方式可以使得在源任务中训练的特征提取能被更高效地调试到目标任务中，并且可以采用不同的知识迁移模式。

根据本公开的实施例所获得的歌声检测模型可以被应用于各种场景。在一种场景中，可以将歌声检测模型用于具有自动帮唱功能的智能辅助演唱系统。在演唱者的演唱过程中，当该系统通过与原始歌曲的比对而检测到演唱者由于忘词或其它原因而中断了演唱时，可以实时地提示歌词或者自动播放下一句的原唱。在一种场景中，可以将歌声检测模型用于歌声与伴奏分离的预处理。例如，作为歌声与伴奏分离的预处理，歌声检测模型可以至少检测出多音音乐片段中不需要分离的区域，例如只有歌声的区域或只有伴奏的区域，从而可以减少歌声与伴奏分离的处理量并且提高分离效率。在一种场景中，可以将歌声检测模型用于音乐结构分解。例如，可以至少利用歌声检测模型来对目标音乐中的歌声部分、伴奏部分、静默或无声(silence)部分等进行标识。在一种场景中，可以将歌声检测模型用于音乐推荐、歌曲库管理等的预处理。例如，可以预先利用歌声检测模型对音乐库或歌曲库中的音乐或歌曲进行截段，以抽取出具有歌声的一系列区域。这些抽取出的歌声区域将有助于在音乐推荐、曲库管理等中高效地检索出相应的音乐或歌曲。

图1示出了根据实施例的歌声检测的示例性应用100。根据本公开实施例所获得的歌声检测模型可以用于检测多音音乐片段中的歌声区域和非歌声区域。歌声区域可以指多音音乐片段中包括演唱者演唱声音的区域，非歌声区域可以指多音音乐片段中不包括演唱者演唱声音的区域。每个歌声区域可以由对应的歌声端点来限定，例如，由歌声开始时间点和歌声结束时间点来限定。每个非歌声区域可以由对应的非歌声端点来限定，例如，由非歌声开始时间点和非歌声结束时间点来限定。在一种实施方式中，歌声检测模型可以基于声谱来执行歌声检测。

如图1所示，可以首先将待检测的多音音乐片段的波形转换成声谱。该声谱可以进而作为输入提供给歌声检测模型。歌声检测模型可以通过对声谱的处理来产生检测结果，该检测结果标识出该多音音乐片段中的歌声区域和非歌声区域。在一种实施方式中，歌声检测模型可以实现对多音音乐片段中的帧的二分类，例如，将每一帧分类为歌声或非歌声。在对帧进行分类之后，可以将具有相同类别的相邻的帧整体标识成歌声区域或非歌声区域，从而形成最终的检测结果。例如，检测结果可以包括：将从时间t₁到时间t₂的区域标识为非歌声区域；将从时间t₂到时间t₃的区域标识为歌声区域；将从时间t₃到时间t₄的区域标识为非歌声区域；以及将从时间t₄到时间t₅的区域标识为歌声区域；等等。

图2示出了根据实施例的歌声检测的示例性应用200。根据本公开实施例所获得的歌声检测模型可以用于检测多音音乐片段中的歌声区域、伴奏区域和静默区域。歌声区域可以指多音音乐片段中包括演唱者演唱声音的区域，伴奏区域可以指多音音乐片段中包括演奏的乐器声的区域，静默区域可以指多音音乐片段中不包括任何声音的区域。每个歌声区域可以由对应的歌声端点来限定，例如，由歌声开始时间点和歌声结束时间点来限定。每个伴奏区域可以由对应的伴奏端点来限定，例如，由伴奏开始时间点和伴奏结束时间点来限定。每个静默区域可以由对应的静默端点来限定，例如，由静默开始时间点和静默结束时间点来限定。在一种实施方式中，歌声检测模型可以基于声谱来执行歌声检测。

如图2所示，可以首先将待检测的多音音乐片段的波形转换成声谱。该声谱可以进而作为输入特征提供给歌声检测模型。歌声检测模型可以通过对声谱的处理来产生检测结果，该检测结果标识出该多音音乐片段中的歌声区域、伴奏区域和静默区域。在一种实施方式中，歌声检测模型可以实现对多音音乐片段中的帧的三分类，例如，将每一帧分类为歌声、伴奏和静默中的至少一种。应当理解，每帧可能具有一种或多种类别，例如，如果当前帧对应于演唱者正在伴奏下进行演唱，则该帧可以具有歌声和伴奏两个类别。在对帧进行分类之后，可以将具有相同类别的相邻的帧整体标识成歌声区域、伴奏区域或静默区域，从而形成最终的检测结果。例如，检测结果可以包括：将从时间t₁到时间t₃的区域标识为伴奏区域；将从时间t₂到时间t₄的区域标识为歌声区域；将从时间t₄到时间t₅的区域标识为静默区域；将从时间t₅到时间t₇的区域标识为伴奏区域；以及将从时间t₆到时间t₇的区域标识为歌声区域；等等。此外，如图所示，不同类型的区域之间也可能存在重叠部分，例如从时间t₂到时间t₃的伴奏区域与从时间t₂到时间t₃的歌声区域重叠，这表明多音音乐片段中时间t₂与时间t₃之间既包括歌声也包括伴奏。

应当理解，尽管以上结合图1和图2讨论了根据实施例的歌声检测任务所包括的示例性应用，本公开所涉及的歌声检测任务并不局限于这些示例性应用，而是还可以涵盖任何旨在检测出多音音乐片段中的歌声区域以及一类或多类其它标注区域的应用。

图3示出了根据实施例的基于迁移学习来获得歌声检测模型的示例性过程300。根据本公开的实施例，迁移学习被用于从话音检测源任务提取声音知识，并将所提取的声音知识应用于歌声检测目标任务以进行歌声检测。通过使用迁移学习，可以克服用于歌声检测目标任务的训练数据不足以训练出良好的歌声检测模型的问题。在一种实施方式中，可以在源任务中将话音检测模型中的CNN训练用于检测合成的音频片段中的话音区域。从源任务中的大规模音频片段训练数据集里学习到的声音知识可以被迁移到目标任务。可以进而使用在目标任务中收集的包括少量的经过标记的多音音乐片段的小规模多音音乐片段训练数据集来进一步训练或优化歌声检测模型中的CRNN，以便在多音音乐片段中进行歌声检测。

可以分别获得大量的话音片段302和器乐片段304。话音片段302可以是在网络上收集的或从任何内容源获得的，其可以是仅包括人类讲话的声音的任何类型的话音记录，例如，演讲录音、新闻播报录音、讲故事的录音等。器乐片段304可以是在网络上收集的或从任何内容源获得的，其可以是仅包括乐器被演奏时发出的乐器声的任何类型的乐器声记录，例如，纯音乐等。此外，器乐片段304也可以广义地包括任何非话音的声音记录，例如，对自然界存在的声音的记录、人为模拟出的声音的记录等。

可以将话音片段302和器乐片段304合成为多个音频片段306。例如，可以将一个或多个话音片段以及一个或多个器乐片段按照特定的时序提供到多个不同的音轨上，以便合成一个音频片段。

可以基于所合成的音频片段306来形成用于训练话音检测模型的大规模的音频片段训练数据集308。音频片段训练数据集308中的每个音频片段可以包括指示是否存在话音的多个帧级别标记。在一种实施方式中，可以首先确定话音片段中的存在话音的话音区域。每个话音区域由包括例如话音开始时间点和话音结束时间点的话音端点对所标识。然后，基于所确定的话音区域来为话音片段中的帧添加帧级别的话音标记。例如，向位于话音区域中的帧添加用于指示存在话音的标记，而向不位于任何话音区域中的帧添加用于指示不存在话音的标记。利用经过标记的话音片段所合成的音频片段也相应地具有了用于指示是否存在话音的多个帧级别标记。

包括大量经过标记的合成的音频片段的音频片段训练数据集308可以被用于训练话音检测模型310。话音检测模型310可以执行用于检测音频片段中的话音的源任务。例如，话音检测模型310可以将音频片段中的每帧分类为是否是话音，进而可以确定音频片段中的话音区域和非话音区域。在一种实施方式中，话音检测模型310可以基于包括一个或多个卷积层的CNN。该CNN可以被训练用于识别音频片段中的话音区域。

在训练了话音检测模型310之后，可以构建歌声检测模型320。歌声检测模型320可以执行歌声检测目标任务。例如，在一种实施方式中，歌声检测模型320可以执行用于检测多音音乐片段中的歌声的目标任务。歌声检测模型320可以将多音音乐片段中的每帧分类为是否是歌声，进而可以确定多音音乐片段中的歌声区域和非歌声区域。例如，在另一种实施方式中，歌声检测模型320可以执行用于检测多音音乐片段中的歌声、伴奏和静默的目标任务。歌声检测模型320可以将多音音乐片段中的每帧分类为是否是歌声、伴奏和/或静默，进而可以确定多音音乐片段中的歌声区域、伴奏区域和静默区域。

歌声检测模型320可以基于CRNN。该CRNN可以包括例如CNN 322和RNN 324。根据过程300，在构建歌声检测模型320时，可以将话音检测模型310中的CNN 312的至少一部分迁移到歌声检测模型320中的CNN 322内。在一种情况下，可以将整个CNN 312，例如全部卷积层，迁移到歌声检测模320中以作为CNN 322。在另一种情况下，可以仅将CNN 312的一部分，例如一个或多个卷积层，迁移到CNN 322中以作为CNN 322的一部分。

在构建了歌声检测模型320之后，可以进一步训练或优化歌声检测模型320。可以获得一组多音音乐片段326，并且利用该组多音音乐片段326来形成用于训练或优化歌声检测模型320的多音音乐片段训练数据集328。多音音乐片段训练数据集328可能仅包括少量的经标记的多音音乐片段。根据歌声检测模型320所执行的不同的歌声检测目标任务，多音音乐片段326可以具有相应的帧级别标记。如果歌声检测模型320执行用于检测多音音乐片段中的歌声的目标任务，则多音音乐片段训练数据集328中的每个多音音乐片段可以包括指示是否存在歌声的多个帧级别标记。例如，向一个多音音乐片段中位于歌声区域中的帧添加用于指示存在歌声的标记，而向不位于任何歌声区域中的帧添加用于指示不存在歌声的标记。如果歌声检测模型320执行用于检测多音音乐片段中的歌声、伴奏和静默的目标任务，则多音音乐片段训练数据集328中的每个多音音乐片段可以包括指示是否存在歌声、伴奏和/或静默的多个帧级别标记。例如，向一个多音音乐片段中位于歌声区域中的帧添加用于指示存在歌声的标记，向位于伴奏区域中的帧添加用于指示存在伴奏的标记，以及向位于静默区域中的帧添加用于指示存在静默的标记。包括经标记的多音音乐片段的多音音乐片段训练数据集328可以被用于训练或优化歌声检测模型320。通过前面所述的迁移过程，歌声检测模型320可以获得在源任务中学习的关于话音的知识，而通过利用多音音乐片段训练数据集328进行进一步的训练或优化，歌声检测模型320可以更好地适应于目标任务中的涉及歌声的数据集，从而改善利用合成的音频片段所训练的检测模型不能良好地匹配目标任务中的数据的失配问题。

通过过程300所获得的歌声检测模型320可以用于以高准确性对输入的多音音乐片段执行歌声检测任务。

图4示出了根据实施例的话音检测模型的示例性实现方式。图4所示的话音检测模型420可以对应于图3中的话音检测模型310。

话音检测模型420的输入410可以是音频片段。在一种实施方式中，可以将音频片段的波形转换成声谱，并将该声谱作为输入410。在训练过程中，音频片段可以是利用话语片段和器乐片段所合成的音频片段。由音频片段的波形所转换成的声谱可以是梅尔谱，例如对数梅尔谱等，其是用于近似人类听觉感知的2D表示并且具有较高的计算效率。以下讨论以采用对数梅尔谱形式的音频片段表示作为话音检测模型420的输入特征为例。

在一种实施方式中，话音检测模型420可以是基于CNN的。例如，话音检测模型420可以包括CNN 430。CNN 430可以包括依次堆叠的一个或多个卷积层，例如，卷积层432、卷积层436、卷积层440等。此外，可选地，每个卷积层还可以附加有对应的池化层，例如，池化层434、池化层438、池化层442等。这些池化层可以为例如最大池化(max-pooling)层。应当理解，图4所示的CNN 430的结构仅仅是示例性的，根据具体的应用需求或设计约束，CNN 430也可以具有任何其它结构，例如包括更多或更少的卷积层、省略池化层、增加用于其它处理的层等。

在一种实施方式中，为了综合地理解音频片段的上下文信息，CNN 430的输入可以采用移动数据块。该移动数据块可以包括当前帧、当前帧的前面L帧以及后面L帧。连续的块之间的偏移可以是例如一帧。每个移动数据块可以包含2L+1帧。L的值决定了在每帧处可见的上下文范围，其可以是经验性设置的。

CNN 430中的卷积层可以用于提取空间位置信息。例如，卷积层可以从输入的对数梅尔谱特征中学习本地偏移不变性模式。可选地，为了保留输入的时间分辨率，可以进一步仅对频率轴应用池化。卷积层可以由(滤波器，(时间上的感知视野，频率上的感知视野))来表示，例如(64，(3，3))。池化层可以由(时间上的池化长度，频率上的池化长度)来表示，例如(1，4)。在所有卷积层中，可以使用批量归一化(batch normalzation)来加速训练收敛。在一种实施方式中，为了减少深度网络训练中的梯度消减问题，可以在卷积层中使用门控线性单元(GLU)。GLU提供了用于梯度传播的线性路径，同时也通过例如sigmoid操作来保留非线性能力。给定W和V作为卷积滤波器，b和c作为偏置，X作为输入特征或者中间层的特征映射，σ作为sigmoid函数，则GLU可以定义为：

Y＝(W*X+b、)⊙σ(V*X+c) 公式(1)

其中，符号⊙是元素级乘积，*是卷积运算符。应当理解，使用GLU的另一个好处是，通过根据时频单元的特有的时间位置分别对时频单元进行加权，GLU可以帮助网络更关注于话音而忽略不相关的器乐等。

话音检测模型420还可以包括输出层444。输出层444可以包括具有例如softmax的两个输出单元，其可以指示当前输入是否对应于话音。应当理解，尽管图4中未示出，在池化层442与输出层444之间还可以可选地包括一个基于Relu的全连接层。

话音检测模型420可以将音频片段中的帧分类为话音或非话音，这些分类结果可以形成最终的话音检测结果450。在一种情况下，话音检测结果450可以被表示为帧级别的对音频片段中的帧的话音或非话音标记。在一种情况下，话音检测结果450可以是对帧级别的话音或非话音标记的整合，并被表示为音频片段中所标识的话音区域和非话音区域。

图5示出了根据实施例的歌声检测模型的示例性实现方式。图5所示的歌声检测模型520可以对应于图3中的歌声检测模型320。

歌声检测模型520的输入510可以是多音音乐片段。在一种实施方式中，可以将多音音乐片段的波形转换成声谱，并将该声谱作为输入510。由多音音乐片段的波形所转换成的声谱可以是梅尔谱，例如对数梅尔谱等。以下讨论以采用对数梅尔谱形式的多音音乐片段表示作为歌声检测模型520的输入特征为例。

在一种实施方式中，歌声检测模型520可以是基于CRNN的。例如，歌声检测模型520可以包括CNN 530。CNN 530可以包括依次堆叠的一个或多个卷积层，例如，卷积层532、卷积层536、卷积层540等。CNN 530中的卷积层可以用于提取空间位置信息。此外，可选地，每个卷积层还可以附加有对应的池化层，例如，池化层534、池化层538、池化层542等。这些池化层可以为例如最大池化层。应当理解，图5所示的CNN 530的结构仅仅是示例性的，根据具体的应用需求或设计约束，CNN 530也可以具有任何其它结构，例如包括更多或更少的卷积层、省略池化层、增加用于其它处理的层等。在一种实施方式中，为了综合地理解多音音乐片段的上下文信息，与以上结合图4讨论类似地，CNN 530的输入也可以采用移动数据块。该移动数据块可以包括当前帧、当前帧的前面L个帧以及后面L个帧。连续的块之间的偏移可以是例如一个帧。每个移动数据块可以包含2L+1个帧。L的值决定了在每一个帧处可见的上下文范围，其可以是经验性设置的。

歌声检测模型520还可以包括RNN 550。RNN 550可以学习时序信息，并且捕获长期时间上下文信息。RNN 550可以利用循环神经元，例如简单RNN、门控循环单元(GRU)、长短期记忆(LSTM)网络等，来学习时序信息。RNN 550中的循环神经元可以具有一条反馈回路，以将学习到的信息反馈到自身的神经元，以便记录历史信息。从而，在下一时刻，可以结合当前信息和已有的历史信息来共同作出决策。在一种实施方式中，为了结合上下文的信息共同做出决策，RNN 550也可以基于双向循环神经网络。在双向循环神经网络中的每一个循环神经元中，信息流不仅从前向后传播，也从后向前传播，使得循环神经元可以知晓一定时间范围内的过去信息和将来信息，从而做出更好的决策。

歌声检测模型520还可以包括输出层552。输出层552可以产生对当前输入的分类结果。根据具体歌声检测任务的不同，分类结果可以为歌声或非歌声，或者可以为歌声、伴奏或静默。

歌声检测模型520所产生的分类结果可以形成最终的歌声检测结果560。在一种情况下，歌声检测结果560可以被表示为帧级别的对多音音乐片段中的帧的分类标记，例如歌声或非歌声，或者例如歌声、伴奏或静默。在一种情况下，歌声检测结果560可以是对帧级别的分类结果的整合，并被表示为多音音乐片段中所标识的歌声区域和非歌声区域，或者歌声区域、伴奏区域和静默区域。

如前所述，歌声检测模型520中的CNN 530可以是通过从话音检测模型420的CNN430的迁移来构建的。例如，CNN 530中的卷积层532、卷积层536、卷积层540中的至少一个卷积层可以来自于CNN 430中的对应卷积层。CNN 530可以具有多种构建方式。在一种构建方式中，可以将CNN 430中的全部卷积层都迁移到CNN 530中，相应地，卷积层532、卷积层536、卷积层540可以分别对应于卷积层432、卷积层436、卷积层440。在另一种构建方式中，可以将CNN 430中的一部分卷积层迁移到CNN 530中。例如，仅将卷积层432迁移到CNN 530中以作为卷积层532，或者仅将卷积层432和卷积层436迁移到CNN 530中以作为卷积层532和卷积层536。在这种情况下，可以优选地将CNN 430中位于底层的一个或多个卷积层迁移到CNN530中，以作为CNN 530中的相应的底层的卷积层，其中，底层的卷积层可以指更靠近输入410或510的卷积层。底层的卷积层可能包含对于源任务和目标任务都有用的更通用的特征。底层的卷积层学习声音的基本的本地特征，而高层的卷积层可能在学习一些高层表示和知识中变得更不相关。目标任务中的歌声与源任务中的话音相比更为复杂，这是因为歌声将会随着伴奏而改变。因此，CNN 430中的高层的卷积层从话音所学习到的对声音的高层表示可能不能匹配于目标任务，导致对这些知识的迁移对目标任务帮助较少。因此，将CNN430中位于底层的一个或多个卷积层迁移到CNN 530，而不将CNN 430中位于高层的卷积层迁移到CNN 530，可以有助于进一步改善CNN 530的性能。

上述的从CNN 430向CNN 530的迁移可以采用不同的知识迁移模式。在可以称为固定模式的迁移模式中，可以将来自源任务的知识直接应用于目标任务。例如，将CNN 430中的卷积层所学习的参数直接迁移到CNN 530中，并且在后续训练歌声检测模型520时，固定或保留这些参数。具体地，假设将CNN 430中的卷积层432迁移到CNN 530中以作为卷积层532，则卷积层532将固定卷积层432先前学习到的那些参数，而并不在后续的训练过程中改变这些参数。在可以称为精调模式的另一种迁移模式中，CNN 530除了考虑来自源任务的知识外，还考虑从目标任务域学习到的新知识。例如，首先将CNN 430中的卷积层所学习的参数迁移到CNN 530中以作为相应卷积层的初始值，然后在利用多音音乐片段训练数据集对歌声检测模型520进行训练期间，对所迁移的参数继续进行调试或精调，以便可以学习歌声检测目标任务中的新知识并且集成来自源任务和目标任务两者的知识，从而获得更普遍更鲁棒的模型。

可以将上述的知识迁移模式与CNN 530的不同构建方式进行任意的组合。例如，可以在将CNN 430中位于底层的一个或多个卷积层迁移到CNN 530中之后，采用精调模式，以便对所迁移的卷积层的参数进行调试或精调。

应当理解，CNN 530可以具有与CNN 430相类似的结构。对于CNN 530中的并非迁移自CNN 430的那些卷积层，可以在利用多音音乐片段来训练歌声检测模型的过程中而进行训练。此外，可选地，CNN 530中的池化层可以是随着对应的卷积层而从CNN 430迁移来的，或者可以是重新构建的。

图6示出了根据实施例的用于获得歌声检测模型的示例性方法600的流程图。

在610处，可以将多个话音片段和多个器乐片段合成为多个音频片段。

在620处，可以利用所述多个音频片段来训练话音检测模型。

在630处，可以将所述话音检测模型的至少一部分迁移到歌声检测模型。

在640处，可以利用一组多音音乐片段来训练所述歌声检测模型。

在一种实施方式中，所述话音检测模型可以执行用于检测音频片段中的话音的源任务。所述多个音频片段中的每一个可以包括指示是否存在话音的多个帧级别标记。

在一种实施方式中，所述话音检测模型是基于包括一个或多个卷积层的CNN的。所述迁移可以包括：将所述一个或多个卷积层中的至少一个卷积层迁移到所述歌声检测模型。所述至少一个卷积层可以位于所述一个或多个卷积层中的底层。所述一个或多个卷积层中的每一个可以连接有相应的池化层。

在一种实施方式中，所述歌声检测模型可以执行用于检测多音音乐片段中的歌声的目标任务。所述一组多音音乐片段中的每一个可以包括指示是否存在歌声的多个帧级别标记。

在一种实施方式中，所述歌声检测模型可以执行用于检测多音音乐片段中的歌声、伴奏和静默的目标任务。所述一组多音音乐片段中的每一个可以包括指示是否存在歌声、伴奏和/或静默的多个帧级别标记。

在一种实施方式中，所述歌声检测模型可以是基于CRNN的，所述CRNN包括CNN和RNN。所述CNN可以包括从所述话音检测模型迁移来的至少一个卷积层。所述训练所述歌声检测模型可以包括：固定所述至少一个卷积层的参数。可选地，所述训练所述歌声检测模型可以包括：利用所述一组多音音乐片段来调试所述至少一个卷积层的参数。

在一种实施方式中，所述话音检测模型和所述歌声检测模型的输入可以采用梅尔谱的形式。

应当理解，方法600还可以包括根据上述本公开实施例的用于获得歌声检测模型的任何步骤/过程。

图7示出了根据实施例的用于获得歌声检测模型的示例性装置700。

装置700可以包括：音频片段合成模块710，用于将多个话音片段和多个器乐片段合成为多个音频片段；话音检测模型训练模块720，用于利用所述多个音频片段来训练话音检测模型；迁移模块730，用于将所述话音检测模型的至少一部分迁移到歌声检测模型；以及歌声检测模型训练模块740，用于利用一组多音音乐片段来训练所述歌声检测模型。

此外，装置700还可以包括根据上述本公开实施例的被配置用于获得歌声检测模型的任何其它模块。

图8示出了根据实施例的用于获得歌声检测模型的示例性装置800。

装置800可以包括至少一个处理器810以及存储了计算机可执行指令的存储器820。当执行所述计算机可执行指令时，处理器810可以：将多个话音片段和多个器乐片段合成为多个音频片段；利用所述多个音频片段来训练话音检测模型；将所述话音检测模型的至少一部分迁移到歌声检测模型；以及利用一组多音音乐片段来训练所述歌声检测模型。此外，处理器810还可以执行根据上述本公开实施例的用于获得歌声检测模型的任何步骤/过程。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于获得歌声检测模型的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

Claims

1.一种用于获得歌声检测模型的方法，包括：

将多个话音片段和多个器乐片段合成为多个音频片段；

利用所述多个音频片段来训练话音检测模型；

将所述话音检测模型的至少一部分迁移到歌声检测模型；以及

利用一组多音音乐片段来训练所述歌声检测模型。

2.如权利要求1所述的方法，其中，所述话音检测模型执行用于检测音频片段中的话音的源任务。

3.如权利要求2所述的方法，其中，所述多个音频片段中的每一个包括指示是否存在话音的多个帧级别标记。

4.如权利要求1所述的方法，其中，所述话音检测模型是基于包括一个或多个卷积层的卷积神经网络(CNN)的。

5.如权利要求4所述的方法，其中，所述迁移包括：将所述一个或多个卷积层中的至少一个卷积层迁移到所述歌声检测模型。

6.如权利要求5所述的方法，其中，所述至少一个卷积层位于所述一个或多个卷积层中的底层。

7.如权利要求4所述的方法，其中，所述一个或多个卷积层中的每一个连接有相应的池化层。

8.如权利要求1所述的方法，其中，所述歌声检测模型执行用于检测多音音乐片段中的歌声的目标任务。

9.如权利要求8所述的方法，其中，所述一组多音音乐片段中的每一个包括指示是否存在歌声的多个帧级别标记。

10.如权利要求1所述的方法，其中，所述歌声检测模型执行用于检测多音音乐片段中的歌声、伴奏和静默的目标任务。

11.如权利要求10所述的方法，其中，所述一组多音音乐片段中的每一个包括指示是否存在歌声、伴奏和/或静默的多个帧级别标记。

12.如权利要求1所述的方法，其中，所述歌声检测模型是基于卷积循环神经网络(CRNN)的，所述CRNN包括卷积神经网络(CNN)和循环神经网络(RNN)。

13.如权利要求12所述的方法，其中，所述CNN包括从所述话音检测模型迁移来的至少一个卷积层。

14.如权利要求13所述的方法，其中，所述训练所述歌声检测模型包括：固定所述至少一个卷积层的参数。

15.如权利要求13所述的方法，其中，所述训练所述歌声检测模型包括：利用所述一组多音音乐片段来调试所述至少一个卷积层的参数。

16.如权利要求1所述的方法，其中，所述话音检测模型和所述歌声检测模型的输入采用梅尔谱的形式。

17.一种用于获得歌声检测模型的装置，包括：

音频片段合成模块，用于将多个话音片段和多个器乐片段合成为多个音频片段；

话音检测模型训练模块，用于利用所述多个音频片段来训练话音检测模型；

迁移模块，用于将所述话音检测模型的至少一部分迁移到歌声检测模型；以及

歌声检测模型训练模块，用于利用一组多音音乐片段来训练所述歌声检测模型。

18.如权利要求17所述的装置，其中，所述话音检测模型是基于包括一个或多个卷积层的卷积神经网络(CNN)的，并且其中，所述迁移包括：将所述一个或多个卷积层中的至少一个卷积层迁移到所述歌声检测模型。

19.如权利要求17所述的装置，其中，所述歌声检测模型是基于卷积循环神经网络(CRNN)的，所述CRNN包括卷积神经网络(CNN)和循环神经网络(RNN)，并且其中，所述CNN包括从所述话音检测模型迁移来的至少一个卷积层。

20.一种用于获得歌声检测模型的装置，包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使所述至少一个处理器：

将多个话音片段和多个器乐片段合成为多个音频片段，

利用所述多个音频片段来训练话音检测模型，

将所述话音检测模型的至少一部分迁移到歌声检测模型，以及

利用一组多音音乐片段来训练所述歌声检测模型。