CN117558296A

CN117558296A - 目标音频识别模型的确定方法、装置及计算设备

Info

Publication number: CN117558296A
Application number: CN202410041950.2A
Authority: CN
Inventors: 许靳昌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-02-13
Anticipated expiration: 2044-01-11
Also published as: CN117558296B

Abstract

本申请公开了一种目标音频识别模型的确定方法和装置。在该方法中，首先获取初始音频识别模型。初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到，初始训练样本集包括多个训练样本，每个训练样本包括一个音频样本和对应的第一标签，一个音频样本对应的第一标签被设置为表明所述一个音频样本是目标类型的音频。然后，以初始音频识别模型为当前分类模型，对当前分类模型执行调整步骤组以确定目标音频识别模型。调整步骤组用于对当前分类模型进行调整。通过本申请的实施例，可以实现快速、准确且低成本地建立目标音频识别模型，进而用于目标类型的音频的识别。

Description

目标音频识别模型的确定方法、装置及计算设备

技术领域

本申请涉及计算机技术领域，特别涉及一种目标音频识别模型的确定方法和装置、计算设备、计算机可读存储介质及计算机程序产品。

背景技术

随着网络技术的普及和发展，短视频、直播等音视频应用开始越发流行，这导致每天都会产生海量的音频、视频等。在这些音频、视频中，可能存在部分违规音频、视频。为了净化网络环境，通常需要对音频和视频进行人工审核。由于音频、视频数量庞大且内容各异，因此针对音视频的审核通常耗时耗力。特别是针对包含违规音频的音频、视频，更是需要审核人员从头听到尾，才能进行准确的辨别，这进一步增大了审核难度。为此，本领域技术人员一直希望提出一种音频识别模型，能够快速、准确地自动识别出违规音频或者包含违规音频的视频，以实现对违规音频或违规视频的快速发现。

发明内容

鉴于此，本申请提供了一种目标音频识别模型的确定方法和装置、计算设备、计算机可读存储介质及计算机程序产品，期望缓解或克服上面提到的部分或全部缺陷以及其他可能的缺陷。

根据本申请的一个方面，提供了一种目标音频识别模型的确定方法，包括：获取初始音频识别模型，初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到，初始训练样本集包括多个训练样本，每个训练样本包括一个音频样本和对应的第一标签，一个音频样本对应的第一标签被设置为表明一个音频样本是目标类型的音频；以初始音频识别模型为当前分类模型，对当前分类模型执行调整步骤组以确定目标音频识别模型，用于识别目标类型的音频；其中，调整步骤组包括迭代执行获取步骤、确定步骤、训练步骤和验证步骤。获取步骤包括：获取多个测试音频样本，利用当前分类模型对测试音频样本进行分类以确定测试音频样本对应的分类结果，分类结果包括：是目标类型的音频或不是目标类型的音频。确定步骤包括：确定调整训练样本集，调整训练样本集包含多个调整样本，每个调整样本包含被当前分类模型分类为目标类型的音频的测试音频样本及测试音频样本对应的第二标签，第二标签表明测试音频样本实际上是否是目标类型的音频。训练步骤包括：以调整样本的测试音频样本作为输入，调整样本的第二标签作为预期分类结果，利用调整训练样本集对当前分类模型进行训练以确定中间音频识别模型。验证步骤包括：验证中间音频识别模型用于识别目标类型的音频的准确度，响应于准确度小于预定准确度阈值，将中间音频识别模型确定为当前分类模型并转到获取步骤；响应于准确度大于或等于预定准确度阈值，确定中间音频识别模型是目标音频识别模型。

根据本申请的另一方面，提供了一种目标音频识别模型的确定装置，目标音频识别模型的确定装置包括：获取模块，其被配置成获取初始音频识别模型，初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到，初始训练样本集包括多个训练样本，每个训练样本包括一个音频样本和对应的第一标签，一个音频样本对应的第一标签被设置为表明一个音频样本是目标类型的音频；调整模块，其被配置成以初始音频识别模型为当前分类模型，对当前分类模型执行调整步骤组以确定目标音频识别模型，用于识别目标类型的音频。调整步骤组包括迭代执行获取步骤、确定步骤、训练步骤和验证步骤。获取步骤包括：获取多个测试音频样本，利用当前分类模型对测试音频样本进行分类以确定测试音频样本对应的分类结果。分类结果包括：是目标类型的音频或不是目标类型的音频。确定步骤包括：确定调整训练样本集，调整训练样本集包含多个调整样本，每个调整样本包含被当前分类模型分类为目标类型的音频的测试音频样本及测试音频样本对应的第二标签，第二标签表明测试音频样本实际上是否是目标类型的音频；训练步骤包括：以调整样本的测试音频样本作为输入，调整样本的第二标签作为预期分类结果，利用调整训练样本集对当前分类模型进行训练以确定中间音频识别模型。验证步骤包括：验证中间音频识别模型用于识别目标类型的音频的准确度，响应于准确度小于预定准确度阈值，将中间音频识别模型确定为当前分类模型并转到获取步骤；响应于准确度大于或等于预定准确度阈值，确定中间音频识别模型是目标音频识别模型。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，初始训练样本集通过如下步骤得到：获取候选样本集，候选样本集包含多个音频样本；利用第一分类模型对候选样本集中的每个音频样本进行分类，第一分类模型将音频样本分为第一类音频样本和非第一类音频样本，第一类音频样本包括噪声音频样本或无声音频样本；利用第二分类模型对候选样本集中的每个音频样本进行分类，第二分类模型将音频样本分为第二类音频样本和非第二类音频样本，第二类音频样本包括讲话音频样本；利用第三分类模型对候选样本集中的每个音频样本进行分类，第三分类模型将音频样本分为第三类音频样本和非第三类音频样本，第三类音频样本包括音乐背景音样本；利用第四分类模型对候选样本集中的每个音频样本进行分类，第四分类模型将音频样本分为第四类音频样本和非第四类音频样本，第四类音频样本包括唱歌音频样本；以及，去除获取候选样本集中的第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本，将去除第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本后的候选样本集确定为初始训练样本集。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，获取初始音频识别模型包括：将训练样本的音频样本输入初始分类模型，得到初始分类模型对训练样本的音频样本的分类结果，分类结果包括：是目标类型的音频或不是目标类型的音频；将分类结果与训练样本的第一标签进行对比，得到训练样本的第一差异；基于训练样本集中每个训练样本的第一差异计算初始分类模型的第一损失；以及，调整初始分类模型的参数直到初始分类模型的第一损失最小化，将最小化的第一损失对应的初始分类模型确定为初始音频识别模型。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，在训练步骤中，利用调整训练样本集对当前分类模型进行训练以确定中间音频识别模型包括：将调整样本的音频样本输入当前分类模型，得到当前分类模型对调整样本的音频样本的分类结果，分类结果包括：调整样本的音频样本是目标类型的音频或调整样本的音频样本不是目标类型的音频；将分类结果与调整样本的第二标签进行对比，得到调整样本的第二差异；基于调整训练样本集中每个调整样本的第二差异计算当前分类模型的第二损失；以及，调整当前分类模型的参数直到当前分类模型的第二损失最小化，将最小化的第二损失对应的当前分类模型确定为中间音频识别模型。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，调整样本的第二标签通过第二标签确定步骤得到，第二标签确定步骤包括：以预定时长对调整样本的测试音频样本进行节选，得到测试音频样本对应的节选音频样本，预定时长小于测试音频样本的时长；响应于节选音频样本是目标类型的音频，将第二标签设置为表明测试音频样本实际上是目标类型的音频；以及，响应于节选音频样本不是目标类型的音频，将第二标签设置为表明测试音频样本实际上不是目标类型的音频。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，确定节选音频样本是否是目标类型的音频包括：确定节选音频样本中的任一音频帧是否是目标类型的音频；响应于节选音频样本中的任一音频帧是目标类型的音频，确定节选音频样本是目标类型的音频；以及，响应于节选音频样本中没有音频帧是目标类型的音频，确定节选音频样本不是目标类型的音频。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，将调整样本的音频样本输入当前分类模型，得到当前分类模型对调整样本的音频样本的分类结果包括：对调整样本的音频样本的部分音频帧进行遮挡操作，以便仅留下音频样本对应的节选样本的音频帧未被遮挡；以及，将经遮挡操作的调整样本的音频样本输入当前分类模型，使得当前分类模型根据输入的音频样本中未被遮挡的音频帧确定音频样本的分类结果。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，将分类结果与调整样本的第二标签进行对比，得到调整样本的第二差异包括：响应于分类结果是目标类型的音频且调整样本的第二标签表明测试音频样本实际上是目标类型的音频，确定调整样本的第二差异是0；响应于分类结果是目标类型的音频且调整样本的第二标签表明测试音频样本实际上不是目标类型的音频，确定调整样本的第二差异是1；响应于分类结果不是目标类型的音频且调整样本的第二标签表明测试音频样本实际上是目标类型的音频，确定调整样本的第二差异是1；以及，响应于分类结果不是目标类型的音频且调整样本的第二标签表明测试音频样本实际上不是目标类型的音频，确定调整样本的第二差异是0。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，基于调整训练样本集中每个调整样本的第二差异计算当前分类模型的第二损失包括：对调整训练样本集中所有调整样本的第二差异进行叠加，将叠加结果确定为当前分类模型的第二损失。

在根据本申请的一些实施例的目标音频识别模型的确定装置中，获取候选样本集包括：获选候选音频；以固定时长对候选音频进行节选，得到多个音频样本；以及，确定候选样本集，候选样本集包括经节选得到的多个音频样本。

根据本申请的另一方面，提供了一种目标音频识别方法，包括：获取待识别音频；将待识别音频输入如本文任一实施例中的目标音频识别模型，以得到目标音频识别模型对待识别音频的分类结果；以及，响应于待识别音频的分类结果是目标类型的音频，将待识别音频确定为目标类型的音频。

根据本申请的另一方面，提供了一种计算设备，包括：存储器，其被配置成存储计算机可执行指令；以及处理器，其被配置成当计算机可执行指令被处理器执行时执行根据本申请一些实施例的目标音频识别模型的确定方法的步骤。

根据本申请的另一方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，计算机可执行指令在被执行时实现根据本申请一些实施例的目标音频识别模型的确定方法的步骤。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本申请一些实施例的目标音频识别模型的确定方法的步骤。

在根据本申请一些实施例的目标音频识别模型的确定方法和装置中，首先利用初始训练样本集来得到初始音频识别模型。为了减少训练样本的标注时间，直接将训练样本对应的第一标签设置为表明训练样本的音频是目标音频。这使得可以快速得到初始音频模型。然后，对初始音频模型执行调整步骤组，以提升识别目标类型的音频的准确度。在调整步骤组中，通过建立调整训练样本集对初始音频模型进行进一步训练的方式来进行调整。调整训练样本集包含多个调整样本及对应的第二标签，第二标签用于指示调整样本实际上是否是目标类型的音频。由于调整训练集的样本数量通常小于甚至远小于初始训练样本集，因此即使需要人工标注也不会占用过多人力或时间资源。可见，通过本申请提出的方法，可以快速、准确且低成本地建立目标音频识别模型，进而用于目标类型的音频的识别。

根据下文描述的实施例，本申请的这些和其它优点将变得清楚，并且参考下文描述的实施例来阐明本申请的这些和其它优点。

附图说明

现在将更详细并且参考附图来描述本申请的实施例，其中：

图1示出了根据本申请的一些实施例的目标类型音频的识别方法的示意图；

图2示出了根据本申请的一些实施例的目标音频识别模型的确定方法的示例性应用场景；

图3示出了根据本申请的一些实施例的目标音频识别模型的确定方法的示例性流程图；

图4示出了根据本申请的一些实施例的获取初始音频识别模型的步骤的示例性流程图；

图5示出了根据本申请的一些实施例的目标音频识别模型的确定方法中确定初始训练样本集的示意图；

图6示出了根据本申请的一些实施例的目标音频识别模型的确定方法中确定中间音频识别模型的流程图；

图7示出了根据本申请的一些实施例的目标音频识别模型的确定方法中确定调整样本的示意图；

图8示出了根据本申请的一些实施例的目标音频识别模型的确定方法中确定第二标签的示意图；

图9示出了根据本申请的一些实施例的目标音频识别模型的确定方法的示意图；

图10A示出了根据本申请的一些实施例的目标音频识别模型的确定方法的示意图；

图10B示出了根据本申请的一些实施例的目标音频识别模型的确定方法的示意图；

图10C示出了根据本申请的一些实施例的目标音频识别模型的确定方法的示意图；

图11示出了根据本申请的一些实施例的目标音频识别模型的确定装置的示例性结构框图；

图12示出了根据本申请的一些实施例的目标音频识别装置的示例性结构框图；以及，

图13示出了一个示例系统，其包括代表可以实现本文描述的各种方法的一个或多个系统和/或设备的示例计算设备。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本申请将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组件、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的推广信息和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本申请概念的教示。如本文中所使用，术语“和/或”及类似术语包括相关联的列出项目中的任一个、多个和全部的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本申请所必须的，因此不能用于限制本申请的保护范围。

在详细介绍本申请的实施例之前，首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

分类器：分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型（即我们通常所说的分类器)。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个，从而可以应用于数据预测。分类器是数据挖掘中对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

深度学习（DL，Deep Learning）：深度学习是机器学习（ML，Machine Learning）领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能（AI，Artificial Intelligence）。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。

图1示出了根据本申请的一些实施例的目标类型音频的识别方法的示意图。如图1所示，为了实现快速识别目标类型的音频，可以构建一个音频识别模型。将待识别音频输入音频识别模型，音频识别模型即可输出其针对待识别音频的判断，即待识别音频是否是目标类型的音频。音频识别模型可以对机器学习模型进行训练来确定。在相关技术方案中，可以通过人工标注的方式来确定训练样本集，再以训练样本集对机器学习模型进行训练。具体来说，首先人工标注训练样本，即人工确定训练样本的音频是否是目标类型的音频并据此对音频进行标注。然后将经标注的音频样本作为训练集，对机器学习模型进行训练，得到音频识别模型。由于训练样本通常数量巨大且每个音频的时长不短，因此人工标注训练样本将花费大量的时间和精力。这使得音频识别模型的构建周期很长且花销巨大。

为此，本申请提出了一种目标音频识别模型的确定方法，用于建立目标音频识别模型，以克服相关技术方案中的这些问题。

图2示出了根据本申请的一些实施例的目标音频识别模型的确定方法的示例性应用场景200。应用场景200中可以包括服务器210、终端设备220、服务器230。服务器210、终端设备220和服务器230通过网络240通信耦合在一起。网络240例如可以是广域网（WAN）、局域网（LAN）、无线网络、公用电话网、内联网以及本领域的技术人员熟知的任何其它类型的网络。

作为示例，目标音频识别模型的确定方法可以主要在服务器210上运行。在服务器210上，首先获取初始训练样本集。初始训练样本集包括多个训练样本，每个训练样本包括一个音频样本和对应的第一标签，第一标签用于表示其对应的第一音频样本是否是目标类型的音频。然后，在服务器210上，以训练样本包括的音频样本作为输入，该音频样本对应的第一标签作为预期分类结果，利用初始训练样本集对初始深度学习模型进行训练以确定初始音频识别模型。鉴于第一标签的正确性并不能保证，因此初始音频识别模型的准确度可能存在较大浮动，为此将在后续步骤中对该模型进行调整。然后，在服务器210上，以初始音频识别模型为当前分类模型，对当前分类模型执行调整步骤组以确定目标音频识别模型，用于识别目标类型的音频。调整步骤组用于对当前分类模型进行调整。

作为示例，目标音频识别模型的确定方法也可以主要在终端设备220或服务器230上运行。应当指出，服务器210、终端设备220以及服务器230均可以包含能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。本领域普通技术人员所理解的，服务器210的实例可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器210可以通过终端设备220将待确定的数据分配策略呈现给开发人员，并与开发人员进行交互，实现可视化确定开发策略。

终端设备220可以是任何类型的移动计算设备，包括移动计算机（例如，个人数字助理（PDA）、膝上型计算机、笔记本计算机、平板计算机、上网本等）、移动电话（例如，蜂窝电话、智能手机等）、可穿戴式计算设备（例如智能手表、头戴式设备，包括智能眼镜等）或其他类型的移动设备。在一些实施例中，终端设备220也可以是固定式计算设备，例如台式计算机、游戏机、智能电视等。此外，应用场景200包括多个终端设备220的情况下，该多个终端设备220可以是相同或不同类型的计算设备。

如图2所示，终端设备220可以包括显示屏以及可以经由显示屏与终端用户交互的终端应用。终端应用可以为本地应用程序、网页（Web）应用程序或者作为轻量化应用的小程序（LiteApp，例如手机小程序、微信小程序）。在终端应用为需要安装的本地应用程序的情况下，可以将终端应用安装在终端设备220中。在终端应用为Web应用程序的情况下，可以通过浏览器访问终端应用。在终端应用为小程序的情况下，可以通过搜索终端应用的相关信息（如终端应用的名称等）、扫描终端应用的图形码（如条形码、二维码等）等方式来在用户终端220上直接打开终端应用，而无需安装终端应用。

在一些实施例中，上述的应用场景200可以是由服务器230构成的分布式系统，该分布式系统例如可以构成区块链系统。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成（账户管理）、密钥管理以及用户真实身份和区块链地址对应关系维护（权限管理）等，并且在授权的情况下，检查和审计某些真实身份的交易情况，提供风险控制的规则配置（风控审计）；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理（接口适配），然后通过共识算法将业务信息加密（共识管理），在加密之后完整一致的传输至共享账本上（网络通信），并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上（合约注册），根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

图3示出了根据本申请的一些实施例的目标音频识别模型的确定方法300的示例性流程图。如图3所示，方法300包括步骤S310、步骤S320、步骤S330、步骤S340、步骤S350、步骤S360和步骤S370。

在步骤S310，获取初始音频识别模型。初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到。初始训练样本集包括多个训练样本，每个训练样本包括一个音频样本和对应的第一标签，一个音频样本对应的第一标签被设置为表明一个音频样本是目标类型的音频。需要指出的是，此处虽然将训练样本的第一标签设置为表明音频样本是目标类型的音频，但该音频样本在实际上并不一定是目标类型的音频。此处将训练样本的第一标签设置为表明音频样本是目标类型的音频，虽然容易导致得到的初始音频模型的准确度有限，但会极大减小人工标注的时间，提升模型的建立速度。因为初始训练样本集的样本数量通常较大，例如包含超过一万个音频样本，如果每个音频样本都是一段超过一分钟的音频，那么在进行人工标注（即逐帧听取音频内容以确定是否是目标类型的音频）时，所花的时间成本累计将超过一万分钟，这在实际工程应用中将极大拖累模型建立的进度。在相关技术方案中，为了早点完成数量如此庞大的标注，不得不雇佣大量的人力，这又将进一步增加人力成本。而在本实施例中，创造性地将训练样本集中的所有音频样本对应的第一标签全部设置为表明音频样本是目标类型的音频，避免了繁重的人工标注任务，提升了模型的建立速度。作为示例，利用初始训练样本集对初始深度学习模型进行训练得到初始音频识别模型可以通过以下步骤。以训练样本包括的音频样本作为输入，该音频样本对应的第一标签作为预期分类结果，利用初始训练样本集对初始深度学习模型进行训练以确定初始音频识别模型。鉴于第一标签的正确性并不能保证，因此初始音频识别模型的准确度可能存在较大浮动，为此将在后续步骤中对该模型进行调整。

在步骤S320，以初始音频识别模型为当前分类模型，对当前分类模型执行调整步骤组以确定目标音频识别模型，用于识别目标类型的音频。调整步骤组用于对当前分类模型进行调整。调整步骤组包括获取步骤、确定步骤、训练步骤和验证步骤。通过迭代执行这些步骤，完成对调整步骤组的执行。

在步骤S330，执行获取步骤。在获取步骤中，获取多个测试音频样本，利用当前分类模型对测试音频样本进行分类以确定测试音频样本对应的分类结果。分类结果包括：测试音频样本是目标类型的音频或测试音频样本不是目标类型的音频。需要指出的是，分类结果是当前分类模型认为测试音频样本是否是目标类型的音频，而不是测试音频样本实际上是否是目标类型的音频样本。执行完获取步骤后，转到确定步骤。

在步骤S340，执行确定步骤。在确定步骤中，确定调整训练样本集。调整训练样本集包含多个调整样本，每个调整样本包含被当前分类模型分类为目标类型的音频的测试音频样本及测试音频样本对应的第二标签。第二标签表明测试音频样本实际上是否是目标类型的音频。由于被当前分类模型分类为目标类型的音频的测试音频样本的数量通常远小于测试音频样本的总数量，也远小于初始训练样本集中的训练样本的数量，因此确定第二标签时其工作量通常并不大。相对于相关技术方案中标识第一标签的工作量，此处标识第二标签的工作量显得非常小。作为示例，测试音频样本包含一万个音频样本，当前分类模型对这一万个音频样本的分类结果是其中一千个音频样本是目标类型的音频。则从该一千个音频样本中选取至少部分音频样本（例如从中随机选取500-1000个音频样本）作为调整样本。调整样本对应的第二标签，可以通过人工标注的方式获得。例如，通过人工标注的方法确定调整音频实际上是否是目标类型的音频。可以看出，即使需要进行人工标注，但由于调整训练样本集的数量通常已经远小于初始训练样本集，因此所花费的时间成本和人力成本都小非常多。作为示例，可以上线当前分类模型，再以测试样本对当前分类模型进行测试，得到对应的测试结果（即测试样本的音频是否被当前分类模型认为是目标类型的音频），并根据测试结果把被当前分类模型认为是目标类型的音频的测试样本进行召回。然后对召回的样本进行识别（例如可以通过人工识别或者其它方式识别），以确定它们实际上是否真的是目标类型的音频，并据此确定其对应的第二标签。在执行完确定步骤后，转到训练步骤。

在步骤S350，执行训练步骤。在训练步骤中，以调整样本的测试音频样本作为输入，调整样本的第二标签作为预期分类结果，利用调整训练样本集对当前分类模型进行训练以确定中间音频识别模型。由于第二标签指示的音频的类型是实际的音频类型（例如经过人工标注确定），因此通过训练步骤可以对当前分类模型进行进一步调整，使得当前分类模型能够更加贴合实际，准确度更高。

在步骤S360，执行验证步骤。在验证步骤中，验证中间音频识别模型用于识别目标类型的音频的准确度。响应于准确度小于预定准确度阈值，将中间音频识别模型确定为当前分类模型并转到步骤S330，对当前分类模型执行获取步骤。即如果准确度小于预定准确度阈值，则转到获取步骤以进行下一轮的循环操作，直到准确度大于或等于预定的准确度阈值。响应于准确度大于或等于预定准确度阈值，则转到步骤S370。

在步骤S370中，确定中间音频识别模型是目标音频识别模型，用于识别目标类型的音频。作为示例，目标音频识别模型可以用作如图1所示的音频识别模型，用于识别待识别音频是否是目标类型的音频。

可以看出，利用调整步骤组可以对初始音频识别模型进行进一步调整，直到得到目标音频识别模型。作为示例，可能在循环执行三次调整步骤组后，得到目标音频识别模型。本实施例中三次调整步骤组中的第二标签的人工标识的工作量远远小于相关技术方案中对第一标签进行人工标注的工作量。因此，在方法300中，首先利用初始训练样本集来得到初始音频识别模型。为了减少训练样本的标注时间，直接将训练样本对应的第一标签设置为表明训练样本的音频是目标音频。这使得可以快速得到初始音频模型，但代价是其精度受限。为此，对初始音频模型执行调整步骤组，以提升识别目标类型的音频的准确度。在调整步骤组中，通过建立调整训练样本集对初始音频模型进行进一步训练的方式来进行调整。调整训练样本集包含多个调整样本及对应的第二标签，第二标签用于指示调整样本实际上是否是目标类型的音频。由于调整训练集的样本数量通常小于甚至远小于初始训练样本集，因此即使需要人工标注也不会占用过多人力或时间资源。可见，通过方法300，可以快速、准确且低成本地建立目标音频识别模型，进而用于目标类型的音频的识别。

图4示出了根据一些实施例的获取初始音频模型的步骤，包括步骤S410、步骤S420、步骤S430和步骤S440。

在步骤S410，将训练样本的音频样本输入初始分类模型，得到初始分类模型对训练样本的音频样本的分类结果。分类结果包括：该音频样本是目标类型的音频或该音频样本不是目标类型的音频。需要指出的是初始分类模型对训练样本的音频样本的分类结果可能与现实相符也可能与现实不符。例如，非目标类型的音频有可能被模型分类为目标类型的音频。

在步骤S420，将分类结果与训练样本的第一标签进行对比，得到训练样本的第一差异。例如，分类结果表明该音频样本是目标类型的音频，但第一标签表明该音频样本不是目标类型的音频，则第一差异将指示它们不同。需要指出的是，第一标签也不指示该音频实际上是否是目标类型的音频。因为第一标签被认为设置为表明训练样本是目标类型的音频。

在步骤S430，基于训练样本集中每个训练样本的第一差异计算初始分类模型的第一损失。例如，可以将每个训练样本的第一差异进行累加，将累加结果确定为初始分类模型的第一损失。

在步骤S440，调整初始分类模型的参数直到初始分类模型的第一损失最小化，将最小化的第一损失对应的初始分类模型确定为初始音频识别模型。需要指出的是，利用初始训练样本集对初始分类模型进行训练并不限于上述步骤，也可以采用任何机器学习中常见的训练步骤。

在一些实施例中，初始训练样本集通过以下步骤确定。首先，获取候选样本集，候选样本集包含多个音频样本。然后，利用第一分类模型对候选样本集中的每个音频样本进行分类，第一分类模型将音频样本分为第一类音频样本和非第一类音频样本，第一类音频样本包括噪声音频样本或无声音频样本。然后，利用第二分类模型对候选样本集中的每个音频样本进行分类，第二分类模型将音频样本分为第二类音频样本和非第二类音频样本，第二类音频样本包括讲话音频样本。然后，利用第三分类模型对候选样本集中的每个音频样本进行分类，第三分类模型将音频样本分为第三类音频样本和非第三类音频样本，第三类音频样本包括音乐背景音样本。然后，利用第四分类模型对候选样本集中的每个音频样本进行分类，第四分类模型将音频样本分为第四类音频样本和非第四类音频样本，第四类音频样本包括唱歌音频样本。最后，去除获取候选样本集中的第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本，将去除第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本后的候选样本集确定为初始训练样本集。需要指出的是，由于第一类型、第二类型、第三类型和第四类型都是特点非常明显的音频（例如噪声音频样本或无声音频样本、音乐背景音样本等），因此第一分类模型、第二分类模型、第三分类模型和第四分类模型都较为容易获得。以及，对于这些分类模型的精度并没有特别的要求，因此常规的工具或模型即可胜任。通过对候选样本集中第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本的去除，可以使得训练样本集至少不包含与目标类型的音频非常不同的音频，从而提升初始音频识别模型的准确性。

作为示例，图5示出了根据本申请的一些实施例的确定初始训练样本集的示意图。如图5所示，首先获取可疑音频。可疑音频是指可能包含目标类型音频的音频，但通常并不清楚目标类型的音频出现在可疑音频的哪一帧。例如，当目标类型的音频是禁止类型的音频/违规类型的音频时，可疑音频可以至少具有一帧禁止类型的音频/违规类型的音频。然后，使用预定时长（例如15s长度的滑窗）对整个音频进行节选得到多个节选片段，再从中节选片段中选取音量最大的至少一个片段作为禁止类型的音频/违规类型的音频。通过这种方式，这样可以过滤掉大部分非禁止/违规类型的数据。例如，禁止/违规类型的音频通常包含不合规的声音，这种声音通常较为尖锐但又不易识别。通过上述步骤可以尽可能排除掉不是禁止/违规类型的音频。然后，对经过音量检测筛选的节选片段进行音频四分类预测。音频四分类主要是噪声、讲话声、音乐、唱歌。通过对节选片段所属类型进行预测，可以将置信度大于0.5的讲话声、音乐、唱歌这些数据进一步的过滤。作为示例，音频四分类预测可以利用如下步骤：（1）对10s全部预测成第一类型的音频，认定其属于噪声或无声；（2）对10s全部预测成第二类型的音频，认定其是讲话声；（3）对10s全部预测成第三类型的音频，认定其是音乐背景音；（4）对音乐背景音与人声的占比大于0.7的音频，将其预测为第四类型的音频，认定其是音乐背景声。然后将节选片段中的这四类音频全部去除，以实现进一步精简样本。

可选地，经过上述数据操作后，还可以对得到的样本（即节选片段）进一步操作以充分模拟现实中禁止/违规音频的形态。例如，将上述四类音频作为背景音与得到的样本进行叠加合成，最后将经叠加合成的音频作为训练数据。这是因为在禁止/违规场合（例如直播间中）中，大多数情况是主要在说话或播放背景音乐，偶尔夹杂几秒不合规的声音等禁止/违规声音。为了充分模拟这种数据，可以进行上述叠加合成操作。

因此，通过剔除候选样本集中明显不可能是目标类型的音频来获取初始训练样本集，可以使获得的训练数据更加干净（即包含的非目标类型的数据更少）。作为示例，获得的训练数据可以用于建立本文实施例中的初始训练样本集。

图6示出了根据本申请的一些实施例的目标音频识别模型的确定方法中确定中间音频识别模型的流程图。如图6所示，确定中间音频识别模型的过程可以包括步骤S610、步骤S620、步骤S630和步骤S640。作为示例，这些步骤可以实施于图3所示出的实施例中的训练步骤中。

在步骤S610，将调整样本的音频样本输入当前分类模型，得到当前分类模型对调整样本的音频样本的分类结果。分类结果包括：调整样本的音频样本是目标类型的音频或调整样本的音频样本不是目标类型的音频。需要指出的是，分类结果表明当前分类模型认为调整样本的音频样本是否是目标类型的音频。因此分类结果与音频的实际类型可能并不一致。例如，当目标类型是禁止/违规音频时。当前分类模型可能将非禁止音频分类为禁止音频。

在步骤S620，将分类结果与调整样本的第二标签进行对比，得到调整样本的第二差异。由于第二标签表明了调整样本的音频样本实际上是否是目标类型的音频，因此第二差异可以评估分类结果的正确性。

在步骤S630，基于调整训练样本集中每个调整样本的第二差异计算当前分类模型的第二损失。作为示例，可以对调整训练样本集中每个调整样本的第二差异进行累加，将累加结果确定为第二损失。可以看出，第二损失可以较为综合地表征当前分类模型的准确性。

在步骤S640，调整所述当前分类模型的参数直到当前分类模型的第二损失最小化，将最小化的第二损失对应的当前分类模型确定为中间音频识别模型。例如，可以以第二损失为监督函数，对训练过程进行训练，直到监督函数的值最小。

在一些实施例中，调整样本的第二标签通过第二标签确定步骤得到，第二标签确定步骤包括以下步骤。首先，以预定时长对调整样本的测试音频样本进行节选，得到测试音频样本对应的节选音频样本。此处的预定时长小于所述测试音频样本的时长。例如，测试音频样本的时长是5分钟，预定时长是15秒，则可以得到许多15秒时长的节选音频样本。然后，响应于节选音频样本是目标类型的音频，将第二标签设置为表明测试音频样本实际上是目标类型的音频。响应于节选音频样本不是目标类型的音频，将第二标签设置为表明测试音频样本实际上不是目标类型的音频。例如，目标类型的音频指禁止/违规音频（例如具有不合规的声音），响应于节选音频样本是禁止/违规音频，将第二标签设置为表明测试音频样本实际上是禁止/违规音频。响应于节选音频样本不是禁止/违规音频，将第二标签设置为表明测试音频样本实际上不是禁止/违规音频。

在一些实施例中，确定节选音频样本是否是目标类型的音频包括：确定节选音频样本中的任一音频帧是否是目标类型的音频；响应于节选音频样本中的任一音频帧是目标类型的音频，确定节选音频样本是目标类型的音频；响应于节选音频样本中没有音频帧是目标类型的音频，确定节选音频样本不是目标类型的音频。例如，目标类型的音频指禁止/违规音频（例如具有不合规的声音），确定节选音频样本中的任一音频帧是否是禁止/违规音频（例如是否包含不合规的声音）。响应于节选音频样本中的任一音频帧包含不合规的声音，确定节选音频样本是禁止/违规音频；响应于节选音频样本中不包含不合规的声音，确定节选音频样本不是禁止/违规音频。

在一些实施例中，将调整样本的音频样本输入当前分类模型，得到当前分类模型对调整样本的音频样本的分类结果包括以下步骤。首先，对调整样本的音频样本的部分音频帧进行遮挡操作，以便仅留下音频样本对应的节选样本的音频帧未被遮挡。然后，将经遮挡操作的调整样本的音频样本输入当前分类模型，使得当前分类模型根据输入的音频样本中未被遮挡的音频帧确定音频样本的分类结果。例如，调整样本的音频样本的长度均是10秒，每个音频样本被节选的长度均是3秒。对调整样本的音频样本的7秒音频帧进行遮挡操作，以便仅留下那3秒节选样本在音频样本中对应的音频帧。然后，将经遮挡操作的调整样本的音频样本输入当前分类模型，使得当前分类模型根据输入的音频样本中未被遮挡的音频帧（即那3秒节选样本对应的音频帧）确定音频样本的分类结果。

图7示出了根据本申请的一些实施例的目标音频识别模型的确定方法中确定调整样本的示意图。如图7所示，首先获取召回的音频。召回的音频是指将利用当前分类模型从测试音频样本中召回的音频样本，召回的都是被当前分类模型分类为目标类型的音频的测试音频样本。然后，下载命中的音频片段。命中的音频片段指召回的音频中被当前分类模型认为是目标类型音频的音频片段，例如，音频可能具有5分钟的长度，其中被命中的片段是10秒。将各个被命中的10秒片段下载。然后，针对每个下载下来的音频片段，随机节选连续的3秒进行人工标注，将标注结果作为该音频片段的第二标签。如图8所示，如果节选的3秒中存在一秒是目标类型的音频，则认为该10秒的音频片段是目标类型的音频。例如3秒中的任何一秒有不合规的声音，则认为该10秒的音频片段是禁止/违规音频。最后将音频片段和其对应的第二标签作为调整样本。因此，通过本实施例示出的确定调整样本的方法，虽然依然可能用到人工标注，但因为命中的音频片段的数量较初始训练样本集中的样本数量已经少了非常多，因此可以减少大量的标注成本。以及，为了进一步减少标注的时间和人力成本，也未对命中的音频片段全部人工标注，而是对其中的3秒片段进行标注，实现了进一步减少工作量、提升效率。

在一些实施例中，将分类结果与调整样本的第二标签进行对比，得到调整样本的第二差异包括：响应于分类结果是目标类型的音频且调整样本的第二标签表明测试音频样本实际上是目标类型的音频，确定调整样本的第二差异是0；响应于所述分类结果是目标类型的音频且所述调整样本的第二标签表明所述测试音频样本实际上不是目标类型的音频，确定调整样本的第二差异是1；响应于所述分类结果不是目标类型的音频且调整样本的第二标签表明所述测试音频样本实际上是目标类型的音频，确定调整样本的第二差异是1；以及，响应于分类结果不是目标类型的音频且调整样本的第二标签表明测试音频样本实际上不是目标类型的音频，确定调整样本的第二差异是0。

在一些实施例中，分类结果也可能是两种分类对应的置信度。例如，当前分类模型根据音频样本确定该音频样本是目标类型的音频的置信度是0.8，该音频样本不是目标类型的音频的置信度是0.2。此时，将分类结果与调整样本的第二标签进行对比，得到调整样本的第二差异包括根据分类结果中包含的类别及对应的置信度确定第二差异。需要指出的是，确定第二差异并不限于以上实施例所示出的方法，可以利用模型训练中常见的计算差异的方法进行。

作为示例，基于调整训练样本集中每个调整样本的第二差异计算当前分类模型的第二损失包括：对调整训练样本集中调整样本的第二差异进行叠加，将叠加结果确定为当前分类模型的第二损失。需要指出的是，确定第二损失并不限于本实施例所示出的方法，可以利用模型训练中常见的计算损失的方法进行，例如利用其他常见的损失函数进行。

在一些实施例中，取候选样本集包括：获选候选音频，候选音频可以是有可能是目标类型音频的音频，其时长并不受限；以固定时长对候选音频进行节选得到多个音频样本，例如候选音频是时长超过5分钟的音频，以10秒的固定时长对它进行节选；以及，确定候选样本集，候选样本集包括经节选得到的多个音频样本，例如可以通过上述方法获得多个10秒时长的音频样本。

本申请还公开了一种目标音频识别方法，该方法包括：获取待识别音频；将待识别音频输入根据前述任一实施例中的目标音频识别模型，然后得到目标音频识别模型对待识别音频的分类结果；响应于待识别音频的分类结果是目标类型的音频，将待识别音频确定为目标类型的音频。作为示例，目标音频识别模型可以作为图1中的音频识别模型进行使用，用于识别目标类型的音频。

图9示出了根据本申请的一些实施例的目标音频识别模型的确定方法的示意图。作为示例，图9所示出的实施例可以用于禁止视频/音频的发现和召回，此时可以将目标类型的音频设置为“包含不合规的声音”的音频。

如图9所示，首先进行初始训练集的合成。初始训练集包括多个初始训练样本，每个初始训练样本包括音频样本。这些音频样本可以通过离线的方式得到。例如，利用图5的实施例中确定初始训练样本集的方式确定这些音频样本，并将这些音频样本对应的第一标签设置为表明对应的音频样本是目标类型的音频样本（例如是禁止音频）。然后，利用带第一标签的初始训练集对初始深度学习模型进行训练，得到初始音频识别模型。然后，将得到的初始音频模型进行上线，用于对在线产生/传输过来的音频进行分类，从而识别目标类型的音频并进行召回。例如，当本实施例用于直播间中禁止音频的识别时，则将初始音频识别模型上线，用于召回可能包含不合规的声音的音频，即召回初始音频识别模型认为是目标类型的音频。然后，对召回的音频进行节选和标注，以确定各音频片段及其第二标签。例如，召回了一千个音频，且每个音频的时长都超过5分钟。对每个音频节选其被命中的十秒（即初始音频模型依据这十秒认为该音频是目标类型音频）作为测试音频样本，然后以3秒时长对每个测试音频样本进行节选得到节选样本，使得每个音频样本对应一个节选样本。对这些3秒时长的节选样本进行人工标注，确定其中每一帧是否是目标类型的音频（例如任何一秒包含不合规的声音则认为这三秒都是禁止音频）。将人工标注的结果作为测试音频样本的第二标签。最后，利用测试音频样本及其第二标签对初始音频模型进行训练，以完成对初始音频模型的调整。需要指出的是，图9中的“模型上线——召回模型认为的目标类型音频——确定第二标签——利用第二标签调整模型——模型上线”步骤可以循环执行多次，直到经调整的模型的准确度大于或等于准确度阈值。例如，在利用本方法建立用于识别禁止音频/视频的模型时，将利用第一标签建立的模型上线后，即可利用模型对直播间产生的音频进行在线识别，并将模型认为的包含不合规的声音的音频进行召回。然后对召回的音频进行人工标注。例如，每天召回的包含不合规的声音的音频数量大概300多条，这300多条中真实不合规的声音占比30%左右。即仍存在70%的误召回。其中一些误召回是因为不合规的声音的机器识别较为困难，需要多次修正并迭代。例如，疑似禁止的ASMR（autonomoussensory meridian response，自发性知觉经络反应）的声音，如水流声、哗啦啦声、敲击声、吮吸声等被识别为不合规的声音。多种音频内容夹杂主要是训练数据3s标注使用15s片段的会携带一些没有不合规的声音的噪声，比如说话、环境音这些，这就导致线上会有些秒级别的结果会被误识别成不合规的声音。此时通过对召回的音频样本进行人工标注，确定第二标签。由于召回的样本不多，即使进行人工标注也不会花费较多时间和人力成本，因此有利于快速、高效地建立满足需求的模型。例如，初始训练集可能需要上万个样本，但调整训练集通常几百个样本即可，利用本实施例可以让人工标注的成本降低9成以上。以及，可以看出，本方法中的目标类型可以是非常复杂的类型，或者说较难简单概括的类型。例如，本实施例的目标类型是禁止视频，为此通过分析它的每一帧是否有不合规的声音来识别。这些特征都很难通过常见的简单分类模型（例如前文中的第一分类模型、第二分类模型、第三分类模型和第四分类模型）学习和识别。而如果要建立较为复杂的分类模型，则通常会对初始训练集进行彻底的人工标注，这将耗时耗力。因此，本申请为复杂的目标类型视频提供了一种快速、高效和准确的建模方式。

在实际应用中利用本实施例去识别直播间的不合规的视频时，非禁止音频（即不包含不合规的声音）的音频识别准确率达到了99%，禁止音频（即包含不合规的声音的音频）的识别准确率达到了95%。以及，模型训练的离线指标如下：mAP是 0.99，F1-score是0.982。在业务场景测试集上，采用片段识别（即上述实施例中的识别音频样本的节选片段）的方式相比整条语音识别（即上述实施例中的识别整个音频样本）的方式，在识别性能方面得到了进一步提升。片段识别如图10A-10C所示。如图10A所示，输入一个十秒的音频样本，可以节选其中3秒音频样本作为节选样本，其他7秒样本将被进行遮挡。待调整的模型将根据这3秒的节选样本确定这三秒中的每一秒是否是目标类型的音频，并将结果进行输出。即遮挡后仅使待调整的模型针对节选音频进行操作，其等效图如图10B所示。图10C示出了经调整的模型上线后用于识别样本时的场景。经调整的模型针对输入样本中的每一秒，都会相应地生成一个识别结果。例如，图中认为第二秒和第10秒的音频是目标类型的音频。响应于任一秒的识别结果是目标类型的音频，则认为该音频是目标类型的音频。例如，当用于识别禁止音频时，如果10秒的视频中有任一秒包含不合规的声音，则认为该音频是禁止音频。通过这种方式，可以使得对目标类型的音频更加细致和准确的识别，因为针对每一秒都进行了识别和分析，比相关技术方案中针对整体进行笼统分析更加准确和细致。作为示例，在对模型进行调整时，可以利用常见的训练方法进行。以及，相应的损失函数可以使用softmax 函数。

图11示出了根据本申请的一些实施例的目标音频识别模型的确定装置1100的示例性结构框图。如图11所示，目标音频识别模型的确定装置1100包括获取模块1110和调整模块1120。

获取模块1110被配置成获取初始音频识别模型，初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到，初始训练样本集包括多个训练样本，每个训练样本包括一个音频样本和对应的第一标签，一个音频样本对应的第一标签被设置为表明一个音频样本是目标类型的音频。此处，音频样本对应的第一标签被设置为表明一个音频样本是目标类型的音频。需要指出的是，此处虽然将训练样本的第一标签设置为表明音频样本是目标类型的音频，但该音频样本在实际上并不一定是目标类型的音频。此处将训练样本的第一标签设置为表明音频样本是目标类型的音频，虽然容易导致得到的初始音频模型的准确度有限，但会极大减小人工标注的时间，提升模型的建立速度。因为初始训练样本集的样本数量通常较大，例如包含超过一万个音频样本，如果每个音频样本都是一段超过一分钟的音频，那么在进行人工标注（即逐帧听取音频内容以确定是否是目标类型的音频）时，所花的时间成本累计将超过一万分钟，这在实际工程应用中将极大拖累模型建立的进度。在相关技术方案中，为了早点完成数量如此庞大的标注，不得不雇佣大量的人力，这又将进一步增加人力成本。而在本实施例中，创造性地将训练样本集中的所有音频样本对应的第一标签全部设置为表明音频样本是目标类型的音频，避免了繁重的人工标注任务，提升了模型的建立速度。鉴于第一标签的正确性并不能保证，因此初始音频识别模型的准确度可能存在较大浮动，为此将在后续步骤中对该模型进行调整。

调整模块1120被配置成以初始音频识别模型为当前分类模型，对当前分类模型执行调整步骤组以确定目标音频识别模型。调整步骤组用于对当前分类模型进行调整。作为示例，调整步骤组包括：获取步骤、确定步骤、训练步骤和验证步骤。首先执行获取步骤。在获取步骤中，获取多个测试音频样本，利用当前分类模型对测试音频样本进行分类以确定测试音频样本对应的分类结果。分类结果包括：测试音频样本是目标类型的音频或测试音频样本不是目标类型的音频。需要指出的是，分类结果是当前分类模型认为测试音频样本是否是目标类型的音频，而不是测试音频样本实际上是否是目标类型的音频样本。执行完获取步骤后，转到确定步骤。在确定步骤中，确定调整训练样本集。调整训练样本集包含多个调整样本，每个调整样本包含被当前分类模型分类为目标类型的音频的测试音频样本及测试音频样本对应的第二标签。第二标签表明测试音频样本实际上是否是目标类型的音频。作为示例，测试音频样本包含一万个音频样本，当前分类模型对这一万个音频样本的分类结果是其中一千个音频样本是目标类型的音频。则从该一千个音频样本中选取至少部分音频样本（例如从中随机选取500-1000个音频样本）作为调整样本。调整样本对应的第二标签，可以通过人工标注的方式获得。例如，通过人工标注的方法确定调整音频实际上是否是目标类型的音频。可以看出，即使需要进行人工标注，但由于调整训练样本集的数量通常已经远小于初始训练样本集，因此所花费的时间成本和人力成本都小非常多。执行完确定步骤后，转到训练步骤。在训练步骤中，以调整样本的测试音频样本作为输入，调整样本的第二标签作为预期分类结果，利用调整训练样本集对当前分类模型进行训练以确定中间音频识别模型。由于第二标签指示的音频的类型是实际的音频类型（例如经过人工标注确定），因此通过训练步骤可以对当前分类模型进行进一步调整，使得当前分类模型能够更加贴合实际，准确度更高。在验证步骤中，验证中间音频识别模型用于识别目标类型的音频的准确度。响应于准确度小于预定准确度阈值，将中间音频识别模型确定为当前分类模型并转到获取步骤。即如果准确度小于预定准确度阈值，则转到获取步骤以进行下一轮的循环操作，直到准确度大于或等于预定的准确度阈值。响应于准确度大于或等于预定准确度阈值，确定中间音频识别模型是目标音频识别模型。可以看出，利用调整步骤组可以对初始音频识别模型进行进一步调整，直到得到目标音频识别模型。

可见，目标音频识别模型的确定装置1100首先利用初始训练样本集来得到初始音频识别模型。为了减少训练样本的标注时间，直接将训练样本对应的第一标签设置为表明训练样本的音频是目标音频。这使得可以快速得到初始音频模型，但代价是其精度受限。为此，目标音频识别模型的确定装置1100对初始音频模型执行调整步骤组，以提升识别目标类型的音频的准确度。在调整步骤组中，通过建立调整训练样本集对初始音频模型进行进一步训练的方式来进行调整。调整训练样本集包含多个调整样本及对应的第二标签，第二标签用于指示调整样本实际上是否是目标类型的音频。由于调整训练集的样本数量通常小于甚至远小于初始训练样本集，因此即使需要人工标注也不会占用过多人力或时间资源。可见，利用目标音频识别模型的确定装置1100，可以快速、准确且低成本地建立目标音频识别模型，进而用于目标类型的音频的识别。

图12示出了根据本申请的一些实施例的目标音频识别装置1200的示例性结构框图。如图12所示，目标音频识别装置1200包括音频获取模块1210、输入模块1220和确定模块1230。音频获取模块1210被配置成获取待识别音频。输入模块1220被配置成将待识别音频输入根据前述任一实施例中的目标音频识别模型，然后得到目标音频识别模型对待识别音频的分类结果。确定模块1230被配置成响应于待识别音频的分类结果是目标类型的音频，将待识别音频确定为目标类型的音频。作为示例，目标音频识别模型可以作为图1中的音频识别模型进行使用，用于识别目标类型的音频。

图13图示了示例系统1300，其包括代表可以实现本文描述的各种方法的一个或多个系统和/或设备的示例计算设备1310。计算设备1310可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图11描述的目标音频识别模型的确定装置1100和参照图12描述的目标音频识别装置1200可以采取计算设备1310的形式。替换地，目标音频识别模型的确定装置1100和参照图12描述的目标音频识别装置1200可以以应用1316的形式被实现为计算机程序。

如图示的示例计算设备1310包括彼此通信耦合的处理系统1311、一个或多个计算机可读介质1312以及一个或多个I/O接口1313。尽管未示出，但是计算设备1310还可以包括系统总线或其他数据和命令传送系统，其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合，总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理系统1311代表使用硬件执行一个或多个操作的功能。因此，处理系统1311被图示为包括可被配置成处理器、功能块等的硬件元件1314。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件1314不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质1312被图示为包括存储器/存储装置1316。存储器/存储装置1316表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置1316可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置1316可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质1312可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O接口1313代表允许用户使用各种输入设备向计算设备1310输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置成检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备1310可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备1310还包括应用1316。应用1316可以例如是用于目标音频识别模型的确定装置1100或目标音频识别装置1200的软件实例，并且与计算设备1310中的其他元件相组合地实现本文描述的技术。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算设备执行上述各种可选实现方式中提供的目标音频识别模型的确定方法。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。以及，本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备1310访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置成诸如经由网络将指令发送到计算设备1310的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号，该信号的特征中的一个或多个被设置或改变，从而将信息编码到该信号中。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前，硬件元件1314和计算机可读介质1312代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1314体现的一个或多个指令和/或逻辑。计算设备1310可以被配置成实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件1314，可以至少部分地以硬件来实现将模块实现为可由计算设备1310作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备1310和/或处理系统1311）可执行/可操作以实现本文所述的技术、模块和示例。

在各种实施方式中，计算设备1310可以采用各种不同的配置。例如，计算设备1310可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备1310还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备1310还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备1310的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台1322而在“云”1320上全部或部分地实现。

云1320包括和/或代表用于资源1324的平台1322。平台1322抽象云1320的硬件（例如，服务器）和软件资源的底层功能。资源1324可以包括在远离计算设备1310的服务器上执行计算机处理时可以使用的应用和/或数据。资源1324还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台1322可以抽象资源和功能以将计算设备1310与其他计算设备连接。平台1322还可以用于抽象资源的分级以提供遇到的对于经由平台1322实现的资源1324的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统1300内。例如，功能可以部分地在计算设备1310上以及通过抽象云1320的功能的平台1322来实现。

应当理解，为清楚起见，参考不同的功能单元对本申请的实施例进行了描述。然而，将明显的是，在不偏离本申请的情况下，每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如，被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此，对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考，而不是表明严格的逻辑或物理结构或组织。因此，本申请可以被实施在单个单元中，或者可以在物理上和功能上被分布在不同的单元和电路之间。

尽管已经结合一些实施例描述了本申请，但是其不旨在被限于在本文中所阐述的特定形式。相反，本申请的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供，不应该被解释为以任何方式限制权利要求的范围。

可以理解的是，在本申请的具体实施方式中，涉及到软件的测试用例等相关的数据。当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

Claims

1.一种目标音频识别模型的确定方法，其特征在于，包括：

获取初始音频识别模型，所述初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到，所述初始训练样本集包括多个训练样本，每个训练样本包括一个音频样本和对应的第一标签，所述一个音频样本对应的第一标签被设置为表明所述一个音频样本是目标类型的音频；

以所述初始音频识别模型为当前分类模型，对所述当前分类模型执行调整步骤组以确定目标音频识别模型，所述目标音频识别模型用于识别目标类型的音频；

其中，所述调整步骤组包括迭代执行如下步骤：

获取步骤：获取多个测试音频样本，利用当前分类模型对所述测试音频样本进行分类以确定所述测试音频样本对应的分类结果，所述分类结果包括：是目标类型的音频或不是目标类型的音频；

确定步骤：确定调整训练样本集，所述调整训练样本集包含多个调整样本，每个调整样本包含被所述当前分类模型分类为目标类型的音频的测试音频样本及所述测试音频样本对应的第二标签，所述第二标签表明所述测试音频样本实际上是否是目标类型的音频；

训练步骤：以调整样本的测试音频样本作为输入，调整样本的第二标签作为预期分类结果，利用所述调整训练样本集对所述当前分类模型进行训练以确定中间音频识别模型；

验证步骤：验证所述中间音频识别模型用于识别目标类型的音频的准确度，响应于所述准确度小于预定准确度阈值，将所述中间音频识别模型确定为当前分类模型并转到所述获取步骤；响应于所述准确度大于或等于预定准确度阈值，确定所述中间音频识别模型是目标音频识别模型。

2.根据权利要求1所述的方法，其特征在于，所述初始训练样本集通过如下步骤得到：

获取候选样本集，所述候选样本集包含多个音频样本；

利用第一分类模型对所述候选样本集中的每个音频样本进行分类，所述第一分类模型将音频样本分为第一类音频样本和非第一类音频样本，所述第一类音频样本包括噪声音频样本或无声音频样本；

利用第二分类模型对所述候选样本集中的每个音频样本进行分类，所述第二分类模型将音频样本分为第二类音频样本和非第二类音频样本，所述第二类音频样本包括讲话音频样本；

利用第三分类模型对所述候选样本集中的每个音频样本进行分类，所述第三分类模型将音频样本分为第三类音频样本和非第三类音频样本，所述第三类音频样本包括音乐背景音样本；

利用第四分类模型对所述候选样本集中的每个音频样本进行分类，所述第四分类模型将音频样本分为第四类音频样本和非第四类音频样本，所述第四类音频样本包括唱歌音频样本；以及，

去除所述获取候选样本集中的第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本，将去除第一类音频样本、第二类音频样本、第三类音频样本和第四类音频样本后的候选样本集确定为初始训练样本集。

3.根据权利要求1所述的方法，其特征在于，所述获取初始音频识别模型包括：

将所述训练样本的音频样本输入初始分类模型，得到所述初始分类模型对所述训练样本的音频样本的分类结果，所述分类结果包括：是目标类型的音频或不是目标类型的音频；

将所述分类结果与所述训练样本的第一标签进行对比，得到所述训练样本的第一差异；

基于所述训练样本集中每个训练样本的第一差异计算所述初始分类模型的第一损失；以及，

调整所述初始分类模型的参数直到所述初始分类模型的第一损失最小化，将最小化的第一损失对应的初始分类模型确定为初始音频识别模型。

4.根据权利要求1所述的方法，其特征在于，在所述训练步骤中，利用所述调整训练样本集对所述当前分类模型进行训练以确定中间音频识别模型包括：

将所述调整样本的音频样本输入所述当前分类模型，得到所述当前分类模型对所述调整样本的音频样本的分类结果，所述分类结果包括：所述调整样本的音频样本是目标类型的音频或所述调整样本的音频样本不是目标类型的音频；

将所述分类结果与所述调整样本的第二标签进行对比，得到所述调整样本的第二差异；

基于所述调整训练样本集中每个调整样本的第二差异计算所述当前分类模型的第二损失；以及，

调整所述当前分类模型的参数直到所述当前分类模型的第二损失最小化，将最小化的第二损失对应的当前分类模型确定为中间音频识别模型。

5.根据权利要求4所述的方法，其特征在于，所述调整样本的第二标签通过第二标签确定步骤得到，所述第二标签确定步骤包括：

以预定时长对所述调整样本的测试音频样本进行节选，得到所述测试音频样本对应的节选音频样本，所述预定时长小于所述测试音频样本的时长；

响应于所述节选音频样本是目标类型的音频，将所述第二标签设置为表明所述测试音频样本实际上是目标类型的音频；以及，

响应于所述节选音频样本不是目标类型的音频，将所述第二标签设置为表明所述测试音频样本实际上不是目标类型的音频。

6.根据权利要求5所述的方法，其特征在于，所述确定所述节选音频样本是否是目标类型的音频包括：

确定所述节选音频样本中的任一音频帧是否是目标类型的音频；

响应于所述节选音频样本中的任一音频帧是目标类型的音频，确定所述节选音频样本是目标类型的音频；以及，

响应于所述节选音频样本中没有音频帧是目标类型的音频，确定所述节选音频样本不是目标类型的音频。

7.根据权利要求5所述的方法，其特征在于，所述将所述调整样本的音频样本输入所述当前分类模型，得到所述当前分类模型对所述调整样本的音频样本的分类结果包括：

对所述调整样本的音频样本的部分音频帧进行遮挡操作，以便仅留下所述音频样本对应的节选样本的音频帧未被遮挡；以及，

将经遮挡操作的调整样本的音频样本输入所述当前分类模型，使得所述当前分类模型根据输入的音频样本中未被遮挡的音频帧确定所述音频样本的分类结果。

8.根据权利要求5所述的方法，其特征在于，所述将所述分类结果与所述调整样本的第二标签进行对比，得到所述调整样本的第二差异包括：

响应于所述分类结果是目标类型的音频且所述调整样本的第二标签表明所述测试音频样本实际上是目标类型的音频，确定所述调整样本的第二差异是0；

响应于所述分类结果是目标类型的音频且所述调整样本的第二标签表明所述测试音频样本实际上不是目标类型的音频，确定所述调整样本的第二差异是1；

响应于所述分类结果不是目标类型的音频且所述调整样本的第二标签表明所述测试音频样本实际上是目标类型的音频，确定所述调整样本的第二差异是1；以及，

响应于所述分类结果不是目标类型的音频且所述调整样本的第二标签表明所述测试音频样本实际上不是目标类型的音频，确定所述调整样本的第二差异是0。

9.根据权利要求8所述的方法，其特征在于，所述基于所述调整训练样本集中每个调整样本的第二差异计算所述当前分类模型的第二损失包括：对所述调整训练样本集中所有调整样本的第二差异进行叠加，将叠加结果确定为所述当前分类模型的第二损失。

10.根据权利要求2所述的方法，其特征在于，所述获取候选样本集包括：

获选候选音频；

以固定时长对所述候选音频进行节选，得到多个音频样本；以及，

确定候选样本集，所述候选样本集包括经节选得到的多个音频样本。

11.一种目标音频识别方法，其特征在于，包括：

获取待识别音频；

将待识别音频输入根据权利要求1-10中任一项所述的目标音频识别模型的确定方法所确定的目标音频识别模型，以得到所述目标音频识别模型对所述待识别音频的分类结果；以及，

响应于所述待识别音频的分类结果是目标类型的音频，将所述待识别音频确定为目标类型的音频。

12.一种目标音频识别模型的确定装置，其特征在于，所述目标音频识别模型的确定装置包括：

获取模块，其被配置成获取初始音频识别模型，所述初始音频识别模型利用初始训练样本集对初始深度学习模型进行训练得到，所述初始训练样本集包括多个训练样本，每个训练样本包括一个音频样本和对应的第一标签，所述一个音频样本对应的第一标签被设置为表明所述一个音频样本是目标类型的音频；

调整模块，其被配置成以所述初始音频识别模型为当前分类模型，对所述当前分类模型执行调整步骤组以确定目标音频识别模型，所述目标音频识别模型用于识别目标类型的音频；

其中，所述调整步骤组包括迭代执行如下步骤：

13.一种目标音频识别装置，其特征在于，所述目标音频识别装置包括：

音频获取模块，其被配置成获取待识别音频；

输入模块，其被配置成将待识别音频输入根据权利要求12确定的目标音频识别模型，以得到所述目标音频识别模型对所述待识别音频的分类结果；以及，

确定模块，其被配置成响应于所述待识别音频的分类结果是目标类型的音频，将所述待识别音频确定为目标类型的音频。

14.一种计算设备，包括：

存储器，其被配置成存储计算机可执行指令；以及

处理器，其被配置成当所述计算机可执行指令被所述处理器执行时执行根据权利要求1-11中任一项所述的方法。

15.一种计算机可读存储介质，其存储有计算机可执行指令，所述计算机可执行指令在被执行时实现根据权利要求1-11中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至11中任一项所述的方法的步骤。