CN114093392A

CN114093392A - 音频标注方法、装置、设备及存储介质

Info

Publication number: CN114093392A
Application number: CN202111302698.9A
Authority: CN
Inventors: 刘巍; 王新宇; 刘露平; 车婷婷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-25

Abstract

本公开提供了一种音频标注方法、装置、电子设备、存储介质及计算机程序产品，涉及人工智能技术领域，尤其涉及深度学习、云计算、语音技术、NLP等领域，可应用于音频自动标注等场景。具体实现方案为：通过端点检测模型，标记目标音频片段的起始点时间戳和结束点时间戳；获取目标音频片段中，位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容；以及将音频内容、起始点时间戳、以及结束点时间戳，作为与目标音频片段关联的音频标注数据。

Description

音频标注方法、装置、设备及存储介质

技术领域

涉及人工智能技术领域，尤其涉及深度学习、云计算、语音技术、NLP等领域，可应用于音频自动标注等场景。

背景技术

目前，智能终端普遍具有语音交互功能。为了保障智能终端在不同场景下具有较好的语音交互效果，针对每个语音交互功能，通常都需要进行多场景下的语音交互测试。而想要轻松应对众多语音交互功能在多场景下的语音交互测试任务，则需要实现高效的音频数据标注来支撑。

发明内容

本公开提供了一种能够提高音频标注效率且同时能够降低人工成本的音频标注方法、装置、设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种音频标注方法，包括：通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳；获取目标音频片段中，位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容；以及将音频内容、起始点时间戳、以及结束点时间戳，作为与目标音频片段关联的音频标注数据。

根据本公开的另一方面，提供了一种音频标注装置，包括：时间戳标注模块，用于通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳；内容获取模块，用于获取目标音频片段中，位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容；以及音频标注模块，用于将音频内容、起始点时间戳、以及结束点时间戳，作为与目标音频片段关联的音频标注数据。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据本公开实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开实施例的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示例性示出了适于本公开实施例的系统架构；

图2示例性示出了根据本公开实施例的音频标注方法的流程图；

图3示例性示出了根据本公开实施例的音频标注的原理图；

图4示例性示出了根据本公开另一实施例的音频标注方法的流程图；

图5示例性示出了根据本公开实施例的音频标注装置的框图；

图6示例性示出了用来实现本公开实施例的音频标注方法和装置的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一个实施例中，可以通过人工方式进行音频标注。具体地，标注人员听音频片段并继续标注，例如标记音频片段中的语音内容，以及语音内容的开始时间和结束时间。

可以理解的是，通过人工方式进行音频标注，需要标注人员对大量音频片段进行逐个标注，标注效率较低，人工成本较高。并且人工标注容易出现人为误判的情况，影响标注的准确性。

在另一个实施例中，还可以通过半自动方式进行音频标注。

可以理解的是，通过半自动方式进行音频标注，仍然存在人工成本高、标注效率低、标注准确性低的问题。

因此，本公开实施例采用全自动方式代替人工方式或半自动方式进行音频标注，可以对目标音频片段进行自动标注，无需人工介入，因此，能够节省人工成本，同时还可以避免因人工个体差异而导致音频标注出现误差或误判，提高数据标注的质量，并且可以使用多个进程同时对多个音频片段进行标注，因而可以实现音频片段的高效标注，进而可以提高语音交互的测试效率。。

以下将结合附图和具体实施例详细阐述本公开。

适于本公开实施例的音频标注方法和装置的系统架构介绍如下。

图1示例性示出了适于本公开实施例的音频标注方法和装置的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他环境或场景。

如图1所示，本公开实施例中系统架构100可以包括多个终端设备101、102、103、104。

终端设备101用于获取若干个音频片段。终端设备102对输入的音频片段进行标注，例如标注音频片段中的语音区域的开始时刻、结束时刻和音频内容。终端设备103对标注完成的音频数据进行测试，得到训练完成的模型。终端设备104使用训练完成的模型对用户的语音进行识别，从而与用户进行语音交互。

应该理解，图1中的终端设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备。

适于本公开实施例的音频标注方法和装置的应用场景介绍如下。例如，可以应用于智能音箱、车载语音设备等智能语音设备，智能语音设备接收用户的语音，对用户的语音进行处理，并与用户进行交互。

根据本公开的实施例，提供了一种音频标注方法，可以自动进行音频标注。

如图2所示，在本公开实施例中，音频标注方法200可以包括操作S210～操作S230。

在操作S210，通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳。

应该理解，对多个目标音频片段(可以涉及多个应用场景)进行音频标注后，可以生成对应的音频测试集，以用于在多场景下测试智能终端的语音交互能力或语音交互效果。

本公开实施例中，对目标音频片段的来源不做限定。示例性的，目标音频片段可以为根据特定场景预先录制的。其中，录制环境可以包括无噪音影响的安静环境，也可以包括有噪音影响的非安静环境。此外，目标音频片段也可以为第三方提供的或者从网络上下载的音频片段。

此外，本公开实施例中，目标音频片段的格式可以包括但不限于PCM(Pulse CodeModulation，简称为脉冲编码调制)、WAV(Windows Wave，简称为窗波)等。

还应该理解，端点检测模型用于对目标音频片段中的语音区域和非语音区域进行区分，定位出语音区域的开始时刻和结束时刻。起始点时间戳和结束点时间戳分别用于标记目标音频片段中语音区域的开始时刻和结束时刻。

例如，某目标音频片段为一段60秒的音频，该音频从开始至第13秒为噪音、静音等非语音区域，从13秒至45秒为语音区域(例如，语音区域可以包括“打开空调”，“播放音乐列表中第一首歌”等内容)，第45秒至第60秒为噪音、静音等非语音区域。则可以将该目标音频片段的起始点时间戳标注为第13秒，同时将其结束点时间戳标注为第45秒。

在操作S220，获取目标音频片段中，位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容。

应该理解，音频片段所表达的音频内容可以包括唤醒语音内容和识别语音内容。唤醒语音内容可以包括启动智能终端所需的语音，例如“XX”(XX可以为该智能终端的名字)。识别语音内容可以包括智能终端(如智能音箱、车载语音设备等)需要执行的命令，例如“打开空调”，“播放音乐列表中第一首歌”等。

在一个示例中，可以基于预先设定的音频内容参考答案获取音频片段中包含的音频内容。例如，某目标音频片段为按照指定的音频内容(即，音频内容参考答案)预先录制的，此种情况下，该目标音频片段中包含的音频内容理论上应与其对应的音频内容参考答案一致。因此可以直接将音频内容参考答案作为对应音频片段的音频内容。

在另一个示例中，可以基于语音识别模型获取音频内容。例如，对目标音频片段进行语音识别，得到该目标音频片段的音频内容。

在操作S230，将音频内容、起始点时间戳、以及结束点时间戳，作为与目标音频片段关联的音频标注数据。

在一种示例中，在得到音频标注数据之后，可以将音频标注数据输出，例如输出至显示装置对其进行展示，或者生成标注报告，或者通过邮件告知用户，从而使用户知晓音频标注数据。

通过本公开的实施例，可以对目标音频片段进行自动标注，无需人工介入，因此，能够节省人工成本，同时还可以避免因人工个体差异而导致音频标注出现误差或误判，提高数据标注的质量，并且可以使用多个进程同时对多个音频片段进行标注，因而可以实现音频片段的高效标注，进而可以提高语音交互的测试效率。

根据本公开的另一实施例，音频标注方法可以包括以下操作。

响应于确定目标音频片段为在安静场景下进行录制而获得的音频片段，通过端点检测模型，标记目标音频片段的起始点时间戳和结束点时间戳。

本实施例对确定目标音频片段录制场景的方式不做限定。在一种示例中，对于根据场景需要预先录制的目标音频片段而言，该目标音频片段的录制环境可以理解为是已知的。例如预先在安静场景下录制第一音频片段和第二音频片段，在非安静场景下录制第三音频片段和第四音频片段，因此，处理第一音频片段和第二音频片段时，可以确定这些音频片段为在安静场景下进行录制而获得的音频片段。同理，处理第三音频片段和第四音频片段时，可以确定这些音频片段为在非安静场景下进行录制而获得的音频片段。在另一种示例中，对于由第三方提供的目标音频片段，可以请求第三方提供该目标音频片段的录制场景等信息。

应该理解，由于安静场景下录制的音频片段中包含的噪音较小或者不包含噪音，因而直接通过端点检测模型检测安静场景下进行录制而获得的音频片段，可以在无噪声干扰的情况下较为准确地标注出音频片段的起始点时间戳和结束点时间戳。

在通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳之前，针对在非安静场景下进行录制而获得的原始音频片段，先进行噪声去除，以获得对应的目标音频片段。在基于原始音频片段获得对应的目标音频片段后，再针对对应的目标音频片段，通过端点检测模型，标注对应的起始点时间戳和对应的结束点时间戳。

本实施例对确定原始音频片段是否包括噪音的方式不做限定。一种情况下，原始音频片段可以是录制环境/录制场景确定的音频片段；另一种情况下，原始音频片段也可以是录制环境/录制场景不确定的音频片段。对于前一种情况，如果确定原始音频片段为在安静场景下录制的音频片段，则可以通过上述实施例提供的方法，直接将原始音频片段作为目标音频片段进行音频标注。此外，对于前一种情况，如果确定原始音频片段为在非安静场景下录制的音频片段，则可以通过本实施例提供的方法，先对原始音频片段进行去噪，再对通过去噪获得的目标音频片段进行音频标注。对于后一种情况，具体处理方法将在下述实施例中详细阐述。

本实施例对噪声去除的方式不做限定。在一种示例中，考虑到原始音频片段可能包括外噪和/或内噪，例如音频片段中的回声成分可以理解为内噪，音频片段中的混响成分可以理解为外噪，为了尽可能多地去除不同种类的噪声，可以针对原始音频片段执行内噪和/或外噪的去除操作。

应该理解，在只有内噪干扰的情况下，去噪时可以仅执行内噪去除操作；在只有外噪干扰的情况下，去噪时可以仅执行外噪去除操作；在同时有内噪和外噪干扰的情况下，去噪时可以分别执行内噪去除和外噪去除操作。

其中，为了防止内噪干扰外噪的正常去除，可以先去除内噪，再去除外噪。并且，在去除外噪时，可以先确定噪声方位，再基于噪声所在的方位对噪声执行去除操作。在其他示例中，也可以利用神经网络模型等方式进行降噪处理。

本公开实施例中，考虑到非安静场景下录制的音频片段存在一些噪音，会影响音频的标注效果，因而对于这种音频片段可以先进行降噪处理，去除噪声可以防止目标语音数据中包含的噪声对后续流程造成不良影响，例如造成标记出的起始点时间戳和结束点时间戳存在误差，或者造成识别音频内容时出现错误。由此可以解决噪音影响音频标注数据准确性的问题。

在通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳之前，先对原始音频片段进行噪声去除，以获得对应的目标音频片段；再针对该目标音频片段，通过端点检测模型，标记对应的起始点时间戳和对应的结束点时间戳。

需要说明的是，考虑到可能无法确定一些原始音频片段录制场景的情况。例如，对于第三方提供的目标音频片段，第三方可能无法提供该目标音频片段的录制场景。或者对于网络上下载的目标音频片段，也无法确定该目标音频片段的录制场景。为了避免由于原始音频片段可能存在的噪声而影响音频标注数据准确性的问题，本公开实施例对无法确定录制场景的原始音频片段进行噪声去除。

本实施例对噪声去除的方式不做限定。在一种示例中，考虑到原始音频片段可能包括外噪、内噪，可以针对原始音频片段执行内噪和/或外噪的去除操作。

根据本公开的另一实施例，获取目标音频片段中，位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容的操作，可以包括以下操作。

响应于确定针对目标音频片段存在预先设定的音频内容参考答案，获取音频内容参考答案。

将获取的音频内容参考答案作为位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容。

需要说明的是，一些目标音频片段可以根据测试需要按照音频内容参考答案预先录制，音频内容参考答案表示目标音频片段理论上的音频内容。

例如需要测试智能终端对“关机”的语音交互能力，会预先录制包含“关机”这一音频内容的目标音频片段。因此，在确定针对目标音频片段存在预先设定的音频内容参考答案的情况下，可以直接将音频内容参考答案作为音频内容。

本实施例中，在目标音频片段存在预先设定的音频内容参考答案的情况下，可以省略对目标音频片段进行语音识别的操作，因此可以提高获取音频内容的效率，进而提高音频标注的效率。

根据本公开的另一实施例，响应于确定针对目标音频片段存在预先设定的音频内容参考答案，获取音频内容参考答案的操作，可以包括以下操作。

响应于确定针对目标音频片段存在预先设定的音频内容参考答案，先确定目标音频片段中位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容与音频内容参考答案一致，再获取音频内容参考答案。

需要说明的是，目标音频片段的音频内容理论上与其对应的音频内容参考答案一致，但是考虑到实际录制过程中可能会出现误差。例如录制人员将“关机”误读为“开机”，导致该目标音频片段的实际的音频内容与音频内容参考答案不一致，进而影响智能终端语音交互测试的准确性。

为了保障目标音频片段的正确性，本实施例对目标音频片段中位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容与音频内容参考答案进行对比，并在对比结果一致的情况下，获取音频内容参考答案。

在一种示例中，确定目标音频片段的实际的音频内容与音频内容参考答案是否一致的过程可以包括：识别目标音频片段的实际的音频内容，读取音频内容参考答案，将实际的音频内容与音频内容参考答案进行对比，从而确定二者是否一致。

在一种示例中，对于目标音频片段的实际音频内容与音频内容参考答案不一致的异常目标音频片段，可以将该异常目标音频片段输出，例如输出至显示装置对其进行展示，或者生成包括该异常目标音频片段的异常标注报告，或者通过邮件告知用户，从而使用户知晓异常目标音频片段。

响应于确定针对目标音频片段不存在预先设定的音频内容参考答案，利用语音识别模型，获取目标音频片段中位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容。

需要说明的是，不存在预先设定的音频内容参考答案的原因，可以为目标音频片段的音频内容参考答案丢失。也可以为录制该目标音频片段时缺少音频内容参考答案，录制人员对随机内容进行录制得到该目标音频片段。

需要说明的是，针对不存在音频内容参考答案的目标音频片段，可以通过语音识别模型获取该目标音频片段的音频内容，从而避免该音频内容由于缺少音频内容参考答案而被确定为无效音频片段并丢弃，保障测试智能终端的音频测试集中的音频片段数量，进而保障智能终端的测试效果。

图3示例性示出了根据本公开实施例的音频标注方法的原理图。

可以首先判断目标音频片段是否存在噪音。

当确定存在噪音时，或者当无法确定是否存在噪音时，可以进行去除噪音的操作，然后将去噪后的目标音频片段输入端点检测模型，得到起始点时间戳和结束点时间戳。以及，通过判断去噪后的目标音频片段是否存在音频内容参考答案。当存在音频内容参考答案时，确定包括起始点时间戳、结束点时间戳和音频内容参考答案在内的第一音频标注数据。当不存在音频内容参考答案时，将去噪后的目标音频片段输入语音识别模型得到识别到的音频内容，然后确定包括起始点时间戳、结束点时间戳和识别到的音频内容在内的第二音频标注数据。

在判断目标音频片段是否存在噪音之后，当确定不存在噪音时，可以将目标音频片段输入端点检测模型，得到起始点时间戳和结束点时间戳。以及，判断目标音频片段是否存在音频内容参考答案。当存在音频内容参考答案时，确定第一音频标注数据。当不存在音频内容参考答案时，确定第二音频标注数据。

如图4所示，以下以一个具体实施例，对本公开的音频标注方法进行说明。该方法包括操作S410～S4120。本领域技术人员可以理解，以下实施例仅为示例，本公开并不局限于此。

在操作S410，获取目标音频片段。

在操作S420，判断目标音频片段是否已知录制场景。若是，则进入操作S430。若否，则进入操作S4110。

例如，该目标音频片段为安静场景下录制的音频片段，或者该目标音频片段为非安静场景下录制的音频片段，均进入操作S430。若无法确定该目标音频的录制场景，则进入操作S4110。

在操作S430，判断录制场景是否为安静场景。若是，则进入操作S440。若否，则进入操作S4110。

在操作S440，通过端点检测模型，标记目标音频片段的起始点时间戳和结束点时间戳。

在操作S450，判断针对目标音频片段是否存在预先设定的音频内容参考答案。若是，则进入操作S460。若否，则进入操作S4120。

在操作S460，目标音频片段中位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容与音频内容参考答案是否一致。若是，则进入操作S470。若否，则进入操作S4100。

在操作S470，获取音频内容参考答案，将音频内容参考答案作为位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容。

在操作S480，将音频内容、起始点时间戳、以及结束点时间戳，作为与目标音频片段关联的音频标注数据。

在操作S490，输出目标音频片段。

在操作S4100，展示异常目标音频片段。

在操作S4110，进行噪声去除处理。

在操作S4120，利用语音识别模型，获取目标音频片段中位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容。

根据本公开的实施例，还提供了一种音频标注装置。

如图5所示，该实施例的音频标注装置500可以包括时间戳标注模块510、内容获取模块520以及音频标注模块530。

时间戳标注模块510用于通过端点检测模型，标记目标音频片段的起始点时间戳和结束点时间戳。

内容获取模块520用于获取目标音频片段中，位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容。

标注模块530用于将音频内容、起始点时间戳、以及结束点时间戳，作为与目标音频片段关联的音频标注数据。

根据本公开的实施例，时间戳标注模块，还用于在确定目标音频片段为在安静场景下进行录制而获得的音频片段的情况下，通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳。。

根据本公开的实施例，上述装置还包括第一噪声去除模块，其用于针对在非安静场景下进行录制而获得的原始音频片段，进行噪声去除，以获得对应的目标音频片段。时间戳标注模块还用于针对由第一噪声去除模块通过噪声去除获得的目标音频片段，通过端点检测模型，标注对应的起始点时间戳和对应的结束点时间戳。

根据本公开的实施例，内容获取模块包括第一获取子模块和确定子模块。第一获取子模块用于在确定针对目标音频片段存在预先设定的音频内容参考答案的情况下，获取音频内容参考答案。确定子模块用于将获取的音频内容参考答案作为位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容。

根据本公开的实施例，第一获取子模块还用于在确定针对目标音频片段存在预先设定的音频内容参考答案的情况下，先确定目标音频片段中位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容与音频内容参考答案一致，再获取音频内容参考答案。

根据本公开的实施例，内容获取模块包括第二获取子模块，其用于在确定针对目标音频片段不存在预先设定的音频内容参考答案的情况下，利用语音识别模型，获取目标音频片段中位于起始点时间戳和结束点时间戳之间的音频片段所表达的音频内容。

根据本公开的实施例，还包括第二噪声去除模块，其用于对原始音频片段进行噪声去除，以获得对应的目标音频片段。时间戳标注模块还用于针对由第二噪声去除模块通过噪声去除获得的目标音频片段，通过端点检测模型，标注对应的起始点时间戳和对应的结束点时间戳。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，本公开在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如音频标注方法。例如，在一些实施例中，音频标注方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的音频标注方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音频标注方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开的技术方案中，所涉及的音频数据的记录，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种音频标注方法，包括：

通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳；

获取所述目标音频片段中，位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容；以及

将所述音频内容、所述起始点时间戳、以及所述结束点时间戳，作为与所述目标音频片段关联的音频标注数据。

2.根据权利要求1所述的方法，其中：

响应于确定所述目标音频片段为在安静场景下进行录制而获得的音频片段，通过所述端点检测模型，标注所述目标音频片段的所述起始点时间戳和所述结束点时间戳。

3.根据权利要求1或2所述的方法，还包括：在通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳之前，

针对在非安静场景下进行录制而获得的原始音频片段，先进行噪声去除，以获得对应的目标音频片段，

其中，在基于所述原始音频片段获得所述对应的目标音频片段后，再针对所述对应的目标音频片段，通过所述端点检测模型，标注对应的起始点时间戳和对应的结束点时间戳。

4.根据权利要求1至3中任一项所述的方法，其中，获取所述目标音频片段中，位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容，包括：

响应于确定针对所述目标音频片段存在预先设定的音频内容参考答案，获取所述音频内容参考答案；以及

将获取的所述音频内容参考答案作为位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容。

5.根据权利要求4所述的方法，其中：

响应于确定针对所述目标音频片段存在预先设定的音频内容参考答案，先确定所述目标音频片段中位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容与所述音频内容参考答案一致，再获取所述音频内容参考答案。

6.根据权利要求1至3中任一项所述的方法，其中，获取所述目标音频片段中，位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容，包括：

响应于确定针对所述目标音频片段不存在预先设定的音频内容参考答案，利用语音识别模型，获取所述目标音频片段中位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容。

7.根据权利要求1所述的方法，还包括：在通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳之前，

先对原始音频片段进行噪声去除，以获得对应的目标音频片段；

再针对该目标音频片段，通过所述端点检测模型，标注对应的起始点时间戳和对应的结束点时间戳。

8.一种音频标注装置，包括：

时间戳标注模块，用于通过端点检测模型，标注目标音频片段的起始点时间戳和结束点时间戳；

内容获取模块，用于获取所述目标音频片段中，位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容；以及

音频标注模块，用于将所述音频内容、所述起始点时间戳、以及所述结束点时间戳，作为与所述目标音频片段关联的音频标注数据。

9.根据权利要求8所述的装置，其中：

所述时间戳标注模块，还用于在确定所述目标音频片段为在安静场景下进行录制而获得的音频片段的情况下，通过所述端点检测模型，标注所述目标音频片段的所述起始点时间戳和所述结束点时间戳。

10.根据权利要求8或9所述的装置，还包括：

第一噪声去除模块，用于针对在非安静场景下进行录制而获得的原始音频片段，进行噪声去除，以获得对应的目标音频片段；

其中，所述时间戳标注模块还用于针对由所述第一噪声去除模块通过噪声去除获得的目标音频片段，通过所述端点检测模型，标注对应的起始点时间戳和对应的结束点时间戳。

11.根据权利要求8至10中任一项所述的装置，其中，所述内容获取模块包括：

第一获取子模块，用于在确定针对所述目标音频片段存在预先设定的音频内容参考答案的情况下，获取所述音频内容参考答案；以及

确定子模块，用于将获取的所述音频内容参考答案作为位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容。

12.根据权利要求11所述的装置，其中：

所述第一获取子模块，还用于在确定针对所述目标音频片段存在预先设定的音频内容参考答案的情况下，先确定所述目标音频片段中位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容与所述音频内容参考答案一致，再获取所述音频内容参考答案。

13.根据权利要求8至10中任一项所述的装置，其中，所述内容获取模块包括：

第二获取子模块，用于在确定针对所述目标音频片段不存在预先设定的音频内容参考答案的情况下，利用语音识别模型，获取所述目标音频片段中位于所述起始点时间戳和所述结束点时间戳之间的音频片段所表达的音频内容。

14.根据权利要求8所述的装置，还包括：

第二噪声去除模块，用于对原始音频片段进行噪声去除，以获得对应的目标音频片段；

其中，所述时间戳标注模块还用于针对由所述第二噪声去除模块通过噪声去除获得的目标音频片段，通过所述端点检测模型，标注对应的起始点时间戳和对应的结束点时间戳。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。