CN112735476A

CN112735476A - 一种音频数据标注方法及装置

Info

Publication number: CN112735476A
Application number: CN202011587494.XA
Authority: CN
Inventors: 陈孝良; 冯大航; 许孝先; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-30

Abstract

本发明提供一种音频数据标注方法及装置，该方法包括：提取视频文件中的音频数据；其中，所述视频文件包括字幕，并根据所述视频文件的字幕对所述音频数据进行标注。通过本发明提供的音频数据标注方法，不仅可以提高音频数据收集的效率，还可以提高音频数据标注的效率。

Description

一种音频数据标注方法及装置

技术领域

本发明涉及音频技术领域，尤其涉及一种音频数据标注方法及装置。

背景技术

语音识别的一个重要因素就是用于训练的音频数据，不同的录音设备，不同的场景，各个地方存在的口音等，都会对语音识别效果产生较大影响。音频数据收集是一件工作量较大的事情，目前往往是通过人工录制音频或者从网络上收集已有的音频用于训练。此外，对收集到的音频数据进行标注也是一件较为消耗时间的事情，对于一段音频，往往需要标注人员反复听多次才能标出对应的文本，而标注的正确率却并不是很高。可见，现有技术中存在音频数据标注效率较低的问题。

发明内容

本发明实施例提供一种音频数据标注方法及装置，以解决现有技术中音频数据标注效率较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种音频数据标注方法。该方法包括：

提取视频文件中的音频数据；其中，所述视频文件包括字幕；

根据所述视频文件的字幕对所述音频数据进行标注。

第二方面，本发明实施例还提供一种音频数据标注装置。该音频数据标注装置包括：

提取模块，用于提取视频文件中的音频数据；其中，所述视频文件包括字幕；

标注模块，用于根据所述视频文件的字幕对所述音频数据进行标注。

第三方面，本发明实施例还提供一种音频数据标注装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的音频数据标注方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的音频数据标注方法的步骤。

本发明实施例中，通过提取视频文件中的音频数据；其中，所述视频文件包括字幕，并根据所述视频文件的字幕对所述音频数据进行标注。通过从视频文件中提取音频数据用于训练，可以提高音频数据收集的效率，此外，基于视频文件的字幕对提取的音频数据进行标注，可以提高音频数据标注的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频数据标注方法的流程图；

图2是本发明又一实施例提供的音频数据标注方法的流程图；

图3是本发明实施例提供的音频数据标注装置的结构图；

图4是本发明又一实施例提供的音频数据标注装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频数据标注方法。参见图1，图1是本发明实施例提供的音频数据标注方法的流程图，如图1所示，包括以下步骤：

步骤101、提取视频文件中的音频数据；其中，所述视频文件包括字幕。

本实施例中，上述视频文件可以是任意包括字幕的一个或多个视频文件。上述视频文件包括字幕可以是该视频文件包括文本字幕文件，或者该视频文件的图像帧中合成有字幕。其中，上述文本字幕文件可以包括视频文件的每段字幕和每段字幕的时间，上述每段字幕的时间可以包括开始时刻和结束时刻，例如，字幕A的开始时刻为第1秒，结束时刻为第3秒，也即在视频文件播放的第1秒和第3秒播放字幕A。

上述提取视频文件中音频数据，可以是从视频文件中转出音频数据，例如，可以通过FFMPEG(Fast Forward MPEG，快速转换MPEG)等软件从视频文件中转出音频数据。

步骤102、根据所述视频文件的字幕对所述音频数据进行标注。

本实施例中，可以基于视频文件的字幕对音频数据进行标注，例如，可以将视频文件的字幕直接作为对应音频数据的标注；或者可以将视频文件的字幕作为对应音频数据的参考标注，并可以进一步对音频数据的参考标注进行校正，并将校正后的标注作为得到音频数据的标注。

本发明实施例提供的音频数据标注方法，通过提取视频文件中的音频数据；其中，所述视频文件包括字幕，并根据所述视频文件的字幕对所述音频数据进行标注。通过从视频文件中提取音频数据用于训练，可以提高音频数据收集的效率，此外，基于视频文件的字幕对提取的音频数据进行标注，可以提高音频数据标注的效率。

可选地，所述根据所述视频文件的字幕对所述音频数据进行标注，可以包括：

在所述视频文件包括文本字幕文件的情况下，分别根据所述文本字幕文件中每段字幕的开始时刻和结束时刻切分所述音频数据，得到所述每段字幕对应的音频片段；

分别根据所述每段字幕标注所述每段字幕对应的音频片段。

本实施例中，上述文本字幕文件可以包括视频文件的每段字幕以及每段字幕的开始时刻和结束时刻，这样可以直接根据所述文本字幕文件中每段字幕的开始时刻和结束时刻切分所述音频数据，得到所述每段字幕对应的音频片段，并基于该段字幕标注其对应的音频片段，例如，直接将该段字幕作为其对应音频片段的标注，或者将该段字幕作为其对应音频片段的参考标注。

例如，若上述文本字幕文件包括字幕A1至字幕A2，其中，字幕A1开始时刻为第1秒，幕A1结束时刻为第3秒，字幕A2的开始时刻为第4秒，结束时刻为第8秒，则基于字幕A1的开始时刻和结束时刻切分所述音频数据，可以得到包括第1秒至第3秒的音频片段A1，也即字幕A1对应的音频片段为音频片段A1，基于字幕A2的开始时刻和结束时刻切分所述音频数据，可以得到包括第4秒至第8秒的音频片段A2，也即字幕A2对应的音频片段为音频片段A2。进一步可以将字幕A1作为音频片段A1的标注，将字幕A2作为音频片段A2的标注。

本发明实施例在视频文件包括文本字幕文件的情况下，分别根据所述文本字幕文件中每段字幕的开始时刻和结束时刻切分所述音频数据，得到所述每段字幕对应的音频片段，并分别根据所述每段字幕标注所述每段字幕对应的音频片段，不仅可以提高音频数据标注的效率，还可以提高音频数据标注的准确率。此外，由于根据每段字幕的开始时刻和结束时刻切分音频数据，这样可以剔除音频数据中的静音部分，进而提高用于语音识别训练的音频数据的质量。

可选地，所述根据所述视频文件的字幕对所述音频数据进行标注，包括：

在所述视频文件的字幕合成在所述视频文件的图像数据中的情况下，分别识别所述图像数据中每帧图像的字幕；

分别确定识别到的每段字幕的起始时刻和结束时刻；其中，所述字幕的起始时刻为所述图像数据中对应所述字幕的连续多帧图像中的第一帧图像对应的时刻，所述字幕的结束时刻为所述图像数据中对应所述字幕的连续多帧图像中的最后一帧图像对应的时刻；

分别根据所述每段字幕对应的起始时刻和结束时刻切分所述音频数据，得到所述每段字幕对应的音频片段；

分别根据所述每段字幕标注所述每段字幕对应的音频片段。

本实施例中，在字幕合成在图像数据中的情况下，可以识别所述图像数据中每帧图像的字幕，例如，可以通过OCR(Optical Character Recognition，光学字符识别)系统识别所述图像数据中每帧图像的字幕。

可选地，为了进一步提高字幕识别的准确性，所述OCR系统可以是基于多张包括字幕的图像以及每张图像对应的标注训练神经网络模型得到的，其中，所述神经网络模型可以包括但不限于CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)、CTC-CNN(Connectionist Temporal Classification Convolutional Neural Network，连接时间分类卷积神经网络)等。

可选地，可以先确定每帧图像中字幕区域，进而可以识别字幕区域的文字，作为该帧图像的字幕；或者可以直接识别每帧图像中的文字，并将识别的文字中文字格式为预设文字格式的文字作为该帧图像的字幕等。

其中，上述文字格式可以包括字体、颜色和字号等中的至少一项，上述预设文字格式可以包括预设字体(例如，楷体等)、预设文字颜色(例如，白色或黑色等)和预设字号(例如，四号、小四号等)等中的至少一项。需要说明的是，上述预设文字格式可以根据实际需求进行合理设置，本实施例对此不做限定。

本实施例在识别到每帧图像的字幕的情况下，可以根据每帧图像的字幕对音频数据进行标注。具体地，可以先根据识别到的每帧图像的字幕，确定识别到的每段字幕的起始时刻和结束时刻，例如，图像数据中存在连续N帧图像均对应于第一字幕，也即从上述N帧图像中识别到的字幕均为第一字幕，N为正整数，则可以将上述N帧图像中的第一帧图像对应的时刻作为第一字幕的开始时刻，将上述N帧图像中的最后一帧图像对应的时刻作为第一字幕的结束时刻。进一步地，可以根据识别到的每段字幕的开始时刻和结束时刻切分所述音频数据，得到所述每段字幕对应的音频片段，并基于该段字幕标注其对应的音频片段，例如，直接将该段字幕作为其对应音频片段的标注，或者将该段字幕作为其对应音频片段的参考标注。

本发明实施例在字幕合成在图像数据中的情况下，分别识别所述图像数据中每帧图像的字幕，并根据识别到的每帧图像的字幕标注音频数据，不仅可以提高音频数据标注的效率，还可以提高音频数据标注的准确率。此外，由于根据每段字幕的开始时刻和结束时刻切分音频数据，这样可以剔除音频数据中的静音部分，进而提高用于语音识别训练的音频数据的质量。

可选地，所述分别识别所述图像数据中每帧图像的字幕，包括：

确定所述图像数据中每帧图像的字幕区域；

分别识别所述每帧图像的字幕区域中的文字，得到所述每帧图像的字幕。

本实施例中，上述确定图像数据中每帧图像的字幕区域，也即每帧图像中字幕所在的图像区域，可选地，可以将接收的用户选择的图像区域作为每帧图像的字幕区域，例如，可以在识别图像数据中的字幕之前，显示图像数据中合成有字幕的至少一帧图像，接收用户在该帧图像中的框选输入，并将每帧图像中对应所述框选输入所确定的图像位置的图像区域作为该帧图像的字幕区域；或者可以将每帧图像的至少一个文字区域中满足预设条件的文字区域作为每帧图像的字幕区域等，其中，上述预设条件可以根据实际情况进行合理设置，例如，文字区域的像素值位于预设像素值范围内，或者文字区域的文字的字体为预设字体等。

本发明实施例通过先确定图像数据中每帧图像的字幕区域，进而可以直接识别每帧图像的字幕区域的文字，例如，通过OCR系统识别每帧图像的字幕区域的文字，并将识别到的文字作为每帧图像的字幕，这样可以过滤图像中的一些干扰文字，进而可以提高字幕识别的准确性。

可选地，所述确定所述图像数据中每帧图像的字幕区域，包括：

分别将所述图像数据的每帧图像中位于目标位置的图像区域确定为所述每帧图像的字幕区域；

或者

分别定位所述图像数据中每帧图像的文字区域；

分别将所述每帧图像的文字区域中的目标文字区域确定为所述每帧图像的字幕区域；其中，所述目标文字区域的像素值满足第一预设条件，或者所述目标文字区域的文字的格式满足第二预设条件。

在一实施方式中，可以分别将所述图像数据的每帧图像中位于目标位置的图像区域确定为所述每帧图像的字幕区域，其中，上述目标位置可以是识别图像数据的字幕之前用户选定的图像位置，例如，可以在识别图像数据中的字幕之前，显示图像数据中合成有字幕的至少一帧图像，接收用户在该帧图像中的框选输入，并将所述框选输入所确定的图像位置作为目标位置；或者可以是预设的图像位置。

实际情况中，视频的字幕的位置往往较为固定，例如，位于视频的下方区域或者位于视频的右侧区域，或者位于视频的左侧区域，或者位于视频的上方区域等。此外，同一个视频中各帧图像中的字幕位置也往往相同，例如，均位于视频的各帧图像的下方区域，或者均位于视频的各帧图像的上方区域等。因此，本实施例可以先确定一目标位置，并将图像数据的每帧图像中位于该目标位置的图像区域确定为所述每帧图像的字幕区域。

本实施方式通过分别将所述图像数据的每帧图像中位于目标位置的图像区域确定为所述每帧图像的字幕区域，可以在保证字幕识别的准确性的同时，提高从图像中识别字幕的效率。

在另一实施方式中，可以分别定位所述图像数据中每帧图像的至少一个文字区域，例如，可以通过OCR系统定位所述图像数据中每帧图像的至少一个文字区域，并分别将所述每帧图像的至少一个文字区域中的目标文字区域确定为所述每帧图像的字幕区域，其中，上述目标文字区域可以是像素值满足第一预设条件的文字区域，或者文字的格式满足第二预设条件的文字区域。

上述文字区域的像素值满足第一预设条件可以包括上述文字区域中各个像素点的像素值均位于预设像素值范围内；或者上述文字区域中所有像素点的像素值的平均值位于预设像素值范围内。其中，上述预设像素值范围可以根据实际情况进行合理设置，例如，上预设像素值范围可以为[200,255]。

上述文字区域的文字的格式满足第二预设条件，可以包括上述文字区域的文字的字体为预设字体、上述文字区域的文字的颜色为预设颜色和上述文字区域的字号为预设字号等中的至少一项。其中，上述预设字体、预设颜色和预设字号均可以根据实际情况进行合理设置，例如，上述预设字体可以是楷体，上述预设颜色可以是白色或黑色等，上述预设字号可以是四号、小四号等。

本实施方式通过分别定位所述图像数据中每帧图像的至少一个文字区域，并分别将所述每帧图像的至少一个文字区域中的目标文字区域确定为所述每帧图像的字幕区域，可以在保证字幕识别的准确性的同时，提高从图像中识别字幕的灵活性。

可选地，所述分别根据所述每段字幕标注所述每段字幕对应的音频片段，可以包括分别对所述每段字幕进行过滤处理，并根据过滤处理后的字幕对该字幕对应的音频片段进行标注。其中，上述过滤处理可以包括过滤字幕中一些注释词，例如，字幕中括号内包括的词，这样可以提高音频标注的准确性。

可选地，所述分别根据所述每段字幕标注所述每段字幕对应的音频片段，包括：分别将第一字幕和所述第一字幕对应的音频片段输入语音识别引擎，得到语音识别结果；其中，所述第一字幕作为所述第一字幕对应的音频片段的答案，所述第一字幕为任一字幕；将所述语音识别结果和所述第一字幕进行比较；在所述语音识别结果和所述第一字幕的相似度大于预设值的情况下，将所述语音识别结果作为所述第一字幕对应的音频片段的标注。

本实施例中，上述第一字幕可以是上述识别得到的任一字幕，或者上述文本字幕文件中的任一字幕。上述预设值可以根据实际情况进行合理设置，例如，上述预设值可以是90％、95％等。

本实施例通过分别将每段字幕和每段字幕对应的音频片段输入语音识别引擎，这样语音识别引擎可以结合每个音频片段对应的字幕对每个音频片段进行语音识别，进而可以提高语音识别结果的准确性。此外，在每个音频片段对应的语义识别结果和该音频片段对应的字幕的相似度大于预设值的情况下，将语音识别结果作为该音频片段的标注，可以提高音频数据标注的准确性。

参见图2，图2是本发明又一实施例提供的音频数据标注方法的流程图。如图2所示，本发明实施例提供的音频数据标注方法可以包括以下步骤：

步骤201、收集带字幕的视频文件，并将音频数据从视频文件中转出。

例如，可以通过FFMPEG等软件对视频文件进行转换，得到音频数据。

步骤202、判断视频文件中是否包括文本字幕文件。

在视频文件中包括文本字幕文件的情况下，执行步骤203，否则执行步骤204。

步骤203、根据文本字幕文件的字幕的时间切分音频数据，并将字幕作为参考标注。

该步骤中，可以根据文本字幕文件中每段字幕的开始时刻和结束时刻切分音频数据，得到每段字幕对应的音频片段，并可将该每段字幕作为其对应的音频片段的参考标注。

实际情况中，字幕通常是整理过的，在整理过程中有时会将口语化的一些词语去除，例如，这个、那等词通常不会在字幕中出现，在这种情况下往往不能直接将字幕当作标注。本实施例将字幕作为参考标注，进而标注人员可以结合各个音频片段的参考标注对各个音频片段进行标注，可以提高标注的效率。

步骤204、选择字幕区域。

实际情况中，对于每一个视频文件或者一系列的视频文件，字幕的位置往往是固定的，因此可以预先选取字幕的位置，对于视频文件的每一帧图像，将该位置的图像区域截出作为字幕区域。

步骤205、OCR系统识别字幕。

该步骤中，可以依次将视频文件的每一帧图像的字幕区域输入至OCR系统进行识别，得到每帧图像的字幕。

步骤206、根据OCR系统识别结果，切分音频数据，并将OCR系统识别结果作为参考标注。

该步骤中，当一段时间内OCR系统识别结果相同时，可以将该OCR系统识别结果作为该段时间对应的音频片段的参考标注。

由上可知，本发明实施例提供的音频数据标注方法，不仅可以提高音频数据标注的效率，还可以提高音频数据标注的准确性。

参见图3，图3是本发明实施例提供的音频数据标注装置的结构图。如图3所示，音频数据标注装置300包括：

提取模块301，用于提取视频文件中的音频数据；其中，所述视频文件包括字幕；

标注模块302，用于根据所述视频文件的字幕对所述音频数据进行标注。

可选地，所述标注模块，包括：

第一切分单元，用于在所述视频文件包括文本字幕文件的情况下，分别根据所述文本字幕文件中每段字幕的开始时刻和结束时刻切分所述音频数据，得到所述每段字幕对应的音频片段；

第一标注单元，用于分别根据所述每段字幕标注所述每段字幕对应的音频片段。

可选地，所述标注模块包括：

识别单元，用于在所述视频文件的字幕合成在所述视频文件的图像数据中的情况下，分别识别所述图像数据中每帧图像的字幕；

确定单元，用于分别确定识别到的每段字幕的起始时刻和结束时刻；其中，所述字幕的起始时刻为所述图像数据中对应所述字幕的连续多帧图像中的第一帧图像对应的时刻，所述字幕的结束时刻为所述图像数据中对应所述字幕的连续多帧图像中的最后一帧图像对应的时刻；

第二切分单元，分别根据所述每段字幕对应的起始时刻和结束时刻切分所述音频数据，得到所述每段字幕对应的音频片段；

第二标注单元，用于分别根据所述每段字幕标注所述每段字幕对应的音频片段。

可选地，所述识别单元包括：

确定子单元，用于确定所述图像数据中每帧图像的字幕区域；

识别子单元，用于分别识别所述每帧图像的字幕区域中的文字，得到所述每帧图像的字幕。

可选地，所述确定子单元具体用于：

或者

分别定位所述图像数据中每帧图像的文字区域；

本发明实施例提供的音频数据标注装置300能够实现上述方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的音频数据标注装置300，提取模块301，用于提取视频文件中的音频数据；其中，所述视频文件包括字幕；标注模块302，用于根据所述视频文件的字幕对所述音频数据进行标注。通过从视频文件中提取音频数据用于训练，可以提高音频数据收集的效率，此外，基于视频文件的字幕对提取的音频数据进行标注，可以提高音频数据标注的效率。

参见图4，图4是本发明又一实施提供的音频数据标注装置的结构图，如图4所示，音频数据标注装置400包括：处理器401、存储器402及存储在所述存储器402上并可在所述处理器上运行的计算机程序，音频数据标注装置400中的各个组件通过总线接口403耦合在一起，所述计算机程序被所述处理器401执行时实现如下步骤：

根据所述视频文件的字幕对所述音频数据进行标注。

可选地，所述计算机程序被所述处理器401执行时还用于实现如下步骤：

分别根据所述每段字幕标注所述每段字幕对应的音频片段。

确定所述图像数据中每帧图像的字幕区域；

或者

分别定位所述图像数据中每帧图像的文字区域；

本发明实施例还提供一种音频数据标注装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述音频数据标注方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频数据标注方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频数据标注方法，其特征在于，包括：

根据所述视频文件的字幕对所述音频数据进行标注。

2.根据权利要求1所述的方法，其特征在于，所述根据所述视频文件的字幕对所述音频数据进行标注，包括：

分别根据所述每段字幕标注所述每段字幕对应的音频片段。

3.根据权利要求1所述的方法，其特征在于，所述根据所述视频文件的字幕对所述音频数据进行标注，包括：

分别根据所述每段字幕标注所述每段字幕对应的音频片段。

4.根据权利要求3所述的方法，其特征在于，所述分别识别所述图像数据中每帧图像的字幕，包括：

确定所述图像数据中每帧图像的字幕区域；

5.根据权利要求4所述的方法，其特征在于，所述确定所述图像数据中每帧图像的字幕区域，包括：

或者

分别定位所述图像数据中每帧图像的文字区域；

6.一种音频数据标注装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述标注模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述标注模块包括：

9.根据权利要求8所述的装置，其特征在于，所述识别单元包括：

10.根据权利要求9所述的装置，其特征在于，所述确定子单元具体用于：

或者

分别定位所述图像数据中每帧图像的文字区域；

11.一种音频数据标注装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的音频数据标注方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的音频数据标注方法的步骤。