CN112487238B

CN112487238B - 一种音频处理方法、装置、终端及介质

Info

Publication number: CN112487238B
Application number: CN202011166882.0A
Authority: CN
Inventors: 张玫
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2024-05-17
Anticipated expiration: 2040-10-27
Also published as: CN112487238A

Abstract

本发明实施例公开了一种音频处理方法、装置、终端及介质,涉及音频技术领域，该音频处理方法包括：获取待标注的音频文件数据；依据所述音频文件数据在展示界面上输出对应的音频波形；依据用户操作对所述音频波形进行切分处理，得到至少两个波形区域；依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果。本发明实施使得音频处理更加直观、简单、高效。

Description

一种音频处理方法、装置、终端及介质

技术领域

本发明涉及音频技术领域，尤其涉及一种音频处理方法、装置、终端及介质。

背景技术

随着信息技术的快速发展，现有的信息处理已不仅仅局限于文本、图片等简单媒体类型信息，音视频也成为了信息处理的重要来源之一。

具体的，在科技、机器学习语音识别等技术领域，都大量涉及对音频文件的处理。例如，在机器学习语音识别领域，智能家居、智能设备、智能客服等场景的落地，往往需要基于大量的音频标注数据进行训练，即需要对音频进行切分标注。其中，音频标注是一种将标签信息与特定的音频文件对应起来的技术；而音频切分可以看成是多个音频标注的组合，如在对音频进行监听、分析后，选取音频中若干个时间段进行标注。

传统的音频标注方法只能依赖标注人员对音频文件进行反复播放，再基于整个音频文件内容进行文字转写或分类标注；而音频切分则缺乏实际工具的支持，只能通过设置预先定义的语音参数或预先制定的规则，将音频分割后输出，缺乏灵活性，无法进行人工干预，不满足数据标注的需求。为了满足数据标注的需求，现有的有效替换方案主要是反复播放音频，记录多个起始、终止时间戳及对应的文本，但是这种方法割裂了音频与标注结果，且由于可视化程度低，在需要修改、调整标注区域时，需要现在所有先在所有已记录时间段中找到对应的区域，再进行更改，流程比较繁琐，容易出错，不利于人工审核，极大降低了标注的准确性和效率，难以应对日益增长的音频处理需求。

发明内容

有鉴于此，本发明实施例提供一种音频处理方法、装置、终端及介质，以使音频切分、标注更加直观、简单、高效。

第一方面，本发明实施例提供了一种音频处理方法，包括：

获取待标注的音频文件数据；

依据所述音频文件数据在展示界面上输出对应的音频波形；

依据用户操作对所述音频波形进行切分处理，得到至少两个波形区域；

依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果。

第二方面，本发明实施例还提供了一种音频处理装置，包括：

音频文件获取模块，用于获取待标注的音频文件数据；

音频波形展示模块，用于依据所述音频文件数据在展示界面上输出对应的音频波形；

音频波形切分模块，用于依据用户操作对所述音频波形进行切分处理，得到至少两个波形区域；

音频标注模块，用于依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果。

第三方面，本发明实施例还提供了一种音频处理终端，包括：处理器和存储器；所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述音频处理终端执行如第一方面所述的音频处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述可读存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行如第一方面所述的音频处理方法。

本发明实施例通过依据待标注的音频文件数据在展示界面上输出音频波形，使得用户可以直接在可视化波形上进行操作，并可依据用户操作对该音频文件进行切分处理，得到至少两个波形区域，以及依据各个波形区域对应的标签信息确定出音频文件数据的标注结果，提高了音频标注的操作性和针对性，使得音频处理更加灵活性，达到使得音频、切分、标注更加直观、简单、高效的目的。

附图说明

图1是本发明实施例的一种音频处理方法的步骤流程示意图；

图2是本发明一个可选实施例中的一种音频处理方法的步骤流程示意图；

图3是本发明一个可选示例中划分音频波形的示意图；

图4是本发明可选实施例中的一种音频处理方法的步骤流程示意图；

图5是本发明的一个可选示例中的展示界面的示意图；

图6是本发明实施例中的一种音频处理装置的结构方框示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构或组成。

现有的音频处理方法传统且低效。具体的，对音频标注而言，通常指涉及简单的“循环播放——基于音频整体进行分类或转写”；而对音频切分而言，则往往需要依赖于预先定义的语音参数，缺乏灵活性。这些音频处理方式不仅效率低下，专业化程度低，更难以应对日益复杂多样的音频处理需求。

为了满足日益复杂多样的音频处理需求，本发明实施例提出一种新的音频处理方法，以自主灵活地实现音频切分和分类标注方，使得音频切分、音频标注更加直观、简单、高效，从而能够弥补现有技术功能上的不足。

图1为本发明实施例提供的一种音频处理方法的步骤流程示意图。本实施例可适用于音频处理情况，如适用于音频切分、标注等情况，该音频处理方法可以由音频处理装置来执行，具体包括如下步骤：

步骤110，获取待标注的音频文件数据。

其中，待标注音频文件数据可以是指需要标注的音频文件。具体而言，在需要标注音频的时候，可以获取当前所需要标注的音频文件，如可以从音频存储单元中提取出单个音频文件，以作为待标注的音频文件数据。需要说明的是，音频存储单元可以用于存储待标注的音频数据集、音频文件的预处理结果以及最终的标注结果等，本实施例对此不作具体限制。

步骤120，依据所述音频文件数据在展示界面上输出对应的音频波形。

在具体实现中，本发明实施例可以将获取到的待标注的音频文件数据转换为音频波形输出到展示界面上，以通过音频波形直观地反映出音频在具体哪些时刻有输出、输出峰值等情况。其中，音频波形可以是指通过音频文件数据转换后生成的波形。该波形相比简单的音频播放而言，更能直观地反映出音频文件在具体时刻是否有输出、输出峰值的情况，有利于诸如标注人员等用户排除静音区域，快速选择其所需要操作的音频区域，同时，该波形也可以作为用户的工作区域，如可以作为标注人员的工作区等。

步骤130，依据用户操作对所述音频波形进行切分处理，得到至少两个波形区域。

其中，用户操作可以包括用户针对音频波形提交的各种操作，如可以是用户使用鼠标或键盘快捷键在音频波形上进行的操作。具体而言，本实施例在接收到针对音频波形提交的用户操作后，可以根据该用户操作的操作位置对音频波形进行切分，以将该音频波形切分为两个或两个以上的波形区域，从而实现了将音频文件切分为两个或两个以上的音频分片。其中，波形区域可以是指在音频波形上的区域，一个波形区域可以表示一个音频分片，因此本实施例中将将该音频波形切分为两个或两个以上的波形区域，实际上可以表示将音频文件切分为两个或两个以上的音频分片，且该音频分片的数量与波形区域的数量相同。

步骤140，依据各个波形区域对应的标签信息，确定音频文件数据的标注结果。

在具体实现中，本实施例在切分出波形区域后，可以获取每个波形区域对应的标签信息，以根据每个波形区域对应的标签信息对该波形区域对应的音频分片进行标注，得到该波形区域的音频标注结果，进而可以基于音频波形中所包含的各个波形区域的音频标注结果确定出音频文件数据的标注结果，以完成对该音频文件数据的标注，达到音频标注的目的。

可见，本发明实施例通过依据待标注的音频文件数据在展示界面上输出音频波形，使得用户可以直接在可视化波形上进行操作，并可依据用户操作对该音频文件进行切分处理，得到至少两个波形区域，以及依据各个波形区域对应的标签信息确定出音频文件数据的标注结果，提高了音频标注的操作性和针对性，使得音频处理更加灵活性，达到使得音频、切分、标注更加直观、简单、高效的目的。

在具体实现中，本发明实施例提出的音频处理方法可以应用于音频标注装置中，具体可以适用于各种音频标注场景，如可以适用于语音切分标注场景，可以对音频进行切分及标注，标注内容可以包括但不限于分类、音频内容转写等，本实施例对此不作具体限制。

在上述实施的基础上，可选的，本发明实施例中的展示界面可以设置有波形工作区。该波形工作区可以展示音频波形，以便用户对音频波形进行切分。进一步而言，本实施例依据所述音频文件数据在展示界面上输出对应的音频波形，具体可以包括：将所述音频文件数据转为音频波形数据；依据所述音频波形数据生成音频波形，并将所述音频波形输出到所述波形工作区。

参照图2，示出了本发明一个可选实施例中的一种音频处理方法的步骤流程示意图，该音频处理方法可以包括如下步骤：

步骤210，获取待标注的音频文件数据。

例如，用户可以上传待标注音频数据集到音频存储单元，以便在音频标注时可以从该音频存储单元中获取待标注的音频文件数据。其中，待标注音频数据集可以包括一个或多个待标注的音频文件数据，如可以包括N各个待标注音频文件，N为大于零的整数。当然，还可以将其他文件上传到音频存储单元，如可以将预标注文件数据上传到音频存储单元等，本示例对此不作具体限制。

步骤220，将所述音频文件数据转为音频波形数据。

步骤230，依据所述音频波形数据生成音频波形，并将所述音频波形输出到所述波形工作区。

具体而言，本实施例在获取到音频文件数据后，可以将该音频文件数据转为音频波形数据，以依据该音频波形数据生成可视化的音频波形，并可将该音频波形输出到展示界面的波形工作区，使得用户可以在波形工作区对该音频波形进行操作。例如，结合上述例子，在从音频存储单元获取单个待标注的音频文件数据后，可以将该音频文件数据转为可视化的音频波形输出到展示界面的波形区域上。

步骤240，在检测到用户操作时，确定所述用户操作的操作位置。

具体的，在音频波形输出到展示界面上后，用户可以针对该音频波形提交用户操作，以通过用户操作对该音频波形进行切分。具体而言，当用户针对音频波形提交用户操作，诸如终端设备等音频处理终端可以检测到用户操作，并可基于该用户操作的位置信息确定出该用户操作的操作位置，如可以在用户按下鼠标左键时确定出操作起始位置和在用户松开鼠标左键时确定出操作结束位置等。可选的，用户操作的操作位置可以包括操作起始位置和操作结束位置等，本实施例对此不作具体限制。

步骤250，基于所述操作位置对所述音频波形进行切分，得到至少两个波形区域。

在具体实现中，本实施例可以根据用户操作的操作位置在音频波形上新建一个波形区域，以通过新建的波形区域将音频波形切分。例如，如图3所示，在音频波形的中间新建波形区域X，以将该音频波形划分成三个波形区域，分别为波形区域X-1，波形区域X和波形区域X+1，其中，X为整数。当然，也可以在音频波形的左边或右边新建波形区域，以将该音频波形划分成两个波形区域，本实施例对此不作具体限制。

可选的，在用户操作的操作位置包含操作起始位置和操作结束位置的情况下，本实施例基于所述操作位置对所述音频波形进行切分，得到至少两个波形区域，具体可以包括：分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间；基于所述音频起始时间和所述音频终止时间对所述音频波形进行切分，得到至少两个波形区域，所述至少两个波形区域包含所述新建波形区域。具体而言，本实施例可以根据用户操作的操作起始位置确定出一个新建波形区域的音频起始时间，并可根据该用户操作的操作结束数据确定出新建波形区域的音频终止时间，随后可根据该音频起始时间和音频终止时间在音频波形上切分出一个区域，以作为新建波形区域，从而完成对用户操作的响应，满足用户新建波形区域的操作需求。

当然，用户也可以对音频波形上的波形区域进行调整，如可以通过鼠标拖拽波形区域的边界，以实现波形区域大小的调整；又如可以移动整个波形区域，以调整波形区域在音频波形上的位置等，本实施例对此不作具体限制。可选的，本实施例在分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间之前，还可以包括：确定所述音频波形对应的操作模式；若所述操作模式为区域新建模式，则执行所述分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间的步骤。当音频波形对应的操作模式不是区域新建模式，则可以不依据该用户操作新建波形区域，即可以不执行依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间的步骤，如可以忽略该用户操作。当然，若该音频波形对应的操作模式为其他预设的操作模式时，则可以基于其他预设的操作模式对该用户操作进行响应，如在音频波形对应的操作模式为预设的区域调整模式时，可以基于该区域调整模式对该用户操作进行响应，本实施对此不作具体限制。

在一个可选实施方式中，本发明实施例的音频处理方法还可以包括：在所述操作模式为区域调整模式时，确定所述操作起始位置是否在波形区域的边界；若所述操作起始位置在所述波形区域的边界，则依据所述用户操作的移动方向移动所述边界区域的边界，直到将所述边界区域的边界调整到所述操作结束位置；若所述操作起始位置不在波形区域的边界，则将所述操作起始位置所在波形区域确定为目标波形区域，并依据操作移动距离更新所述目标波形区域的音频起始时间和音频终止时间，其中，所述操作移动距离为依据所述操作起始位置和所述操作结束位置确定的距离。

步骤260，依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果。

在实际处理中，本实施例可以分别根据各个波形区域对应的标签信息对各个波形区域对应的音频分片进行标注，得到各个波形区域的音频标注结果，并可将各个波形区域的音频标注结果输出到展示界面上进行展示，以便诸如标注人员等用户可以审核或修改各个波形区域的音频标注结果，随后可以基于各个波形区域的音频标注结果确定出音频文件数据的标注结果，如可以将各个波形区域的音频标注结果确定为音频文件数据的标注结果。

在上述实施例的基础上，本实施路中的波形区域对应的标注签信息可以包括用户输入标签信息。该用户输入标签信息可以是指用户针对波形区域输入的标签信息，具体可以用于对波形区域的音频分片进行标注、分类，产生该波形区域的音频标注结果。进一步而言，本实施例依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果具体可以包括：针对每一个波形区域，获取用户输入标签信息，并依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注，得到所述波形区域的音频标注结果；基于各个波形区域的音频标注结果确定所述音频文件数据的标注结果。

在实际处理中，用户可以针对划分出的各个波形区域输入对应的标签信息，使得诸如终端设备等音频处理装置可以分别依据各个波形区域对应的用户输入标签信息确定出各个波形区域的音频标注结果，进而可以基于各个波形区域的音频标注结果生成整个音频波形的标注结果，确定出音频文件数据的标注结果。

当然，也可以预先设置各个波形区域对应的标签信息，以便后续可以依据预先设置的标签信息快速完成各个波形区域的音频标注，本实施例对此不作具体限制。可选的，本实施例中波形区域对应的标注信息还可以包括初始标签信息。该初始标签信息可以是指预先针对波形区域设置的标签信息。

进一步的，本实施例中的音频处理方法还可以包括：获取预标注文件数据，所述预标注文件数据包含所述音频文件数据的预标注结果；依据所述预标注结果展示所述各个波形区域对应的初始标签信息。其中，所述依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注之前还包括：判断所述用户输入标签信息是否与所述初始标签信息相同；若所述用户输入标签信息与所述初始标签信息相同，则忽略所述用户输入标标签信息，否则执行依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注的步骤。

可见，本实施例在将音频文件数据转换成音频波形输出到展示界面的波形工作后，可以依据用户操作的操作位置对音频波形进行切分，使得用户可以直接在可视化的音频波形进行操作，如标注员可以通过多次切分操作在音频波形上生成多个波形区域，而在需要对区域进行调整时，可以直接通过拽整个区域移动位置或拖拽区域边界调整大小，由此可见本实施例提供了更为直观的音频切分方法，并且提供了更便捷的结果修改方法，如用户可直接通过鼠标与已切分片段进行交互，高效完成对区域位置、区域边界的调整。

参照图4，示出了本发明可选实施例中的一种音频处理方法的步骤流程示意图，该音频处理方法可以包括如下步骤：

步骤401，获取待标注的音频文件数据和预标注文件数据。

其中，所述预标注文件数据包含所述音频文件数据的预标注结果。

步骤402，依据所述音频文件数据在展示界面上输出对应的音频波形。

具体的，本发明实施例可以将待标注的音频文件数据转为音频波形数据，然后可依据该音频波形数据生成音频波形，并将音频波形输出到展示界面的波形工作区。可选的，在获取到预标注文件数据的情况下，还可以依据该预标注文件数据中所包含的音频文件数据的预标注结果将该音频波形切分成两个或两个以上的波形区域，并可依据该预标注结果展示各个波形区域对应的初始标签信息。该初始标签信息可以是指预先为波形区域设置的标签信息，可以用于对该波形区域的音频片段进行标注。

步骤403在检测到用户操作时，确定所述用户操作的操作位置，其中，所述操作位置包含操作起始位置和操作结束位置。

步骤404，确定所述音频波形对应的操作模式。

若所述操作模式为区域新建模式，则可以依据操作起始位置和操作结束位置新建一个波形区域，即执行步骤405，以分别依据操作起始位置和操作结束位置确定新建波形区域的音频起始时间和音频终止时间；若操作模式为区域调整模式，则可以跳转到步骤407执行，以依据操作起始位置和操作结束位置调整波形区域。

步骤405，在所述操作模式为区域新建模式时，分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间。

在具体实现中，本实施例可以结合音频波形的总长度和总时长来确定出新建波形区域的音频起始时间和音频终止时间。进一步的，本实施例分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间，具体可以包括：确定所述音频波形的波形总长度和波形总时长；结合所述波形总长度和所述波形总时长，分别基于所述操作起始位置和所述操作结束位置确定所述音频起始时间和所述音频终止时间。其中，音频起始时间可以是指音频开始播放的时刻；同理，音频终止时间可以是指音频结束播放的时刻。

在一个可选方式中，本实施例结合所述波形总长度和所述波形总时长，分别基于所述操作起始位置和所述操作结束位置确定所述音频起始时间和所述音频终止时间，具体可以包括：基于所述波形总长度和所述波形工作区的边界起始位置，分别确定所述操作起始位置对应的音频起始位置和所述操作结束位置对应的音频终止位置；采用所述音频起始位置与所述波形总时长进行计算，得到所述音频起始时间；采用所述音频终止位置与所述波形总时长进行计算，得到所述音频终止时间。

例如，在实际操作过程中，可以捕获用户的操作位置，并可将诸如鼠标操作等用户操作映射为标注结果。具体的，如图5所示，可以将音频波形的总时长记为波形总时长duration，单位为秒(Second，S)；并可将波形区域作为用户的工作区，计算波形工作区左边界到浏览器窗口左侧的距离，记为波形工作区的边界起始位置parentLeft，并可将波形工作区对应的工作区长度记为parentWidth。由于波形可放大缩小，当放大波形且波形长度超过工作区长度时，波形工作区会出现横向滚动条，用于滚动显示，并可将波形总长度记为scrollWidth，以及可以将波形从波形工作区左边缘滚出的长度记为边缘滚出长度scrollLeft；在用户点击页面时，可以将此时鼠标位置距浏览器视口左侧的水平距离记为用户操作的操作位置clientX。

在本实施例中，波形工作区具有交互功能，如在用户点击波形某一位置时，可以按照当前时刻的计算公式自动计算并跳转到该位置对应的时刻，并开始播放音频。其中，当前时刻的计算方式如下：

Cerrent＝(clientX-parentLeft+scrollLeft)/scrollWidth*duration；

进一步的，在波形工作区没有滚动条的情况下，即在波形总长度scrollWidth小于或等于工作区长度parentWidth时，可以按照如下公式确定操作位置对应的音频播放时刻：

Cerrent＝(clientX-parentLeft)/parentWidth*duration；

需要说明的是，Cerrent可以表示当前操作位置对应的音频播放时刻。

可见，本实施例在实际处理中，可以依据操作起始位置、波形工作区的工作区长度parentwidt、波形工作区的边界起始位置parentLeft以及波形总时长duration确定音频起始时间，并可依据操作结束位置、工作区长度parentwidt、边界起始位置parentLeft以及波形总时长duration确定所述音频终止时间。

可选的，本实施例基于所述波形总长度和所述波形工作区的边界起始位置，分别确定所述操作起始位置对应的音频起始位置和所述操作结束位置对应的音频终止位置，具体可以包括：将所述波形总长度与所述波形工作区对应的工作区长度进行比较；在所述波形总长度大于或等于所述波形工作区对应的工作区长度时，获取获取所述音频波形的边缘滚出长度和所述波形工作区的边界起始位置；依据所述边缘滚出长度、所述边界起始位置、所述操作起始位置以及所述波形总长度进行计算，得到所述音频起始位置；依据所述边缘滚出长度、所述边界起始位置、所述操作结束位置以及所述波形总长度进行计算，得到所述音频终止位置。

可见，本实施例在音频波形的波形总长度不小于波形工作区对应的工作区长度时，可以基于操作起始位置，结合音频波形的边缘滚出长度、波形工作区的边界起始位置、音频波形的波形总长度以及波形总时长进行计算，得到所述音频起始时间；并可基于操作结束位置，结合边缘滚出长度、波形工作区的边界起始位置、波形总长度以及波形总时长进行计算，得到音频终止时间。

例如，在用户通过鼠标操作创建一个在音频波形上的波形区域的情况下，在用户按下鼠标左键时，可以将此时鼠标位置距浏览器视口左侧的水平距离记为操作起始位置start_clientX；在用户拖拽鼠标一段距离后，在用户松开鼠标左键时，将标位置的水平距离记为操作结束位置end_clientX。随后可以基于操作起始位置start_clientX，结合音频波形的边缘滚出长度scrollLeft、波形工作区的边界起始位置parentLeft、音频波形的波形总长度scrollWidth以及波形总时长duration，按照计算公式一进行计算，得到新建波形区域的音频起始时间region_start。计算公式一如下：

region_start＝(start_clientX-parentLeft+scrollLeft)/scrollWidth*duration；

其中，region_start可以表示新建波形区域的音频开始播放的时刻。

同理，可以基于操作结束位置end_clientX，结合音频波形的边缘滚出长度scrollLeft、波形工作区的边界起始位置parentLeft、音频波形的波形总长度scrollWidth以及波形总时长duration，按照计算公式二进行计算，得到新建波形区域的音频终止时间region_end。计算公式二如下：

region_end＝(end_clientX-parentLeft+scrollLeft)/scrollWidth*duration；

其中，region_end可以表示新建波形区域的音频结束播放的时刻。

进而，可以依据新建波形区域的音频起始时间region_start和音频终止时间region_end确定出该新建波形区域对应的音频片段的持续时间region_duration，如可以将音频终止时间region_end与音频起始时间region_start之间的差值作为音频片段的持续时间region_duration，即region_duration＝region_end-region_start。

进一步的，本实施例基于所述波形总长度和所述波形工作区的边界起始位置，分别确定所述操作起始位置对应的音频起始位置和所述操作结束位置对应的音频终止位置还可以包括：在所述波形总长度小于所述波形工作区对应的工作区长度时，获取所述波形工作区的边界起始位置；依据所述边界起始位置、所述操作起始位置以及所述工作区长度进行计算，得到所述音频起始位置；依据所述边界起始位置、所述操作结束位置以及所述工作区长度进行计算，得到所述音频终止位置。

步骤406，基于所述音频起始时间和所述音频终止时间对所述音频波形进行切分，得到至少两个波形区域，所述至少两个波形区域包含所述新建波形区域。

具体的，在区域新建模式下，可以根据每次用户操作的操作起始位置和操作终止位置分别确定出新建波形区域的音频起始时间和音频终止时间，以按照该音频起始时间和音频终止时间在音频波形上新建一个波形区域，进而可以通过新建的波形区域将音频波形切分为两个或两个以上的波形区域。

步骤407，在所述操作模式为区域调整模式时，确定所述操作起始位置是否在波形区域的边界。

具体的，本实施例在操作模式为区域调整模式的情况下，可以通过确定用户操作的操作起始位置是否在波形区域的边界上，来确定该用户操作是否是用于调整波形区域的大小。若用户操作的操作起始位置在波形区域的边界上，则可以确定该用户操作是用于调整波形区域的大小，随后可执行步骤408，以依据该用户操作调整波形区域的大小。若用户操作的操作起始位置不在波形区域的边界上，则可以确定该用户操作是用于移动波形区域，随后可跳转到步骤409，以依据该用户操作移动波形区域。

步骤408，若所述操作起始位置在所述波形区域的边界，则依据所述用户操作的移动方向移动所述边界区域的边界，直到将所述边界区域的边界调整到所述操作结束位置。

例如，在用户操作的操作起始位置在某一波形区域的右边边界时，若用户操作的移动方向为向右移动，则可以基于用户操作，向右移动该波形区域的右边边界，如在用户操作为用户通过鼠标向右拖拽波形区域的右边界的情况下，可以通过右移该波形区域的右边边界来增大该波形区域的大小，直接到该用户操作停止右移。同理，若用户操作的移动方向为向左移动，则可以基于用户操作，向左移动该波形区域的右边边界，如在用户操作为用户通过鼠标向左拖拽波形区域的右边界的情况下，可以通过左移该波形区域的右边边界来缩小该波形区域的大小，直接到该用户操作停止左移。可见，本示例可以通过用户操作来调整波形区域的大小，满足用户调整区域大小的操作需求，提高音频切分的操作性。

步骤409，若所述操作起始位置不在波形区域的边界，则将所述操作起始位置所在波形区域确定为目标波形区域，并依据操作移动距离更新所述目标波形区域的音频起始时间和音频终止时间。

其中，所述操作移动距离为依据所述操作起始位置和所述操作结束位置确定的距离。具体而言，本实施例在操作模式为区域调整模式的情况下，可以根据用户在音频波形上的操作移动距离来确定目标波形区域所需要移动的调整时间，以按照该调整时间来调整目标波形区域的音频起始时间和音频终止时间，从而实现对该目标波形区域的音频起始时间和音频终止时间的更新。

可选的，本实施例依据操作移动距离更新所述目标波形区域的音频起始时间和音频终止时间，可以包括：基于所述操作移动距离，结合所述音频波形的波形总长度和波形总时长，确定所述目标波形区域对应的调整时间；基于所述调整时间，分别更新所述目标波形区域的音频起始时间和音频终止时间。

具体而言，本实施例基于所述调整时间，分别更新所述目标波形区域的音频起始时间和音频终止时间，具体可以包括：获取所述目标波形区域的初始音频起始时间和初始音频终止时间；依据所述调整时间和所述初始音频起始时间，确定所述目标波形区域更新后的音频起始时间；依据所述调整时间和所述初始音频终止时间，确定所述目标波形区域更新后的音频终止时间。其中，初始音频起始时间可以是指目标波形区域在移动前的音频起始时间；初始音频终止时间可以是指目标波形区域在移动前的音频终止时间。

在实际处理中，本实施例依据所述调整时间和所述初始音频起始时间，确定所述目标波形区域更新后的音频起始时间，可以包括：采用所述调整时间和所述初始音频起始时间确定出波形区域起始时间；若所述波形区域起始时间大于所述音频波形的起始时间，则将所述波形区域起始时间确定为所述目标波形区域更新后的音频起始时间；否则，将所述音频波形的起始时间确定为所述目标波形区域更新后的音频起始时间。具体而言，本实施例基于调整时间和初始音频起始时间确定出波形区域起始时间后，可以将该波形区域起始时间与音频波形的起始时间进行比较，以确定波形区域起始时间是否大于该音频波形的起始时间。若波形区域起始时间大于该音频波形的起始时间，则可以将波形区域起始时间直接确定为目标波形区域更新后的音频起始时间；若波形区域起始时间小于或等于该音频波形的起始时间，则可以将音频波形的起始时间确定为所述目标波形区域更新后的音频起始时间。

作为本发明的一个示例，在用户移动某一目标波形区域时，即在用户移动某一音频片段对应的波形区域时，可以将该目标波形区域的原始音频播放位置记录为[region_start_initial,region_end_initial]，即目标波形区域的初始音频起始时间记录为region_start_initial，目标波形区域的初始音频终止时间记录为region_end_initial。若用户从按下鼠标左键到松开鼠标左键在水平方向上移动的距离记录为操作移动距离movement,则可以依据操作移动距离movement、音频波形的波形总长度scrollWidth和波形总时长duration，确定出目标波形区域对应的调整时间T，如可以按照如下公式计算得到目标波形区域对应的调整时间T：

T＝movement/scrollWidth*duration；

随后，可以采用调整时间T和初始音频起始时间region_start_initial确定出波形区域起始时间，如可以将调整时间T与初始音频起始时间region_start_initial的总和确定为出波形区域起始时间，即波形区域起始时间为movement/scrollWidth*duration+region_start_initial，从而可以将波形区域起始时间movement/scrollWidth*duration+region_start_initial与音频波形的起始时间比较，以将两者中的最大值确定为目标波形区域更新后的音频起始时间region_start_updated。例如，可以按照公式region_start_updated＝max(0，movement/scrollWidth*duration+region_start_initial)计算出目标波形区域更新后的音频起始时间region_start_updated，需要说明的是，0可以表示音频波形的起始时间，且max(num1，num2)表示取num1和num2中的最大值。

本实施例依据所述调整时间和所述初始音频终止时间，确定所述目标波形区域更新后的音频终止时间，可以包括：采用所述调整时间和所述初始音频终止时间确定出波形区域终止时间；若所述波形区域终止时间大于所述音频波形的终止时间，则将所述音频波形的终止时间确定为所述目标波形区域更新后的音频终止时间；否则，将所述波形区域终止时间确定为所述目标波形区域更新后的音频终止时间。具体的，本实施例基于调整时间和初始音频终止时间确定出波形区域终止时间后，可以将该波形区域终止时间与音频波形的终止时间进行比较，以确定波形区域终止时间是否大于该音频波形的终止时间。若波形区域终止时间大于该音频波形的终止时间，则可以将音频波形的终止时间确定为所述目标波形区域更新后的音频终止时间；若波形区域终止时间小于或等于该音频波形的终止时间，则可以将波形区域终止时间直接确定为目标波形区域更新后的音频终止时间。

例如，结合上述示例，可以采用调整时间T和初始音频终止时间region_end_initial确定出波形区域终止时间，如可以将调整时间T与初始音频终止时间region_end_initial的总和确定为出波形区域终止时间，即波形区域终止时间为movement/scrollWidth*duration+region_end_initial，从而可以将波形区域终止时间movement/scrollWidth*duration+region_end_initial与音频波形的终止时间比较，以将两者中的最小值确定为目标波形区域更新后的音频终止时间region_end_updated。例如，可以按照公式region_end_updated＝min(duration，movement/scrollWidth*duration+region_end_initial)计算出目标波形区域更新后的音频终止时间region_end_updated，需要说明的是，0可以表示音频波形的终止时间，且min(num1，num2)表示取num1和num2中的最小值。

综上，目标波形区域更新后的最终音频播放位置可以记录为[region_start_updated，region_end_updated]。

步骤410，依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果。

在实际处理中，用户可以针对音频波形上的每一个波形区域输入对应的标签信息，以通过该标签信息完成对波形区域对应的音频分片的标注。具体的，本实施例可以获取到用户针对音频波形上的每一个波形区域输入的标签信息，即获取用户输入标签信息，随后可以依据用户标签信息对波形区域对应的音频分片进行标注、以标注出该音频分片的分类，随后可以将该音频分片的分类作为该波形区域的音频标注结果，进而可以根据音频波形中所有波形区域的音频标注结果确定出音频文件数据的标注结果，如可以将音频波形中所有波形区域的音频标注结果确定为音频文件数据的标注结果。

进一步而言，在波形区域具有对应的初始标签信息的情况下，本实施例在依据用户输入标签信息对波形区域对应的音频分片进行标注之前，还可以通过比较同一波形区域对应的初始标签信息和用户输入标签信息来确定是否需要根据用户输入标签信息对该波形区域对应的音频分片进行标注，以加快音频标注效率。可选的，本实施例的音频处理方法在依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注之前，还可以包括：判断所述用户输入标签信息是否与所述初始标签信息相同；若所述用户输入标签信息与所述初始标签信息相同，则忽略所述用户输入标标签信息，否则执行依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注的步骤。

具体的，本实施例在获取到每一波形区域对应的用户输入标签信息后，可以确定该波形区域是否有对应的初始标签信息；若波形区域没有对应的初始标签信息，则可以直接依据用户输入标签信息对波形区域对应的音频分片进行标注，以完成该波形区域对应的音频分片的标注；若波形区域具有对应的初始标签信息，则可以将该波形区域对应的初始标签信息与用户输入标签信息进行匹配，以确定该波形区域对应的初始标签信息是否与用户输入标签信息相同。若波形区域对应的初始标签信息与用户输入标签信息相同，则可以忽略该用户输入标标签信息，以避免重复对该波形区域对应的音频片段进行标注，从而提高标注效率；若波形区域对应的初始标签信息与用户输入标签信息不相同，则可以执行依据用户输入标签信息对所述波形区域对应的音频分片进行标注的步骤，以修改对该波形区域对应的音频分片的标注，提高标注准确性。

综上，本实施例提供了更直观的音频切分方法，将待标注的音频文件数据转为可视化的音频波形，并输出到展示界面上，使得用户可以直接在可视化的波形上进行操作，替代了现有技术中记录时间戳和对应标签的方式，整合了音频文件和标注结果，提高了标注的操作性和针对性。

进一步而言，本实施例不同于现有技术中只能统一为所有音频设置分割参数，可以依据用户操作对音频波形进行切分，并可依据预标注文件数据中所包含的音频文件数据的预标注结果展示各个波形区域对应的初始标签信息，使得用户可以将每个音频的预处理结果和音频文件一起上传到存储单元，进而使得处理单元可以逐一读取音频文件和对应的结果文件，更具灵活性。由此可见本发明实施例提供的音频处理方法更具有针对性的预处理功能。

此外，本实施例提供更便捷的结果修改方法，使得用户可直接通过鼠标或快捷键方式与已切分片段进行交互，高效完成对区域位置、区域边界的调整。例如，为辅助用户操作，本实施例可以提供多种快捷键，如可以通过键盘P键控制音频的播放/暂停，并可通过鼠标滑轮控制波形的大小；又如可以通过数字键选取和聚焦特定顺序的区域，通过方向键移动区域/调整边界大小；以及可以通过双击某一区域，可循环播放该片段内容，方便审核员检查，省去手动调整进度条的操作，从而能够提高音频切分、标注的准确性和效率，满足日益增长的音频处理需求。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。

参照图6，示出了本发明实施例中的一种音频处理装置的结构框示意图，该音频处理装置具体可以包括如下模块：

音频文件获取模块610，用于获取待标注的音频文件数据；

音频波形展示模块620，用于依据所述音频文件数据在展示界面上输出对应的音频波形；

音频波形切分模块630，用于依据用户操作对所述音频波形进行切分处理，得到至少两个波形区域；

音频标注模块640，用于依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果。

在上述实施例的基础上，可选地，本实施例中的展示界面设置有波形工作区，音频波形展示模块620可以包括如下子模块：

转换子模块，用于将所述音频文件数据转为音频波形数据；

波形输出子模块，用于依据所述音频波形数据生成音频波形，并将所述音频波形输出到所述波形工作区。

在本发明的一个可选实施例中，音频波形切分模块630可以包括如下子模块：

操作位置确定子模块，用于在检测到用户操作时，确定所述用户操作的操作位置；

音频波形切分子模块，用于基于所述操作位置对所述音频波形进行切分，得到至少两个波形区域。

本发明实施例中，可选地，用户操作的操作位置包含操作起始位置和操作结束位置，所述音频波形切分子模块可以包括如下单元：

时间确定单元，用于分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间；

切分单元，用于基于所述音频起始时间和所述音频终止时间对所述音频波形进行切分，得到至少两个波形区域，所述至少两个波形区域包含所述新建波形区域。

在本发明的一个可选实施方式，时间确定单元可以包括如下子单元：

第一确定子单元，用于确定所述音频波形的波形总长度和波形总时长；

第二确定子单元，用于结合所述波形总长度和所述波形总时长，分别基于所述操作起始位置和所述操作结束位置确定所述音频起始时间和所述音频终止时间。

可选的，所述第二确定子单元具体用于基于所述波形总长度和所述波形工作区的边界起始位置，分别确定所述操作起始位置对应的音频起始位置和所述操作结束位置对应的音频终止位置；采用所述音频起始位置与所述波形总时长进行计算，得到所述音频起始时间；采用所述音频终止位置与所述波形总时长进行计算，得到所述音频终止时间。

可选的，在所述波形总长度小于所述波形工作区对应的工作区长度时，所述第二确定子单元具体用于获取所述波形工作区的边界起始位置；并依据所述边界起始位置、所述操作起始位置以及所述工作区长度进行计算，得到所述音频起始位置；以及，依据所述边界起始位置、所述操作结束位置以及所述工作区长度进行计算，得到所述音频终止位置。

可选的，第二确定子单元还用于将所述波形总长度与所述波形工作区对应的工作区长度进行比较，从而可以在在所述波形总长度大于或等于所述波形工作区对应的工作区长度时，获取获取所述音频波形的边缘滚出长度和所述波形工作区的边界起始位置；并依据所述边缘滚出长度、所述边界起始位置、所述操作起始位置以及所述波形总长度进行计算，得到所述音频起始位置；以及，依据所述边缘滚出长度、所述边界起始位置、所述操作结束位置以及所述波形总长度进行计算，得到所述音频终止位置。

可选的，音频波形切分子模块还可以包括操作模式确定单元。该操作模式确定单元用于确定所述音频波形对应的操作模式。例如，在时间确定单元分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间之前，操作模式确定单元可以确定所述音频波形对应的操作模式；若所述操作模式为区域新建模式，则可以触发时间确定单元执行所述分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间的步骤。

可选的，音频波形切分子模块还可以包括如下单元：

起始位置确定单元，用于在所述操作模式为区域调整模式时，确定所述操作起始位置是否在波形区域的边界；

边界移动单元，用于在所述操作起始位置在所述波形区域的边界时，依据所述用户操作的移动方向移动所述边界区域的边界，直到将所述边界区域的边界调整到所述操作结束位置；

区域移动单元，用于在所述操作起始位置不在波形区域的边界时，将所述操作起始位置所在波形区域确定为目标波形区域，并依据操作移动距离更新所述目标波形区域的音频起始时间和音频终止时间，其中，所述操作移动距离为依据所述操作起始位置和所述操作结束位置确定的距离。

可选的，区域移动单元可以包括如下子单元：

调整时间确定子单元，用于基于所述操作移动距离，结合所述音频波形的波形总长度和波形总时长，确定所述目标波形区域对应的调整时间；

时间更新子单元，用于基于所述调整时间，分别更新所述目标波形区域的音频起始时间和音频终止时间。

可选的，时间更新子单元，具体用于获取所述目标波形区域的初始音频起始时间和初始音频终止时间；并依据所述调整时间和所述初始音频起始时间，确定所述目标波形区域更新后的音频起始时间；以及，依据所述调整时间和所述初始音频终止时间，确定所述目标波形区域更新后的音频终止时间。

在一种实施方式中，所述时间更新子单元依据所述调整时间和所述初始音频起始时间，确定所述目标波形区域更新后的音频起始时间，具体可以包括：采用所述调整时间和所述初始音频起始时间确定出波形区域起始时间；若所述波形区域起始时间大于所述音频波形的起始时间，则将所述波形区域起始时间确定为所述目标波形区域更新后的音频起始时间；否则，将所述音频波形的起始时间确定为所述目标波形区域更新后的音频起始时间。

在一种实施方式中，所述时间更新子单元依据所述调整时间和所述初始音频终止时间，确定所述目标波形区域更新后的音频终止时间，具体可以包括：采用所述调整时间和所述初始音频终止时间确定出波形区域终止时间；若所述波形区域终止时间大于所述音频波形的终止时间，则将所述音频波形的终止时间确定为所述目标波形区域更新后的音频终止时间；否则，将所述波形区域终止时间确定为所述目标波形区域更新后的音频终止时间。

在上述实施例的基础上，可选的，本实施例中的波形区域对应的标签信息包含用户输入标签信息，所述音频标注模块640可以包括如下子模块：

标签信息获取子模块，用于针对每一个波形区域，获取用户输入标签信息；

标注子模块，用于依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注，得到所述波形区域的音频标注结果；

标注结果确定子模块，用于基于各个波形区域的音频标注结果确定所述音频文件数据的标注结果。

可选的，本实施例中的波形区域对应的标签信息还可以包含初始标签信息，上述音频处理装置还包括如下模块：

标注文件数据获取模块，用于获取预标注文件数据，所述预标注文件数据包含所述音频文件数据的预标注结果；

初始标签信息展示模块，用于依据所述预标注结果展示所述各个波形区域对应的初始标签信息。

其中，音频标注模块640还可以包括标签信息判断子模块。该标签信息判断子模块可以用于判断所述用户输入标签信息是否与所述初始标签信息相同；若所述用户输入标签信息与所述初始标签信息相同，则可以忽略所述用户输入标标签信息，否则可以触发标注子模块执行依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注的步骤。

例如，在标注子模块依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注之前，标签信息判断子模块可以判断所述标签信息获取子模块获取到的用户输入标签信息是否与初始标签信息相同；若所述用户输入标签信息与所述初始标签信息相同，则忽略所述用户输入标标签信息，否则执行依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注的步骤。

需要说明的是，上述提供的音频处理装置可执行本发明任意实施例所提供的音频处理方法，具备执行方法相应的功能和有益效果。

在具体实现中，上述音频处理装置可以集成在音频处理终端中。该音频处理终端可以是两个或多个物理实体构成，也可以是一个物理实体构成，如电子设备可以是个人计算机(Personal Computer，PC)、电脑、手机、平板设备、个人数字助理、服务器、游戏控制台等。

进一步的，本发明实施例还提供一种音频处理终端，包括：处理器和存储器。存储器中存储有至少一条指令，且指令由所述处理器执行，使得所述音频处理终端执行如上述方法实施例中所述的音频处理方法。具体的，本实施例中的处理器可以通过运行存储在存储器的软件程序、指令以及模块，从而执行音频处理终端的各种功能应用以及数据处理，即实现上述音频处理方法。例如，处理器执行存储器中存储的一个或多个程序时，具体实现如下操作：获取待标注的音频文件数据；依据所述音频文件数据在展示界面上输出对应的音频波形；依据用户操作对所述音频波形进行切分处理，得到至少两个波形区域；依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果。

本发明实施例还提供一种计算机可读存储介质，所述可读存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行如上述方法实施例所述的音频处理方法。示例性的，该音频处理方法包括：获取待标注的音频文件数据；依据所述音频文件数据在展示界面上输出对应的音频波形；依据用户操作对所述音频波形进行切分处理，得到至少两个波形区域；依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的音频处理方法。

值得注意的是，上述音频处理装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由权利要求范围决定。

Claims

1.一种音频处理方法，其特征在于，包括：

获取待标注的音频文件数据；

依据所述音频文件数据在展示界面上输出对应的音频波形；

依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果；

所述波形区域对应的标签信息包含用户输入标签信息；

所述波形区域对应的标签信息还包含初始标签信息，各个波形区域对应有相应的初始标签信息；

针对每一个波形区域，判断所述用户输入标签信息是否与该波形区域对应的初始标签信息相同；若所述用户输入标签信息与该波形区域对应的初始标签信息相同，则忽略所述用户输入标签信息，否则执行依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注的步骤。

2.根据权利要求1所述的音频处理方法，其特征在于，所述展示界面设置有波形工作区，所述依据所述音频文件数据在展示界面上输出对应的音频波形，包括：

将所述音频文件数据转为音频波形数据；

依据所述音频波形数据生成音频波形，并将所述音频波形输出到所述波形工作区。

3.根据权利要求2所述的音频处理方法，其特征在于，所述依据用户操作对所述音频波形进行切分处理，得到至少两个波形区域，包括：

在检测到用户操作时，确定所述用户操作的操作位置；

基于所述操作位置对所述音频波形进行切分，得到至少两个波形区域。

4.根据权利要求3所述的音频处理方法，其特征在于，所述操作位置包含操作起始位置和操作结束位置，所述基于所述操作位置对所述音频波形进行切分，得到至少两个波形区域，包括：

分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间；

基于所述音频起始时间和所述音频终止时间对所述音频波形进行切分，得到至少两个波形区域，所述至少两个波形区域包含所述新建波形区域。

5.根据权利要求4所述的音频处理方法，其特征在于，所述分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间，包括：

确定所述音频波形的波形总长度和波形总时长；

结合所述波形总长度和所述波形总时长，分别基于所述操作起始位置和所述操作结束位置确定所述音频起始时间和所述音频终止时间。

6.根据权利要求5所述的音频处理方法，其特征在于，所述结合所述波形总长度和所述波形总时长，分别基于所述操作起始位置和所述操作结束位置确定所述音频起始时间和所述音频终止时间，包括：

基于所述波形总长度和所述波形工作区的边界起始位置，分别确定所述操作起始位置对应的音频起始位置和所述操作结束位置对应的音频终止位置；

采用所述音频起始位置与所述波形总时长进行计算，得到所述音频起始时间；

采用所述音频终止位置与所述波形总时长进行计算，得到所述音频终止时间。

7.根据权利要求6所述的音频处理方法，其特征在于，所述基于所述波形总长度和所述波形工作区的边界起始位置，分别确定所述操作起始位置对应的音频起始位置和所述操作结束位置对应的音频终止位置，包括：

在所述波形总长度小于所述波形工作区对应的工作区长度时，获取所述波形工作区的边界起始位置；

依据所述边界起始位置、所述操作起始位置以及所述工作区长度进行计算，得到所述音频起始位置；

依据所述边界起始位置、所述操作结束位置以及所述工作区长度进行计算，得到所述音频终止位置。

8.根据权利要求6所述的音频处理方法，其特征在于，所述基于所述波形总长度和所述波形工作区的边界起始位置，分别确定所述操作起始位置对应的音频起始位置和所述操作结束位置对应的音频终止位置，包括：

将所述波形总长度与所述波形工作区对应的工作区长度进行比较；

在所述波形总长度大于或等于所述波形工作区对应的工作区长度时，获取所述音频波形的边缘滚出长度和所述波形工作区的边界起始位置；

依据所述边缘滚出长度、所述边界起始位置、所述操作起始位置以及所述波形总长度进行计算，得到所述音频起始位置；

依据所述边缘滚出长度、所述边界起始位置、所述操作结束位置以及所述波形总长度进行计算，得到所述音频终止位置。

9.根据权利要求4所述的音频处理方法，其特征在于，在分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间之前，还包括：

确定所述音频波形对应的操作模式；

若所述操作模式为区域新建模式，则执行所述分别依据所述操作起始位置和所述操作结束位置确定新建波形区域的音频起始时间和音频终止时间的步骤。

10.根据权利要求9所述的音频处理方法，其特征在于，还包括：

在所述操作模式为区域调整模式时，确定所述操作起始位置是否在波形区域的边界；

若所述操作起始位置在所述波形区域的边界，则依据所述用户操作的移动方向移动所述边界区域的边界，直到将所述边界区域的边界调整到所述操作结束位置；

若所述操作起始位置不在波形区域的边界，则将所述操作起始位置所在波形区域确定为目标波形区域，并依据操作移动距离更新所述目标波形区域的音频起始时间和音频终止时间，其中，所述操作移动距离为依据所述操作起始位置和所述操作结束位置确定的距离。

11.根据权利要求10所述的音频处理方法，其特征在于，所述依据操作移动距离更新所述目标波形区域的音频起始时间和音频终止时间，包括：

基于所述操作移动距离，结合所述音频波形的波形总长度和波形总时长，确定所述目标波形区域对应的调整时间；

基于所述调整时间，分别更新所述目标波形区域的音频起始时间和音频终止时间。

12.根据权利要求11所述的音频处理方法，其特征在于，基于所述调整时间，分别更新所述目标波形区域的音频起始时间和音频终止时间，包括：

获取所述目标波形区域的初始音频起始时间和初始音频终止时间；

依据所述调整时间和所述初始音频起始时间，确定所述目标波形区域更新后的音频起始时间；

依据所述调整时间和所述初始音频终止时间，确定所述目标波形区域更新后的音频终止时间。

13.根据权利要求12所述的音频处理方法，其特征在于，所述依据所述调整时间和所述初始音频起始时间，确定所述目标波形区域更新后的音频起始时间，包括：

采用所述调整时间和所述初始音频起始时间确定出波形区域起始时间；

若所述波形区域起始时间大于所述音频波形的起始时间，则将所述波形区域起始时间确定为所述目标波形区域更新后的音频起始时间；否则，将所述音频波形的起始时间确定为所述目标波形区域更新后的音频起始时间。

14.根据权利要求12所述的音频处理方法，其特征在于，所述依据所述调整时间和所述初始音频终止时间，确定所述目标波形区域更新后的音频终止时间，包括：

采用所述调整时间和所述初始音频终止时间确定出波形区域终止时间；

若所述波形区域终止时间大于所述音频波形的终止时间，则将所述音频波形的终止时间确定为所述目标波形区域更新后的音频终止时间；否则，将所述波形区域终止时间确定为所述目标波形区域更新后的音频终止时间。

15.一种音频处理装置，其特征在于，包括：

音频文件获取模块，用于获取待标注的音频文件数据；

音频标注模块，用于依据各个波形区域对应的标签信息，确定所述音频文件数据的标注结果；

所述波形区域对应的标签信息包含用户输入标签信息；

所述波形区域对应的标签信息还包含初始标签信息；

各个波形区域对应有相应的初始标签信息；

所述音频标注模块包括标签信息判断子模块；所述标签信息判断子模块用于针对每一个波形区域，判断所述用户输入标签信息是否与该波形区域对应的初始标签信息相同；若所述用户输入标签信息与该波形区域对应的初始标签信息相同，则忽略所述用户输入标签信息，否则执行依据所述用户输入标签信息对所述波形区域对应的音频分片进行标注的步骤。

16.一种音频处理终端，其特征在于，包括：处理器和存储器；

所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述音频处理终端执行如权利要求1至14任一所述的音频处理方法。

17.一种计算机可读存储介质，其特征在于，所述可读存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行如权利要求1至14任一所述的音频处理方法。