CN115116432A

CN115116432A - 音频文件标注方法、装置与电子设备

Info

Publication number: CN115116432A
Application number: CN202110285198.2A
Authority: CN
Inventors: 徐永生
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-09-27

Abstract

本公开提供一种音频文件标注方法、装置与电子设备。音频文件标注方法包括：响应音频标注工单生成指令，显示目标音频文件的音频波形图；响应对应于所述音频波形图的预设区域选择操作确定目标波形区域；展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项；响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件，所述标注文件包括一或多个目标波形区域对应的音频识别文本以及所述多个标注内容推荐项中的已选推荐项。本公开实施例可以提高音频文件的标注准确度和标注内容丰富程度。

Description

音频文件标注方法、装置与电子设备

技术领域

本公开涉及音频处理技术领域，具体而言，涉及一种音频文件标注方法、装置与电子设备。

背景技术

音频文件标注是指对音频文件中的内容进行识别，以供音频识别模型在后续训练过程中根据标注结果提高音频识别能力的技术。

相关技术中，通常使用自动化或人工的方式对音频文件进行标注。在使用自动化标注时，标注结果准确率通常不高，标注内容单薄，无法标注用户情绪、用户意向、发音质量、口音等人类很容易识别的内容。在使用人工标注时，通常需要标注人员在标注过程中对整个音频文件进行识别，音频文件时长较长时，由于人的注意力有限，标注准确率通常会下降；音频文件时长较短时，标注效率低。因此，需要一种能够同时提高标注准确率、标注内容丰富程度、标注效率的音频文件标注方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种音频文件标注方法、装置与电子设备，用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的音频文件标注过程中标注准确率不高、标注内容单薄或者标注效率低的问题。

根据本公开实施例的第一方面，提供一种音频文件标注方法，包括：响应音频标注工单生成指令，显示目标音频文件的音频波形图；响应对应于所述音频波形图的预设区域选择操作确定目标波形区域；展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项；响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件，所述标注文件包括一或多个目标波形区域对应的音频识别文本以及所述多个标注内容推荐项中的已选推荐项。

在本公开的一种示例性实施例中，所述展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项包括：

在与所述全部波形区域对应的标注内容输入框中展示与所述全部波形区域对应的音频识别文本，所述音频识别文本可被全部或部分地删除；

展示与所述音频波形图的预设属性对应的标注内容推荐项以供选择，所述标注内容推荐项的展示方式包括下拉菜单、选择框、选择按钮中的至少一种。

在本公开的一种示例性实施例中，所述目标波形区域包括待标注波形区域，所述待标注波形区域为所述音频波形图中的部分波形区域，所述响应对应于所述音频波形图的预设区域选择操作确定目标波形区域包括：

根据对应于所述音频波形图的预设区域截取操作流，确定所述待标注波形区域，所述预设区域截取操作流包括对应于所述音频波形图的以下操作流中的至少一种：

所述待标注波形区域的起始点点选操作、结束点点选操作以及截取确定操作；

所述待标注波形区域的起始点时间输入操作、结束点时间输入操作以及截取确定操作；

所述待标注波形区域的框选操作以及截取确定操作；

在音频波形图中使用起始点标识轴、结束点标识轴以及填充于所述起始点标识轴和所述结束点标识轴之间的预设颜色的半透明掩模覆盖所述待标注波形区域。

响应所述截取确定操作显示与所述待标注波形区域对应的标注内容输入框以及所述待标注波形区域的起始时间点和结束时间点；

在与所述待标注波形区域对应的标注内容输入框中展示与所述待标注波形区域对应的音频识别文本，所述音频识别文本可被全部或部分地删除；

响应与所述待标注波形区域对应的标注内容输入框对应的文本输入指令，获取已输入文本；

根据所述已输入文本展示输入词推荐项。

在本公开的一种示例性实施例中，所述预设区域截取操作流中还包括区域调整操作，所述区域调整操作包括：

响应标识轴移动指令或时间点输入指令在所述音频波形图上更新所述待标注波形区域的半透明掩模的当前覆盖区域，或者，响应对应于所述待标注波形区域的半透明掩模的拖拽指令获取所述半透明掩模被拖拽后的当前覆盖区域；

根据所述当前覆盖区域确定所述半透明掩模的起始点标识轴和结束点标识轴对应的时间点，调整所述待标注波形区域的起始点和结束点。

在本公开的一种示例性实施例中，所述响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件包括：

获取一或多个目标波形区域对应的音频识别文本以及已选推荐项；

根据一个所述目标波形区域的起始时间点、结束时间点、音频识别文本以及所述已选推荐项生成为一条标注记录；

根据所述一或多个目标波形区域对应的标注记录生成所述标注文件。

在本公开的一种示例性实施例中，所述响应对应于所述音频波形图的预设区域选择操作确定目标波形区域包括：

响应预设放大指令放大所述音频波形图，提高所述音频波形图的时间精度；

响应预设缩小指令缩小所述音频波形图，降低所述音频波形图的时间精度。

根据本公开实施例的第二方面，提供一种音频文件标注装置，包括：波形图展示模块，设置为响应音频标注工单生成指令，显示目标音频文件的音频波形图；标注区域确定模块，设置为响应对应于所述音频波形图的预设区域选择操作确定目标波形区域；标注工具展示模块，设置为展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项；标注文件生成模块，设置为响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件，所述标注文件包括一或多个目标波形区域对应的音频识别文本以及所述多个标注内容推荐项中的已选推荐项。

根据本公开的第三方面，提供一种电子设备，包括：存储器；以及耦合到所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上述任意一项所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上述任意一项所述的音频文件标注方法。

本公开实施例通过在音频标注过程中展示音频波形图，响应用户操作确定目标波形区域，自动展示目标波形区域对应的推荐标注内容，进而根据用户对推荐标注内容的修改或选择生成标注文件，可以对音频文件中的部分区域进行细化、详细、精准、有目的性的标注，从而使利用该标注文件的语音识别引擎能够更加方便、灵活、有针对性地提升语音识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开示例性实施例中音频文件标注方法的流程图。

图2是本公开实施例中音频波形图的示意图。

图3是本公开一个实施例中步骤S2的子流程图。

图4是本公开实施例中待标注波形区域的示意图。

图5是本公开另一个实施例中步骤S2的子流程图。

图6是本公开一个实施例中步骤S3的子流程图。

图7是对应于全部波形区域的标注工具的示意图。

图8是本公开另一个实施例中步骤S3的子流程图。

图9是对应于待标注波形区域的标注工具的示意图。

图10是本公开一个实施例中完整的标注界面的示意图。

图11是本公开一个实施例中步骤S4的子流程图。

图12是本公开实施例中的音频文件标注方法在整个音频标注作业过程中的位置示意图。

图13是本公开示例性实施例中一种音频文件标注装置的方框图。

图14是本公开示例性实施例中一种电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面结合附图对本公开示例实施方式进行详细说明。

图1是本公开示例性实施例中音频文件标注方法的流程图。

参考图1，音频文件标注方法100可以包括：

步骤S1，响应音频标注工单生成指令，显示目标音频文件的音频波形图；

步骤S2，响应对应于所述音频波形图的预设区域选择操作确定目标波形区域；

步骤S3，展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项；

步骤S4，响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件，所述标注文件包括一或多个目标波形区域对应的音频识别文本以及所述多个标注内容推荐项中的已选推荐项。

下面，对音频文件标注方法100的各步骤进行详细说明。

本公开实施例可以以前端框架jQuery、直译式脚本语言JavaScript、FTP(FileTransfer Protocol，文件传输协议)为基础，采用JavaWeb技术实现。

在步骤S1，响应音频标注工单生成指令，显示目标音频文件的音频波形图。

在本公开实施例中，目标音频文件的内容种类包括但不限于语音文件、环境录音文件、音乐文件、歌曲文件等音频文件，文件格式类型不限。

图2是本公开实施例中音频波形图的示意图。

参考图2，音频波形图例如为时域图，横坐标为时间，纵坐标为振幅。在其他实施例中，音频波形图也例如可以为其他波形图类型，本公开对此不作特殊限制。音频波形图中波形的展示方式包括但不限于平面展示、立体展示。

在目标音频文件的播放过程中，音频波形图中的波形的显示效果随目标音频文件的播放时间而变化，波形处于滚动或平移状态。可以使用进度标识符号21在音频波形图中标识当前播放位置，以便使标注人了解音频内容与音频波形图上各点的对应关系。进一步地，还可以随着播放进度，将当前播放的波形位置置于音频波形图显示区域的中央，使标注人能够随时了解音频波形图的当前播放位置。

在目标音频文件播放完毕后，可以静态展示音频波形图。在一个实施例中，当音频波形图较长时，可以在音频波形图的下方展示滑动条，以便使标注人能够通过滑动条调整当前展示的音频波形图区域。

在步骤S2，响应对应于所述音频波形图的预设区域选择操作确定目标波形区域。

在一个实施例中，标注人可以选择全部波形区域作为目标波形区域。此时可以响应标注人输入的预设全选指令，例如点击按钮或选择框，确定目标波形区域中的一个为全部波形区域。

在另一个实施例中，标注人也可以选择部分波形区域作为目标波形区域，一或多个部分波形区域形成一或多个目标波形区域，或者，一或多个部分波形区域与全部波形区域一起形成多个目标波形区域。

图3是本公开一个实施例中步骤S2的子流程图。

参考图3，在一个实施例中，目标波形区域包括待标注波形区域，所述待标注波形区域为所述音频波形图中的部分波形区域，步骤S2可以包括：

步骤S21，根据对应于所述音频波形图的预设区域截取操作流，确定所述待标注波形区域，所述预设区域截取操作流包括对应于所述音频波形图的以下操作流中的至少一种：所述待标注波形区域的起始点点选操作、结束点点选操作以及截取确定操作；所述待标注波形区域的起始点时间输入操作、结束点时间输入操作以及截取确定操作；所述待标注波形区域的框选操作以及截取确定操作；

步骤S22，在音频波形图中使用起始点标识轴、结束点标识轴以及填充于所述起始点标识轴和所述结束点标识轴之间的预设颜色的半透明掩模覆盖所述待标注波形区域。

图4是本公开实施例中待标注波形区域的示意图。

参考图4，在本公开实施例中，既可以通过点选音频波形图或框选音频波形图确定待标注波形区域41的边界(起始时间点和结束时间点)，也可以直接点击新建待标注波形区域按钮(未示出)，输入待标注波形区域的起始时间点和结束时间点。

在一些实施例中，为了提高波形标注精度，可以响应预设放大指令放大音频波形图，提高所述音频波形图的时间精度；或者，为了提高待标注波形区域的广度，也可以响应预设缩小指令缩小所述音频波形图，降低音频波形图的时间精度。预设放大指令和预设缩小指令例如可以通过鼠标滚轴的滚动来实现，或者通过调整滑动块、使用缩放手势或其他方式来实现，本公开对此不作特殊限制。通过放大或缩小音频波形图，可以有效提高标注区域的定位精度，或者扩大标注区域的范围。在一些实施例中，还可以设置音频波形图的时间精度根据音频时长自行变化，例如当音频时长超过第一预设值时，自动降低时间精度，或者当音频时长小于第二预设值时，自动提高时间精度等，本公开对此不作特殊限制。

在步骤S21，通过多种方式中的一种选择待标注音频区域后，需要使用截取确定操作固定待标注音频区域，该截取确定操作例如可以为点击“截取”按钮。选择待标注音频区域的方式除了上述的点选、框选、输入时间点外，还可以有其他方式，本领域技术人员可以根据实际需求自行设置。

在步骤S22，可以通过相同颜色标识不同的待标注波形区域的半透明掩模(即待标注波形区域41中显示的半透明效果)，也可以通过不同颜色标识不同的待标注波形区域的半透明掩模，本公开不以此为限。半透明掩模的透明度例如可以为大于50％，以便标注人能够透过该半透明掩模观察音频波形图。半透明掩模例如可以通过javascript实现。

在本公开的一个实施例中，还可以在选择待标注音频区域后、使用截取确定操作固定待标注音频区域之前，调整待标注音频区域的范围；或者，在使用截取确定操作固定待标注音频区域之后，调整待标注音频区域的范围。

图5是本公开另一个实施例中步骤S2的子流程图。

参考图5，在本公开的另一个实施例中，预设区域截取操作流中还包括区域调整操作，区域调整操作例如可以包括：

步骤S23，响应标识轴移动指令或时间点输入指令在所述音频波形图上更新所述待标注波形区域的半透明掩模的当前覆盖区域，或者，响应对应于所述待标注波形区域的半透明掩模的拖拽指令获取所述半透明掩模被拖拽后的当前覆盖区域；

步骤S24，根据所述当前覆盖区域确定所述半透明掩模的起始点标识轴和结束点标识轴对应的时间点，调整所述待标注波形区域的起始点和结束点。

在本公开实施例中，既可以通过调整半透明掩模的起始点标识轴和结束点标识轴来调整半透明掩模的覆盖区域，也可以通过将半透明掩模直接拖拽到其他波形区域实现半透明掩模覆盖位置的调整。直接拖拽半透明掩模后，同样可以调整半透明掩模的起始点标识轴和结束点标识轴来调整半透明掩模的覆盖区域，这期间可以放大或缩小音频波形图。

此外，还可以通过将半透明掩模复制粘贴到其他波形区域、复制并拖拽到其他波形区域等方式，实现待标注波形区域的快速新建，在新建一个待标注波形区域后，同样可以调整半透明掩模的起始点标识轴和结束点标识轴来调整半透明掩模的覆盖区域。

通过使用半透明掩模标识待标注波形区域、对半透明掩模进行操作以调整待标注波形区域，可以极大提高对待标注波形区域的定位效率，避免人工操作通常存在的效率低下的问题。

需要注意的是，在标注人确定待标注波形区域时，可以设置不同的待标注波形区域具有不重叠的内容，即在发现一个即将形成的待标注波形区域与已存在的待标注波形区域存在重合的时间范围时，可以拒绝形成在后的待标注波形区域，或者直接调整在后的待标注波形区域的时间范围以使其与已存在的待标注波形区域具有完全不重合的时间范围。

当操作半透明掩模来调整待标注波形区域的范围时，同样可以实时检测调整后的待标注波形区域是否与已存在的待标注波形区域存在重合的时间范围并进行调整。

在步骤S3，展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项。

图6是本公开一个实施例中步骤S3的子流程图。

参考图6，步骤S3可以包括：

步骤S31，在与所述全部波形区域对应的标注内容输入框中展示与所述全部波形区域对应的音频识别文本，所述音频识别文本可被全部或部分地删除；

步骤S32，展示与所述音频波形图的预设属性对应的标注内容推荐项以供选择，所述标注内容推荐项的展示方式包括下拉菜单、选择框、选择按钮中的至少一种。

图7是对应于全部波形区域的标注工具的示意图。

参考图7，在本公开一个实施例中，可以通过操作预设控件或输入预设指令来指定全部波形区域为一个目标波形区域。在另一个实施例中，也可以默认在该音频标注工单中，全部波形区域为一个目标波形区域。图7所示实施例适用于语言模型工单，即标注人判断该音频文件包括语音内容，使“语言模型工单”选项被设置为选中状态时。

当全部波形区域为一个目标波形区域时，可以在界面上展示全部波形区域对应的音频识别文本(语音识别结果)，以供标注人对该音频识别文本进行修改或确认；此外，还可以通过多种方式展示多个属性的标注内容推荐项，供标注人选择，以便实现对目标音频文件的多个属性的快速标注。在一个实施例中，多个属性至少可以包括音频质量(例如语音文件的发音质量)、特定音频的时间段或时间点、音频内容种类(背景音或语音)、语音文件的用户情绪、语音文件的用户意向等。图7所示实施例中的属性(音频质量、音频种类等)仅为示例，在本公开的其他实施例中，还可以设置更多其他需要标注的属性以及这些属性的标注内容推荐项，通过包括下拉菜单、选择框、选择按钮在内的多种选择方式，供标注人选择，以便快速获得多种属性的标注结果。

除了对目标音频文件的整体进行标注，本公开实施例还允许标注人对目标音频文件进行精细化的部分标注。

图8是本公开另一个实施例中步骤S3的子流程图。

参考图8，在另一个实施例中，步骤S3可以包括：

步骤S33，响应所述截取确定操作显示与所述待标注波形区域对应的标注内容输入框以及所述待标注波形区域的起始时间点和结束时间点；

步骤S34，在与所述待标注波形区域对应的标注内容输入框中展示与所述待标注波形区域对应的音频识别文本，所述音频识别文本可被全部或部分地删除；

步骤S35，响应与所述待标注波形区域对应的标注内容输入框对应的文本输入指令，获取已输入文本；

步骤S36，根据所述已输入文本展示输入词推荐项。

图9是对应于待标注波形区域的标注工具的示意图。

当标注人选择待标注波形区域后，将该待标注波形区域作为一个目标波形区域，展示对该目标波形区域的标注工具。参考图9，首先可以在界面上展示该待标注波形区域的起始时间点和结束时间点、标注内容输入框，在该标注内容输入框中展示该待标注波形区域对应的音频识别文本，以供标注人对该待标注波形区域的音频识别文本进行修改或确认。当标注人修改待标注波形区域时，在更新半透明掩模的覆盖范围的同时，还可以更新该音频识别文本。在一些实施例中，如果无法识别出待标注波形区域对应的音频识别文本，可以仅显示音频识别文本对应的标注内容输入框，以使标注人可以自行输入对该待标注波形区域的音频识别文本。当然，该标注内容输入框最后也可以为空，或者，标注人也可以不对自动生成的音频识别文本进行修改。

此外，当标注人在标注内容输入框中有所操作时，可以随时检查标注内容输入框中的已输入文本，并根据已输入文本显示输入词推荐项，以便使标注人可以通过点选该输入词推荐项而提高标注速度。在一些实施例中，可以仅检测已输入文本是否为某个专有名词的前一部分内容，进而将该专有名词作为输入词推荐项通过多种方式进行提示或显示，以提高标注速度和准确度。

由于不同地区往往存在不同的方言和不同的词汇，因此对输入内容(包括专有名词)的检测与推荐可以根据目标音频文件的来源确定，例如，对于来自于A地区的目标音频文件，检测且推荐的输入内容(包括专有名词)可以与来自于B地区的目标音频文件不同。

在图9所示实施例中，还可以设置在标注内容输入框后展示“英文字符插入框”等特殊字符插入工具框，以便于标注人输入外文字母或其他特殊字符。

待标注波形区域对应的标注工具(例如标注内容输入框以及特殊字符插入工具框)可以按照待标注波形区域对应的时间点的先后来排列，如图9所示。当标注人拖拽移动一个待标注波形区域对应的半透明掩模以重新定义待标注波形区域时，可以重新按照新确定的待标注波形区域对应的时间区域的先后，调整待标注波形区域对应的标注工具的展示顺序。

图9所示实施例中显示的待标注波形区域对应的标注工具(例如标注内容输入框以及特殊字符插入工具框)仅为示例，在其他实施例中，还可以通过其他形式展示待标注波形区域对应的标注工具，以提高标注速度。此外，本公开实施例中展示的每种标注工具均可以独立或自由组合而存在，标注工具(标注内容输入框以及标注内容推荐项)之间无需互相依赖而实现其功能。

图10是本公开一个实施例中完整的标注界面的示意图。

参考图10，标注界面1000可以包括音频波形图区域101、播放进度条21、待标注波形区域41、播放按钮102、待标注波形区域时间点展示区域103、待标注波形区域截取按钮104、工单类型选择区域105、全部波形区域对应的标注内容输入框106、发音质量选择区域107、录音分类选择区域108、语音识别结果判断区域109、与待标注波形区域对应的标注工具区域110、人工纠正内容汇总选择区域111、语义理解结果判断区域112、优化判断区域113、问题解决反馈区域114、标注结果处理按钮区域115等。

表1是图10所示实施例中语言模型工单对应的标注逻辑表。语言模型工单用于处理语音文件。

表1

参考表1，标注人可以通过选择标注内容推荐项来对目标音频文件标注文件类型(人声或其他声音)、发音质量、发音类型(称为录音分类)、语音判断、人工纠正内容等属性进行标注。

其中人声的发音质量属性的标注内容推荐项可以包括清晰、清晰含背景音、听不清等；发音类型属性的标注内容推荐项可以包括普通话、口音普通话、方言等；语音判断属性的标注内容推荐项可以包括正确、正确可优化、错误、无法确认等；人工纠正内容即对音频识别文本进行修改，标注人可以修改也可以不修改；人工纠正内容汇总可以包括系统自动带入识别文本或人工填写纠正内容等。

表1所示各表项为在前(在左)表项被选择时，各功能框的填写逻辑。例如，当标注人选择“发音质量”为清晰时，在“录音分类”下拉框中显示“普通话”、“口音普通话”、“方言”三个选项；当标注人选择“录音分类”为“普通话时”，“语音判断”下拉框中显示“正确”、“正确可优化”、“错误”三个选项；无论标注人选择哪个选项，在标注人提交标注结果时，如果发现此时“人工纠正内容”为空，则提示标注人填写该项，否则不进行下一步处理。如果标注人在“语音判断”下拉框中选择“正确”，则在图10所示的人工纠正内容汇总选择区域111区域自动显示各目标标注区域对应的识别文本，否则提示标注人填写该区域。当标注人选择“发音质量”为听不清时，其余选项均为不可操作状态。其他逻辑以此类推，参见表1，本申请于此不再赘述。

表2是本公开另一个实施例中声学模型工单对应的标注逻辑表。声学模型工单用于处理非语音文件，可以由标注人选取。

表2

参考表2，其他声音的发音质量(录音种类)属性的标注内容推荐项例如可以包括系统音和噪音，其中系统音可以包括按键音、忙音、TTS播报音，噪音可以包括无识别文本和有识别文本等；人工纠正内容包括必须插入且只能插入人工纠正字符、截取不可选两种情况；人工纠正内容汇总包括不允许填和空且不可填等两种情况。

表2对应的界面与图10所示实施例的语言模型工单相似，可选项较少(即表2中的可选项)，本公开不再示出。

标注人对图10所示的标注界面的操作可以包括：

1)选择进行语言模型优化或声学模型优化(语言模型用于对语音文件进行标注，声学模型适用于对非语音文件进行标注)；

2)对错误语音结果默认派发语言模型工单，派发声学模型工单需要手动勾选；

3)声波截取操作：

a)点击【播放】按钮，播放进度条启动，随时可以开始截取待标注音频区域，音频波形图可以通过鼠标滚轴放大/缩小；

c)用鼠标点选声波开始的位置(即开始时间点)，按住鼠标左键拖拽，拖至声波结束的位置松开鼠标(即结束时间点)，通过拖拽产生半透明掩模，从而确定待标注波形区域；若标注人发现录音截取不合适，可重新拖拽选取(标识线可左右调整)，只要不点击“截取”按钮，可重复操作，不限制次数。

在标注人截取待标注波形区域后，系统自动获取待标注波形区域的开始时间点和结束时间点并生成该待标注波形区域对应的标注工具，并自动循环播放截取的待标注波形区域的声波。其中待标注波形区域的截取顺序不能重叠和颠倒，第一段待标注波形区域截取后，再截取第二段待标注波形区域时，不可重复截取第一段待标注波形区域范围内的波形图，系统根据第一段待标注波形区域的开始时间点和结束时间点自行判断。

其中，标注人在手动勾选【声学模型工单】后，页面中至少要截取一段待标注波形区域。可以设置标注人不点击页面“截取”按钮，不能进行下一步标注操作；标注人每点击一次“截取”按钮，则新增一条“人工纠正输入框”，系统自动生成“人工纠正输入框”前面的开始时间点和结束时间点。每条人工纠正框后面都跟着新增一个【专有名词】选择和【英文字符插入】，【专有名词】要根据标注数据分省权限关联展示，例如河北的标注人员仅能看到河北自己的专有名词。标注人点击【截取】按钮之后，切割刀片(标识轴)不可以再挪动，如需调整，点击人工纠正框后面的【×】，重新选择波形切割即可。

派单逻辑可以默认勾选【语言模型工单】，此时无需对音频波形图进行拖拽切割，【截取】按钮置灰，不显示切割开始和结束时间，不显示单条人工纠正框，人工纠正内容填写在【人工纠正内容汇总】框内，标注页面内，“语音识别结果”默认选为正确、“语义理解结果”默认选为正确、“智能语音导航是否解决问题”默认选为已解决，如需其它选项，自行手动勾选。

图11是本公开一个实施例中步骤S4的子流程图。

参考图11，在一个实施例中，步骤S4可以包括：

步骤S41，获取一或多个目标波形区域对应的音频识别文本以及已选推荐项；

步骤S42，根据一个所述目标波形区域的起始时间点、结束时间点、音频识别文本以及所述已选推荐项生成为一条标注记录；

步骤S43，根据所述一或多个目标波形区域对应的标注记录生成所述标注文件。

当标注人通过上述实施例提供的标注工具完成快速且准确的标注后，可以获取每个目标波形区域对应的信息，这些信息可以包括音频识别文本以及每个属性的已选推荐项。当目标波形区域既包括全部波形区域，又包括标注人选择的待标注波形区域时，可以首先获取全部波形区域对应的标注信息，生成一条标注记录，然后按照待标注区域对应的时间先后顺次生成不同待标注区域的标注记录。

对于一个类型为语音文件的目标音频文件中，无论包括几段待标注波形区域，均可以将每段待标注波形区域对应的音频识别文字拼接在一起。例如标注内容输入框有三个，在生成的标注文件中，人工纠正字段下内容应该是合并这三个标注内容输入框中的音频识别文字，同时剔除插入的英文字符及其他内容。

参考图12，本公开实施例提供的方法可以应用在对语音识别引擎的训练过程中。

在步骤S121，从语音识别引擎提供方获取多组目标音频文件以及语音识别引擎对该目标音频文件的识别结果；

在步骤S122，为标注人播放一条目标音频文件以及语音识别引擎对该目标音频文件的识别结果；

在步骤S123，标注人判断该目标音频文件的识别结果是否正确，如果正确，返回步骤S122处理下一个目标音频文件，如果不正确，进入步骤S124；

在步骤S124，标注人选择该目标音频文件的标注类型为声学模型或语言模型；

在步骤S125，根据标注人选择的标注类型展示目标音频文件的波形图以及标注工具；

在步骤S126，执行方法100以生成标注文件；

在步骤S127，将标注文件与目标音频文件一同打包发送给语音识别引擎提供方。

本公开实施例为了有效提高语音识别引擎的识别准确率，将目标音频文件以波形图的形式加以展现，使标注人可以根据自身需要通过对音频波形图拖拽、选择等方式进行详细标注，标注包括时间、内容、机器识别结果信息、人工识别结果信息、用户情绪、用户意向在内的多种属性的内容。标注人可以通过波形图的形状展示略过无意义音频段，直接对需要优化的音频进行标注，缩短标注时间，提高工作效率；可以精确把控需要优化音频的时间范围，所选择音频的开始、结束时间可以精确到毫秒级别，使每个语料更加优质、饱满，使语音识别引擎精准；可以多维度对音频进行标注，维度除了发音质量、录音分类、派单类型、语音识别是否正确、机器识别结果、人工识别结果、用户情绪等，还可以自行添加其他标注维度。

对应于上述方法实施例，本公开还提供一种音频文件标注装置，可以用于执行上述方法实施例。

参考图13，音频文件标注装置1300可以包括：

波形图展示模块131，设置为响应音频标注工单生成指令，显示目标音频文件的音频波形图；

标注区域确定模块132，设置为响应对应于所述音频波形图的预设区域选择操作确定目标波形区域；

标注工具展示模块133，设置为展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项；

标注文件生成模块134，设置为响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件，所述标注文件包括一或多个目标波形区域对应的音频识别文本以及所述多个标注内容推荐项中的已选推荐项。

在本公开的一种示例性实施例中，标注工具展示模块133设置为：在与所述全部波形区域对应的标注内容输入框中展示与所述全部波形区域对应的音频识别文本，所述音频识别文本可被全部或部分地删除；展示与所述音频波形图的预设属性对应的标注内容推荐项以供选择，所述标注内容推荐项的展示方式包括下拉菜单、选择框、选择按钮中的至少一种。

在本公开的一种示例性实施例中，标注区域确定模块132设置为：根据对应于所述音频波形图的预设区域截取操作流，确定所述待标注波形区域，所述待标注波形区域为所述音频波形图中的部分波形区域，所述预设区域截取操作流包括对应于所述音频波形图的以下操作流中的至少一种：所述待标注波形区域的起始点点选操作、结束点点选操作以及截取确定操作；所述待标注波形区域的起始点时间输入操作、结束点时间输入操作以及截取确定操作；所述待标注波形区域的框选操作以及截取确定操作；在音频波形图中使用起始点标识轴、结束点标识轴以及填充于所述起始点标识轴和所述结束点标识轴之间的预设颜色的半透明掩模覆盖所述待标注波形区域。

在本公开的一种示例性实施例中，标注工具展示模块133设置为：响应所述截取确定操作显示与所述待标注波形区域对应的标注内容输入框以及所述待标注波形区域的起始时间点和结束时间点；在与所述待标注波形区域对应的标注内容输入框中展示与所述待标注波形区域对应的音频识别文本，所述音频识别文本可被全部或部分地删除；响应与所述待标注波形区域对应的标注内容输入框对应的文本输入指令，获取已输入文本；根据所述已输入文本展示输入词推荐项。

在本公开的一种示例性实施例中，标注区域确定模块132设置为：响应标识轴移动指令或时间点输入指令在所述音频波形图上更新所述待标注波形区域的半透明掩模的当前覆盖区域，或者，响应对应于所述待标注波形区域的半透明掩模的拖拽指令获取所述半透明掩模被拖拽后的当前覆盖区域；根据所述当前覆盖区域确定所述半透明掩模的起始点标识轴和结束点标识轴对应的时间点，调整所述待标注波形区域的起始点和结束点。

在本公开的一种示例性实施例中，标注文件生成模块134设置为：获取一或多个目标波形区域对应的音频识别文本以及已选推荐项；根据所述目标波形区域的起始时间点、结束时间点、音频识别文本以及所述已选推荐项生成为一条标注记录；根据所述一或多个目标波形区域对应标注记录生成所述标注文件。

在本公开的一种示例性实施例中，波形图展示模块131设置为：响应预设放大指令放大所述音频波形图，提高所述音频波形图的时间精度；响应预设缩小指令缩小所述音频波形图，降低所述音频波形图的时间精度。

由于装置1300的各功能已在其对应的方法实施例中予以详细说明，本公开于此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图14来描述根据本发明的这种实施方式的电子设备1400。图14显示的电子设备1400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于：上述至少一个处理单元1410、上述至少一个存储单元1420、连接不同系统组件(包括存储单元1420和处理单元1410)的总线1430。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1410执行，使得所述处理单元1410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1410可以执行如本公开实施例所示的方法。

存储单元1420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)14201和/或高速缓存存储单元14202，还可以进一步包括只读存储单元(ROM)14203。

存储单元1420还可以包括具有一组(至少一个)程序模块14205的程序/实用工具14204，这样的程序模块14205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1400也可以与一个或多个外部设备1600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1400交互的设备通信，和/或与使得该电子设备1400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1450进行。并且，电子设备1400还可以通过网络适配器1460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1460通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和构思由权利要求指出。

Claims

1.一种音频文件标注方法，其特征在于，包括：

响应音频标注工单生成指令，显示目标音频文件的音频波形图；

响应对应于所述音频波形图的预设区域选择操作确定目标波形区域；

展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项；

响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件，所述标注文件包括一或多个目标波形区域对应的音频识别文本以及所述多个标注内容推荐项中的已选推荐项。

2.如权利要求1所述的音频文件标注方法，其特征在于，所述展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项包括：

3.如权利要求1或2所述的音频文件标注方法，其特征在于，所述目标波形区域包括待标注波形区域，所述待标注波形区域为所述音频波形图中的部分波形区域，所述响应对应于所述音频波形图的预设区域选择操作确定目标波形区域包括：

所述待标注波形区域的框选操作以及截取确定操作；

4.如权利要求3所述的音频文件标注方法，其特征在于，所述展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项包括：

根据所述已输入文本展示输入词推荐项。

5.如权利要求3所述的音频文件标注方法，其特征在于，所述预设区域截取操作流中还包括区域调整操作，所述区域调整操作包括：

6.如权利要求1所述的音频文件标注方法，其特征在于，所述响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件包括：

7.如权利要求1所述的音频文件标注方法，其特征在于，所述响应对应于所述音频波形图的预设区域选择操作确定目标波形区域包括：

8.一种音频文件标注装置，其特征在于，包括：

波形图展示模块，设置为响应音频标注工单生成指令，显示目标音频文件的音频波形图；

标注区域确定模块，设置为响应对应于所述音频波形图的预设区域选择操作确定目标波形区域；

标注工具展示模块，设置为展示与所述目标波形区域对应的可被修改的音频识别文本和可被选择的多个标注内容推荐项；

标注文件生成模块，设置为响应对应于所述目标音频文件的标注完成指令生成所述目标音频文件的标注文件，所述标注文件包括一或多个目标波形区域对应的音频识别文本以及所述多个标注内容推荐项中的已选推荐项。

9.一种电子设备，其特征在于，包括：

存储器；以及

耦合到所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-7任一项所述的音频文件标注方法。

10.一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如权利要求1-7任一项所述的音频文件标注方法。