CN115862606A

CN115862606A - 一种语音标注方法、装置、设备及介质

Info

Publication number: CN115862606A
Application number: CN202211513758.6A
Authority: CN
Inventors: 鲜英; 杜新凯; 陆昕; 刘凯; 冉玥; 耿春云; 宁荣荣; 唐延欢
Original assignee: Sunshine Insurance Group Co Ltd
Current assignee: Sunshine Insurance Group Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-28

Abstract

本申请公开了一种语音标注方法、设备及介质，应用于语音识别技术领域，用以解决现有技术中存在的语音数据的传统人工标注方法的效率低、质量较差的问题。具体为：获取待识别的语音数据；将待识别的语音数据中满足语音质量要求的语音数据作为目标语音数据输入语音识别模型得到文本数据；按照语音标注规则对文本数据中不满足无效判定条件的数据进行标注得到初始标注数据；确定初始标注数据符合标注质量要求时，将初始标注数据确定为目标标注数据。这样，利用语音识别模型减少对人工的依赖，通过语音质量要求和无效判定条件的筛选可以较少对无效数据的处理，提高标注效率，标注人员仅基于标注质量要求核验初始标注数据也可以提高标注效率和标注质量。

Description

一种语音标注方法、装置、设备及介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音标注方法、装置、设备及介质。

背景技术

随着各种智能产品的日益普及，及人工智能技术的发展，语音识别作为人机交互系统的重要环节，广泛应用于各种智能产品上。在语音识别的研究过程中，对语音数据进行加工和标注是帮助计算机算法模型学习相关经验的一种重要过程，也是建立有效声学模型和语言模型的必要条件。大量、准确且全面的语音数据的标注数据支撑算法模型的构建，同时决定着语音识别模型准确率的上限。

目前，语音数据的标注主要是通过传统人工标注方法实现的，即由专职标注员或者专家利用常见的离线软件等标注工具手动完成语音数据的标注，这种传统人工标注方法的标注效率与标注员的熟练程度有关，大量语音数据的标注易产生视觉和听觉上的疲劳，导致整体的标注效率较低；并且，这种传统人工标注方法容易因标注人员主观性错误或者视觉和听觉上的疲劳产生标注错误，并且验收或质检过程也是由人工完成，使得标注错误无法避免，标注质量较差。

发明内容

本申请实施例提供了一种语音标注方法、装置、设备及介质，用以解决现有技术存在的语音数据的传统人工标注方法的效率低、质量较差的问题。

本申请实施例提供的技术方案如下：

一方面，本申请实施例提供了一种语音标注方法，包括：

获取待识别的语音数据；

将待识别的语音数据中满足语音质量要求的语音数据作为目标语音数据；

将目标语音数据输入至语音识别模型得到目标语音数据的文本数据；

按照语音标注规则对文本数据中不满足无效判定条件的数据进行标注得到目标语音数据的初始标注数据；

确定初始标注数据符合标注质量要求时，将初始标注数据确定为目标语音数据的目标标注数据。

另一方面，本申请实施例提供了一种语音标注装置，包括：

语音获取单元，用于获取待识别的语音数据；

语音处理单元，用于将待识别的语音数据中满足语音质量要求的语音数据作为目标语音数据；

语音识别单元，用于将目标语音数据输入至语音识别模型得到目标语音数据的文本数据；

初始标注单元，用于按照语音标注规则对文本数据中不满足无效判定条件的数据进行标注得到目标语音数据的初始标注数据；

结果确定单元，用于确定初始标注数据符合标注质量要求时，将初始标注数据确定为目标语音数据的目标标注数据。

另一方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本申请实施例提供的语音标注方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本申请实施例提供的语音标注方法。

本申请实施例的有益效果如下：

本申请实施例中，通过利用语音识别模型减少语音标注过程中对人工的依赖，基于语音质量要求对待识别的语音数据进行筛选可以避免语音识别模型进行无效的识别，基于无效判定条件对语音识别模型输出的文本数据进行筛选可以避免对无效文本数据标注，通过这两次筛选可以避免对无效数据的处理，从而提高语音标注的效率，并且，标注人员仅基于标注质量要求对初始标注数据进行核验，进一步提高了语音标注效率的同时，通过核验可提升语音标注的质量。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地可以从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中语音标注方法的总体框架示意图；

图2为本申请实施例中对语音数据进行语音截幅筛选的示意图；

图3为本申请实施例中不符合语音平均能量要求的语音数据图；

图4为本申请实施例中不符合语音丢包率要求的语音数据图；

图5为本申请实施例中插件工具的文本数据显示界面图；

图6为本申请实施例中语音识别模型优化训练的概况流程示意图；

图7为本申请实施例中模型优化主要环节的示意图；

图8为本申请实施例中语音标注装置设备的硬件结构示意图；

图9为本申请实施例中电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于本领域技术人员更好地理解本申请，下面先对本申请涉及的技术用语进行简单介绍。

语音质量要求，包括语音截幅要求、语音平均能量要求、语音丢包率要求，其中，语音截幅要求是指语音数据的采样值不可以超过语音数据采样值所能表示的最大范围，语音平均能量要求是指将语音数据的采样值的平均值进行量化得到的量化值大于最低量化值，语音丢包率要求是指语音数据的丢包率小于预设的语音丢包率。

语音标注规则，是语音背景音、文字信息、叠字、笑声、空白与标注的文字或符号的对应关系。

无效判定条件，包括与语音数据的业务场景对应的高频话术、与语音数据的业务场景对应的无效话术和与语音数据的业务类型对应的无效角色。

标注质量要求，指标注人员根据所听到的标注任务中的初始标注数据对应的语音确定的文字信息与初始标注数据中的文字信息一致。

数据标注需求，包括标注的数据量和标注的时间周期，其中，标注的数据量是指从数据库中抽取的语音数据的时长和数量，标注的时间周期是指预期的语音标注所耗费的时长。

在介绍了本申请涉及的技术用语后，接下来，对本申请实施例提供的技术方案进行详细说明。

本申请实施例提供了一种语音标注方法，参阅图1所示，本申请实施例提供的语音标注方法的概况流程如下：

步骤101：获取待识别的语音数据。

实际应用中，待识别的语音数据可以是基于预设的业务类型和业务场景从数据库中抽取得到的，也可以是直接从智能客服的语音通话中获取的，还可以是语音质检系统发送的。

在具体实施时，在电子设备获取待识别的语音数据，可以采用但不限于以下方式：

步骤1：确定语音识别模型针对业务类型在业务场景下的语音数据进行语音识别的准确率。

实际应用中，语音识别模型在完成某一业务类型在某一业务场景下的语音识别后会相应记录模型针对业务类型在业务场景下进行语音识别的准确率。在获取待识别的语音数据前，电子设备需要确定语音识别模型针对业务类型在业务场景下的语音数据进行语音识别的准确率，并根据准确率的不同，在获取待识别的语音数据时进行适应性调整，其中，业务类型主要包括语音质检、采用智能客服的语音服务等类型；业务场景可以包括长语音和短语音。

步骤2：基于准确率确定业务场景对应的数据标注需求。

实际应用中，数据标注需求包括标注的数据量和标注的时间周期，其中，标注的数据量是指从数据库中抽取的语音数据的时长和数量，标注的时间周期是指预期的语音标注所耗费的时长。准确率的不同对应着不同的数据标注需求。在准确率较低的情况下，可以选择增加数据标注需求中标注的数据量，增加数据标注需求中标注的时间周期；在准确率较高的情况下，可以选择减少数据标注需求中标注的数据量，缩短数据标注需求中标注的时间周期。

步骤3：按照数据标注需求从语音数据库中抽取语音数据作为待识别的语音数据。

实际应用中，根据数据标注需求所包括的标注的数据量和标注的时间周期，从语音数据库中按照预设的抽取方式抽取与预设的业务类型和预设的业务场景相应的语音数据作为待识别的语音数据。其中，抽取方式可以是按照时间顺序抽取、按照语音数据在数据库中的排列顺序抽取。抽取得到的待识别的语音数据是与预设业务类型一致的，可以反应预设业务类型在预设场景实际情况的语音数据。这样，通过基于语音识别模型针对业务类型在业务场景下的语音数据进行语音识别的准确率确定的数据标注需求从数据库中抽取数据，可以使语音标注更有针对性，针对准确率较高的情况，可以减少数据标注需求中标注的数据量，缩短数据标注需求中标注的时间周期，这样可以在保证标注质量的同时进一步提高标注效率；针对准确率较低的情况，可以增加数据标注需求中标注的数据量，增加数据标注需求中标注的时间周期，进一步保证标注质量。

步骤102：将待识别的语音数据中满足语音质量要求的语音数据作为目标语音数据。

实际应用中，待识别的语音数据中包括质量较差的语音数据，这种质量较差的语音数据即使输入至语音识别模型也无法被识别，基于语音质量要求对待识别的语音数据进行语音质量筛选可以得到其中满足语音质量要求的语音数据，并将该语音数据作为目标语音数据。基于包括语音截幅要求、语音平均能量要求、语音丢包率要求的语音质量要求对待识别的语音数据进行的语音质量筛选主要分为语音截幅筛选、语音平均能量筛选和语音丢包率筛选。这样，通过保留语音质量要求的语音数据，而删除不满足语音质量要求的语音数据，可以减轻语音识别模型的数据处理压力，避免对无效数据的处理，进一步提升语音标注效率。

具体实施时，针对待识别的语音数据，进行语音截幅筛选的示意图如图2所示，语音截幅要求是指语音数据的采样值不可以超过语音数据采样值所能表示的最大范围。语音截幅筛选即保留语音数据中采样值不超过语音数据的采样值所能表示的最大范围的语音数据。具体的，可以基于语音数据中每个采样点的采样值，判断语音数据中是否存在采样值超出语音数据的采样值所能表示的最大范围的采样点，若存在，则删除语音数据中与该采样点对应的语音数据，保留采样值未超过语音数据的采样值所能表示的最大范围的采样点对应的语音数据。例如，在图2中，将语音数据的采样值所能表示的最大范围设置为(-1.0,1.0)，将采样值超出(-1.0,1.0)范围的采样点对应的语音数据删除，将采样值在(-1.0,1.0)范围内的采样点对应的语音数据保留。

具体实施时，语音平均能量要求是指将语音数据的采样值的平均值进行量化得到的量化值大于最低量化值。语音平均能量筛选即保留语音数据中量化值大于最低量化值的语音数据。具体的，量化过程为：首先，分别累加语音数据中每个采样点的采样值得到累加结果，将累加结果除以语音数据中采样点的个数，得到语音数据的平均能量值。然后，将语音数据的将平均能量值做0--32767之间的等比量化，得到1-100的量化值。一般情况下，人说话的语音数据对应的量化值基本在0-35之间，很难达到50以上，通过语音平均能量筛选可以删除掉量化值小于1的语音数据，这样，经语音平均能量筛选后的语音数据大致分布在1-35这个区域。语音平均能量小于1的语音数据，即不符合语音平均能量要求的语音数据如图3所示。

具体的，针对待识别的语音数据的语音丢包率筛选示意图如图4所示，语音丢包率要求是指语音数据的丢包率小于预设的语音丢包率，其中，语音丢包率是指语音数据中为零的采样值占总采样值的比率_。语音丢包率筛选即保留语音数据中丢包率小于预设的语音丢包率的语音数据。丢包率大于预设的语音丢包率的语音数据，即不符合语音丢包率要求的语音数据如图4所示。

进一步的，在将待识别的语音数据中满足语音质量要求的语音数据作为目标语音数据之前，还可以对待识别的语音数据进行格式转换，具体可以通过以下方式实现：

对待识别的语音数据中不满足语音格式要求的语音数据进行格式转换。

实际应用中，基于语音格式要求可以对待识别的语音数据进行判断，将满足语音格式要求的待识别的语音数据进行下一步的语音质量要求的判断，将不满足语音格式要求的待识别的语音数据进行格式转换，其中，语音格式要求可以包括声道要求、采样位数要求、采样频率要求、编码格式要求和扩展名要求，例如，可以将语音格式要求设置为单声道、采样位数16位、采样频率8000HZ、编码格式为PCM(Pulse Code Modulation,脉冲编码调制)、扩展名为.wav，如果不符合该语音格式要求，则可以使用ffmpeg等工具对待识别的语音数据进行转码处理。

步骤103：将目标语音数据输入至语音识别模型得到目标语音数据的文本数据。

实际应用中，语音识别模型可以基于输入目标语音数据，识别目标语音数据得到与目标语音数据对应的多个文字信息和该多个文字信息在该目标语音数据中的起止时间，并将与目标语音数据对应的多个文字信息和该多个文字信息在该目标语音数据中的起止时间作为目标语音数据的文本数据输出。语音识别模型识别出的目标语音数据中的多个文字信息是经过断句和分词处理的，断句处理是指将识别出的文字信息按句划分，分词处理是指将识别出的文字信息中的词语进行划分。

步骤104：按照语音标注规则对文本数据中不满足无效判定条件的数据进行标注得到目标语音数据的初始标注数据。

实际应用中，根据无效判定条件对文本数据进行筛选，得到满足无效判定条件的文本数据和不满足无效判定条件的文本数据。针对不满足无效判定条件的文本数据，按照语音标注规则标注得到初始的标注数据，其中，语音标注规则主要是语音背景音、文字信息、叠字、笑声、空白与标注的文字或符号的对应关系；无效判定条件包括与语音数据的业务场景对应的高频话术、与语音数据的业务场景对应的无效话术和与语音数据的业务类型对应的无效角色。通过无效判定条件对文本数据进行筛选，可以减少按照语音标注规则标注的工作量，避免对无效数据的处理，从而提升语音标注的效率。

具体实施时，按照语音标注规则对文本数据中不满足无效判定条件的数据进行标注得到语音数据的初始标注数据，可以采用但不限于以下方式：

步骤1：基于目标语音数据的业务场景，确定文本数据中的高频话术数据和无效话术数据。

实际应用中，语音数据的业务场景不同对应的高频话术数据和无效话术数据也不同，其中，高频话术是指在该业务场景中多次出现的话术，例如，在语音导航场景中存在的“您拨打的用户正在通话中”,“您拨叫的用户正在通话中”，“请不要挂机”，“呼叫保持”，“我现在无法接听您的电话”等电信提示音，无效话术包括应用场景下的固定话术数据和识别较好无需再标注的数据，例如业务场景中“人工服务”，“转按键”。

步骤2：基于目标语音数据的业务类型，确定文本数据中的无效角色对应的无效角色文本数据。

实际应用中，语音数据的业务类型相应的对应着无效角色，例如针对语音质检的业务类型，客服人员为有效角色，客户为无效角色，在某些场景中，客户为有效角色，客服人员为无效角色。除此以外，针对长语音中的两个角色，也可以将其中一个角色设置为有效角色，另一个角色设置为无效角色。

步骤3：将文本数据中除高频话术数据、无效话术数据和无效角色文本数据之外的数据进行格式转换得到标注文件格式的文本数据。

实际应用中，由于语音识别模型输出的目标语音数据的文本数据的格式为XML格式，需要将文本数据中除高频话术数据、无效话术数据和无效角色文本数据之外的数据的格式转换为标注文件格式，即textgrid，以便后续的处理。

步骤4：按照语音标注规则对标注文件格式的文本数据进行标注得到目标语音数据的初始标注数据。

实际应用中，在得到标注文件格式的文本数据后，可以通过插件工具将标注文件格式的文本数据显示，具体如图5所示，插件工具中显示目标语音数据，并将语音识别模型识别出的与目标语音数据一一对应的文字信息标注于相应的界面中，并且，插件工具还基于语音标注规则将叠字和空白标注为相应的符号，以得到目标语音数据的初始标注数据。

步骤105：确定初始标注数据符合标注质量要求时，将初始标注数据确定为目标语音数据的目标标注数据。

实际应用中，在得到目标语音数据的初始标注数据后，可以基于目标语音数据的初始标注数据生成标注任务并发送至不同标注人员，标注人员基于，使用插件工具播放与接收到的标注任务中的初始标注数据对应的语音，从而确定目标语音数据中语音背景音和笑声，并基于语音标注规则将语音背景音和笑声对应的符号通过插件工具标注至界面的对应位置，与此同时，标注人员还会基于标注质量要求对初始标注数据进行人工核验，其中，标注质量要求是指标注人员根据所听到的标注任务中的初始标注数据对应的语音确定的文字信息与初始标注数据中的文字信息一致。在确定初始标注数据符合标注质量要求时，则可以将初始标注数据确定为目标语音数据的目标标注数据。值的说的是，为了确保语音标注的质量，在标注人员基于标注质量要求对初始标注数据进行核验后，还可以通过其他标注人员基于标注质量要求对初始标注数据进行二次人工核验。

进一步的，在按照语音标注规则对文本数据中不满足无效判定条件的数据进行标注得到语音数据的初始标注数据之后，还需要对不符合标注质量要求的初始标注数据进行返修，具体可以通过以下方式实现：

确定初始标注数据不符合标注质量要求时，基于目标语音数据的初始标注数据生成标注返修任务并进行任务分发，以通过分发标注返修任务对目标语音数据的初始标注数据进行返修，直至目标语音数据的返修标注数据符合标注质量要求时，将目标语音数据的返修标注数据确定为目标语音数据的目标标注数据。

实际应用中，在确定初始标注数据不符合标注质量要求时，可以基于语音数据的初始标注数据生成标注返修任务，将标注返修任务分发以对目标语音数据的初始标注数据进行返修，该任务可以分发至标注人员，以使标注人员使用插件工具播放与接收到的标注返修任务中的初始标注数据对应的语音，并根据听到的语音修改初始标注数据得到返修标注数据。得到返修标注数据后判断返修标注数据是否符合标注质量要求，若符合，则将该返修标注数据确定为目标语音数据的目标标注数据；若不符合，则再次生成标注返修任务并分发。

在具体实施时，针对一通时长为319秒的录音，按照语音标注规则采用传统人工标注方法进行语音标注需要将319秒的录音划分为130多个小分段，标注耗时2.5小时，而其中的有效语音时长为3分钟左右，若采用本实施例提出的语音标注方法进行标注这条319秒的录音，标注耗时为1.2小时左右，可以有效地能减少一半以上的标注时长。针对不同的应用场景，本实施例提出的语音标注方法与传统人工标注方法的语音标注效率如表1所示。

表1

在表1中的语音标注效率是指标注1个有效小时(有效小时是指纯文本所对应的有效时长，不包括非文字时长)所需要的平均标注时长。从表1中可以看出本实施例提出的语音标注方法可以有效地缩短标注1个有效小时的平均标注时长，提升语音标注效率，针对不同的应用场景，语音标注效率有不同幅度的提升，长、短语音标注效率分别提升了63％、66％，两者平均提升近64％。

进一步的，在确定语音数据的目标标注数据之后，还可以保存目标标注数据，具体可以通过以下方式实现：

首先，按照目标标注数据对应的业务类型和业务场景为目标标注数据添加标识；

然后，将已添加标识的目标标注数据和与目标标注数据对应的目标语音数据对应保存于数据库中。

实际应用中，在确定目标标注数据后，可以根据目标标注数据对应的业务类型和业务场景为其赋予相应的标识，还可以在标识中添加与目标标注数据的确定时间和标注耗时对应的标识信息。将已添加标识的目标标注数据和该目标标注数据对应的目标语音数据作为一个数据组包对应保存于数据库中。

在一个可能的实施方式中，由于数据库中包含多个由已添加标识的目标标注数据和其对应的目标标注数据对应的目标语音数据构成的数据组，可以通过从数据库中抽取数据组对语音识别模型进行优化训练，参阅图6所示，具体可以采用但不限于以下方式：

步骤601：按照标注时间从数据库中获取针对业务类型在业务场景下的多组目标标注数据和与多组目标标注数据对应的语音数据作为训练集；

实际应用中，可以根据语音识别模型对预设业务场景的识别准确率或基于语音识别模型的识别情况生成模型优化需求，从数据库中获取针对业务类型在业务场景下的多组目标标注数据和与多组目标标注数据对应的目标语音数据作为训练集，即训练集中包括多个数据组，其中，根据语音识别模型的识别情况可以确定出当前语音识别模型识别不同业务类型的不同业务场景的准确率中的最准确率，根据最低准确率对应的业务类型和业务场景生成模型优化需求。在从数据库中确定多个数据组时，可以根据目标标注数据的标识信息，选取相应的述业务类型在相应的业务场景下且标注时间排序靠前的多个数据组。

步骤602：基于训练集对语音识别模型进行优化训练。

实际应用中，在确定训练集后，还可以在数据库中抽取与训练集的业务类型和业务场景相同的除训练集包含的数据组外的多个数据组作为测试集，通过利用训练集对语音识别模型进行优化训练，并通过测试集对优化训练后的语音识别模型进行测试。这样，通过利用多组目标标注数据和与多组目标标注数据对应的语音数据作为训练集对语音识别模型进行训练，可以有效地提升语音识别模型的准确率，减少根据语音识别模型结果进行标注的工作量，减少标注返修任务的产生，进一步确保了语音标注的标注效率和标注质量。

具体实施时，模型优化主要环节参阅图7所示，其中，模型优化的主要环节包括：模型训练、模型应用、数据沉淀、数据抽取、数据标注和定制化模型优化。模型训练环节主要是在最初基于基础数据训练ASR模型，得到一个基线模型作为初始的语音识别模型。模型应用主要是通过初始的语音识别模型对生产应用中的语音数据进行识别。数据沉淀环节主要是基于生产应用中的语音数据及其对应的识别结果，按照时间、业务类型和业务场景添加标识，并将已添加标识的语音数据保存于数据库中。数据抽取环节是基于语音识别模型针对业务类型在业务场景下的语音数据进行语音识别的准确率确定的数据标注需求，按照数据标注需求从数据库中抽取待识别语音数据。数据标注环节主要是指采用上述实施例提供的语音标注方法对待识别的语音数据进行标注，得到已添加标识的目标标注数据和与目标标注数据对应的目标语音数据，并保存于数据库。定制化模型优化环节主要是按照标注时间从数据库中获取针对业务类型在业务场景下的多组目标标注数据和与多组目标标注数据对应的语音数据作为训练集，并基于训练集对语音识别模型进行优化训练，其中，业务类型和业务场景可以根据实际需求进行选择。

基于上述实施例，本申请实施例提供了一种语音标注装置，参阅图8所示，本申请实施例提供的语音标注装置800至少包括：

语音获取单元801，用于获取待识别的语音数据；

语音处理单元802，用于将待识别的语音数据中满足语音质量要求的语音数据作为目标语音数据；

语音识别单元803，用于将目标语音数据输入至语音识别模型得到目标语音数据的文本数据；

初始标注单元804，用于按照语音标注规则对文本数据中不满足无效判定条件的数据进行标注得到目标语音数据的初始标注数据；

结果确定单元805，用于确定初始标注数据符合标注质量要求时，将初始标注数据确定为目标语音数据的目标标注数据。

在一种可能的实施方式中，初始标注单元804具体用于：

基于目标语音数据的业务场景，确定文本数据中的高频话术数据和无效话术数据；

基于目标语音数据的业务类型，确定文本数据中的无效角色对应的无效角色文本数据；

将文本数据中除高频话术数据、无效话术数据和无效角色文本数据之外的数据进行格式转换得到标注文件格式的文本数据；

按照语音标注规则对标注文件格式的文本数据进行标注得到目标语音数据的初始标注数据。

在一种可能的实施方式中，语音获取单元801具体用于：

确定语音识别模型针对业务类型在业务场景下的语音数据进行语音识别的准确率；

基于准确率确定业务场景对应的数据标注需求；

按照数据标注需求从语音数据库中抽取语音数据作为待识别的语音数据。

在一种可能的实施方式中，本申请实施例提供的语音标注装置800还包括：

格式转换单元806，用于对待识别的语音数据中不满足语音格式要求的语音数据进行格式转换。

标注返修单元807，用于确定初始标注数据不符合标注质量要求时，基于目标语音数据的初始标注数据生成标注返修任务并进行任务分发，以通过分发标注返修任务对目标语音数据的初始标注数据进行返修，直至目标语音数据的返修标注数据符合标注质量要求时，将目标语音数据的返修标注数据确定为目标语音数据的目标标注数据。

标识添加单元808，用于按照目标标注数据对应的业务类型和业务场景为目标标注数据添加标识；

数据存储单元809，用于将已添加标识的目标标注数据和与目标标注数据对应的目标语音数据对应保存于数据库中。

训练集获取单元810，用于按照标注时间从数据库中获取针对业务类型在业务场景下的多组目标标注数据和与多组目标标注数据对应的目标语音数据作为训练集；

优化训练单元811，用于基于训练集对语音识别模型进行优化训练。

需要说明的是，本申请实施例提供的语音标注装置800解决技术问题的原理与本申请实施例提供的语音标注方法相似，因此，本申请实施例提供的语音标注装置800的实施可以参见本申请实施例提供的语音标注方法的实施，重复之处不再赘述。

在介绍了本申请实施例提供的语音标注方法和装置之后，接下来，对本申请实施例提供的电子设备进行简单介绍。

参阅图9所示，本申请实施例提供的电子设备900至少包括：处理器901、存储器902和存储在存储器902上并可在处理器901上运行的计算机程序，处理器901执行计算机程序时实现本申请实施例提供的语音标注方法。

需要说明的是，图9所示的电子设备900仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供的电子设备900还可以包括连接不同组件(包括处理器901和存储器902)的总线903。其中，总线903表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器902可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)9021和/或高速缓存存储器9022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)9023。

存储器902还可以包括具有一组(至少一个)程序模块9024的程序工具9025，程序模块9024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备900也可以与一个或多个外部设备904(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备900交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备900与一个或多个其它电子设备900进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口905进行。并且，电子设备900还可以通过网络适配器906与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与电子设备900的其它模块通信。应当理解，尽管图9中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

下面对本申请实施例提供的计算机可读存储介质进行介绍。本申请实施例提供的计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本申请实施例提供的语音标注方法。具体地，该计算机指令可以内置或者安装在电子设备900中，这样，电子设备900就可以通过执行内置或者安装的计算机指令实现本申请实施例提供的语音标注方法。

此外，本申请实施例提供的语音标注方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备900上运行时，该程序代码用于使电子设备900执行本申请实施例提供的语音标注方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音标注方法，其特征在于，包括：

获取待识别的语音数据；

将所述目标语音数据输入至语音识别模型得到所述目标语音数据的文本数据；

按照语音标注规则对所述文本数据中不满足无效判定条件的数据进行标注得到所述目标语音数据的初始标注数据；

确定所述初始标注数据符合标注质量要求时，将所述初始标注数据确定为所述目标语音数据的目标标注数据。

2.如权利要求1所述的语音标注方法，其特征在于，所述按照语音标注规则对所述文本数据中不满足无效判定条件的数据进行标注得到所述目标语音数据的初始标注数据，包括：

基于所述目标语音数据的业务场景，确定所述文本数据中的高频话术数据和无效话术数据；

基于所述目标语音数据的业务类型，确定所述文本数据中的无效角色对应的无效角色文本数据；

将所述文本数据中除所述高频话术数据、所述无效话术数据和所述无效角色文本数据之外的数据进行格式转换得到标注文件格式的文本数据；

按照语音标注规则对所述标注文件格式的文本数据进行标注得到所述目标语音数据的初始标注数据。

3.如权利要求1所述的语音标注方法，其特征在于，获取待识别的语音数据，包括：

基于所述准确率确定所述业务场景对应的数据标注需求；

4.如权利要求1所述的语音标注方法，其特征在于，所述将待识别的语音数据中满足语音质量要求的语音数据作为目标语音数据之前，还包括：

5.如权利要求1所述的语音标注方法，其特征在于，在按照语音标注规则对所述文本数据中不满足无效判定条件的数据进行标注得到所述目标语音数据的初始标注数据之后，还包括：

确定所述初始标注数据不符合标注质量要求时，基于所述目标语音数据的所述初始标注数据生成标注返修任务并进行任务分发，以通过分发所述标注返修任务对所述目标语音数据的所述初始标注数据进行返修，直至所述目标语音数据的返修标注数据符合所述标注质量要求时，将所述目标语音数据的返修标注数据确定为所述目标语音数据的目标标注数据。

6.如权利要求1所述的语音标注方法，其特征在于，在确定所述目标语音数据的目标标注数据之后，还包括：

按照目标标注数据对应的业务类型和业务场景为目标标注数据添加标识；

将已添加标识的目标标注数据和与所述目标标注数据对应的目标语音数据对应保存于数据库中。

7.如权利要求6所述的语音标注方法，其特征在于，在所述将已添加标识的目标标注数据和与所述目标标注数据对应的目标语音数据对应保存于数据库中之后，还包括：

按照标注时间从所述数据库中获取针对所述业务类型在所述业务场景下的多组目标标注数据和与所述多组目标标注数据对应的目标语音数据作为训练集；

基于所述训练集对所述语音识别模型进行优化训练。

8.一种语音标注装置，其特征在于，包括：

语音获取单元，用于获取待识别的语音数据；

语音识别单元，用于将所述目标语音数据输入至语音识别模型得到所述目标语音数据的文本数据；

初始标注单元，用于按照语音标注规则对所述文本数据中不满足无效判定条件的数据进行标注得到所述目标语音数据的初始标注数据；

结果确定单元，用于确定所述初始标注数据符合标注质量要求时，将所述初始标注数据确定为所述目标语音数据的目标标注数据。

9.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的语音标注方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-7任一项所述的语音标注方法。