CN112863493A

CN112863493A - 语音数据标注方法和装置，电子设备

Info

Publication number: CN112863493A
Application number: CN202110051112.XA
Authority: CN
Inventors: 肖娜; 张欢; 郭佳; 武卫东
Original assignee: Beijing Tianxing Huitong Information Technology Co ltd
Current assignee: Beijing Tianxing Huitong Information Technology Co ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-28

Abstract

本发明提供了一种语音数据标注方法和装置以及电子设备，其中，所述方法包括：将语音数据和文本输入预先训练的声学模型中，得到每帧语音针对全部音素的后验概率以及对齐结果；根据所述对齐结果，确定每个音素对应的各第一语音帧；针对所述文本中的每个音素，依据所述第一语音帧针对所述音素的后验概率，确定所述音素是否为存疑音素；在所述文本中对各所述存疑音素进行第一标记。本发明提供的语音数据标注方法，既可提升人工语音数据标注结果的准确度，有能够节省人工进行语音数据标注的人力消耗。

Description

语音数据标注方法和装置，电子设备

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音数据标注方法和装置，电子设备。

背景技术

目前，随着人工智能技术的突破，语音作为人机交互的重要环节，地位也越来越突出。但由于不同地域相应的语音差异较大，为建立一个有效的声学模型需要对海量语音数据进行标注。

在语音数据标注中，需要根据声音标注文本。一般通过大量外包人员进行数据标注，对标注后的数据进行验收，以确定标注正确率是否达标。完全凭借人工进行数据标注的方式，不仅需要消耗大量的人力资源，且由于人工操作易出错。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音数据标注方法及装置，电子设备。

第一方面，本发明实施例公开了一种语音数据标注方法，其中，所述方法包括：

将语音数据和文本输入预先训练的声学模型中，得到每帧语音针对全部音素的后验概率以及对齐结果；

根据所述对齐结果，确定每个音素对应的各第一语音帧；

针对所述文本中的每个音素，依据所述第一语音帧针对所述音素的后验概率，确定所述音素是否为存疑音素；

在所述文本中对各所述存疑音素进行第一标记，其中，所述第一标记用于指示所述音素待校准。

可选地，针对所述文本中的每个音素，依据所述第一语音帧针对所述音素的后验概率，确定所述音素是否为存疑音素的步骤，包括：

针对所述文本中的每个音素，依据所述第一语音帧针对所述音素的后验概率，确定所述音素对应的后验概率平均值；

将所述后验概率平均值与预设概率阈值进行比较；

在所述后验概率平均值小于所述预设概率阈值的情况下，确定所述音素为存疑音素。

可选地，所述在所述文本中对各所述存疑音素进行第一标记的步骤，包括：

在所述文本中，突出显示所述存疑音素；或者，

在所述文本中，为各所述存疑音素添加预设标记。

可选地，在所述文本中对各所述存疑音素进行第一标记的步骤之后，所述方法包括：

将添加第一标记后的所述文本，转化成预设格式的目标文本；

将所述目标文本以及所述语音数据发送至语音数据标注方，以便所述语音数据标注方结合所述目标文本中的第一标记对所述语音数据进行标注。

可选地，在所述将所述目标文本以及所述语音数据发送至语音数据标注方的步骤之后，所述方法还包括：

获取所述语音数据标注方的标注文本；

对所述标注文本中的各标注的可靠性进行判定；

为所述标注文本中的各非可靠标注添加第二标注。

第二方面，本发明实施例公开了一种语音数据标注装置，其中，所述装置包括：

输入模块，用于将语音数据和文本输入预先训练的声学模型中，得到每帧语音针对全部音素的后验概率以及对齐结果；

第一确定模块，用于根据所述对齐结果，确定每个音素对应的各第一语音帧；

第二确定模块，用于针对所述文本中的每个音素，依据所述第一语音帧针对所述音素的后验概率，确定所述音素是否为存疑音素；

第一标记模块，用于在所述文本中对各所述存疑音素进行第一标记，其中，所述第一标记用于指示所述音素待校准。

可选地，所述第二确定模块包括：

第一子模块，用于针对所述文本中的每个音素，依据所述第一语音帧针对所述音素的后验概率，确定所述音素对应的后验概率平均值；

第二子模块，用于将所述后验概率平均值与预设概率阈值进行比较；

第三子模块，用于在所述后验概率平均值小于所述预设概率阈值的情况下，确定所述音素为存疑音素。

可选地，所述第一标记模块包括：

第四子模块，用于在所述文本中，突出显示所述存疑音素；或者，

第五子模块，用于在所述文本中，为各所述存疑音素添加预设标记。

可选地，所述装置包括：

转化模块，用于在所述第一标记模块在所述文本中对各所述存疑音素进行第一标记之后，将添加第一标记后的所述文本，转化成预设格式的目标文本；

发送模块，用于将所述目标文本以及所述语音数据发送至语音数据标注方，以便所述语音数据标注方结合所述目标文本中的第一标记对所述语音数据进行标注。

可选地，所述装置还包括：

获取模块，用于在所述发送模块将所述目标文本以及所述语音数据发送至语音数据标注方的步骤之后，获取所述语音数据标注方的标注文本；

判定模块，用于对所述标注文本中的各标注的可靠性进行判定；

第二添加模块，用于为所述标注文本中的各非可靠标注添加第二标注。

第三方面，本发明实施例公开了一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质；当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一项所述的语音数据标注方法。

第四方面，本发明实施例公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一项所述的语音数据标注方法。

本发明实施例中提供的语音数据标注方案，将语音数据和文本输入预先训练的声学模型中，得到每帧语音针对全部音素的后验概率以及对齐结果；根据对齐结果，确定每个音素对应的各第一语音帧；针对文本中的每个音素，依据第一语音帧针对所述音素的后验概率，确定音素是否为存疑音素；在文本中对各存疑音素进行第一标记，系统自动对文本中的存疑音素进行第一标记，一方面第一标记可提示后续进行语音数据标注人员哪些音素存疑，便于语音数据标注人员针对性地对存疑音素进行核实，提升标注准确度；第二方面，由于系统在文本中标记处了存疑音素，无需语音数据标注人员再一一核对存疑音素，能够节省人力消耗。

附图说明

图1是本发明实施例的一种语音数据标注方法的步骤流程图；

图2是本发明实施例的一种语音数据标注装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了本发明实施例的一种语音数据标注方法的步骤流程图。

本发明实施例的语音数据标注方法可以包括以下步骤：

步骤101：将语音数据和文本输入预先训练的声学模型中，得到每帧语音针对全部音素的后验概率以及对齐结果。

语音识别(Automatic Speech Recognition，ASR)是将语音识别成文字，让机器轻松听懂人类的语言。声学模型(Acoustic Model，AM)是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示。音素：单词的发音由音素构成。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调；发音字典中包括大量将字或词映射到音素，即用声母和韵母来表示字或词。

本申请实施例中所采用的声学模型采用已经标注好的大量语音数据训练得到。针对输入的声音和文本对进行对齐后，可将每一帧声音对应到其所在的音素。

步骤102：根据对齐结果，确定每个音素对应的各第一语音帧。

每个音素对应多个语音帧。

步骤103：针对文本中的每个音素，依据第一语音帧针对音素的后验概率，确定音素是否为存疑音素。

在一种可选地实施例中，针对文本中的每个音素，依据第一语音帧针对所述音素的后验概率，确定音素是否为存疑音素的方式如下：

首先，针对文本中的每个音素，依据第一语音帧针对音素的后验概率，确定音素对应的后验概率平均值；

计算后验概率平均值时，可采用如下预设公式：

其中，一个音素对应t_s至t_e语音帧，t_e为所对应音素对齐后的结束帧，t_s为所对应音素对齐后的开始帧。p(s_t|o_t)表示语音帧o_t是音素S的概率，log表示取对数概率。

其次，将后验概率平均值与预设概率阈值进行比较；

再次，在后验概率平均值小于预设概率阈值的情况下，确定音素为存疑音素。

预设概率阈值可由本领域技术人员根据实际需求进行设置，本申请实施例中对此不做具体限制。例如：预设概率阈值设置为-5。后验概率小于-5的音素可被确定为存疑音素；反之，后验概率大于或等于-5的音素可被确定为非存疑音素。

步骤104：在文本中对各存疑音素进行第一标记。

其中，第一标记用于指示音素待校准。

在文本中对各存疑音素进行第一标记时，可在文本中，突出显示存疑音素；或者，在文本中，为各存疑音素添加预设标记。突出显示可以包括但不限于：将存疑音素加粗、加色或者悬浮显示等。添加的预设标记可以包括但不限于：为存疑音素添加对应的问号、中括号或者叹号等，用于警示标注人员此音素存疑，需要多加留意。

下面结合具体实例，对本申请实施例提供的语音数据标注方法进行说明。

例如：一句声音的发音是“追究事物之间的因果关系”，语音转换的文本为“追求事物之间的因果关系”对声音和文本进行对齐，对齐结果为“zh ui q iu sh i w u zh i jian d e y in g uo g uan x i”，假设音素“q”的位置是第30帧至40帧。针对测试声音，通过声学模型，输出每帧声音针对有音素的后验概率。根据预设公式计算LPP得分为-6，则此处超过了预设概率阈值-5，则认为音素“q”为存疑音素，可在转换的文本中对其对应的“求”字添加第一标记，如：标记后的文本可表示为“追[求]事物之间的因果关系”。

本发明实施例提供的语音数据标注方法，将语音数据和文本输入预先训练的声学模型中，得到每帧语音针对全部音素的后验概率以及对齐结果；根据对齐结果，确定每个音素对应的各第一语音帧；针对文本中的每个音素，依据第一语音帧针对所述音素的后验概率，确定音素是否为存疑音素；在文本中对各存疑音素进行第一标记，系统自动对文本中的存疑音素进行第一标记，一方面第一标记可提示后续进行语音数据标注人员哪些音素存疑，便于语音数据标注人员针对性地对存疑音素进行核实，提升标注准确度；第二方面，由于系统在文本中标记处了存疑音素，无需语音数据标注人员再一一核对存疑音素，能够节省人力消耗。

在一种可选地实施例中，在文本中对各存疑音素进行第一标记的步骤之后，还可以包括如下步骤：

步骤一：将添加第一标记后的文本，转化成预设格式的目标文本；

预设格式可由本领域技术人员根据实际需求进行设置，本申请实施例中对此不做具体限制。

步骤二：将目标文本以及语音数据发送至语音数据标注方，以便语音数据标注方结合目标文本中的第一标记对语音数据进行标注。

该种可选地向语音数据标注方发送待标注文本前对文本进行第一标记的方式，可提示后续进行语音数据标注人员哪些音素存疑，便于语音数据标注人员针对性地对存疑音素进行核实，提升标注准确度。

在一种可选地实施例中，在将目标文本以及语音数据发送至语音数据标注方的步骤之后，还可以包括如下步骤：

步骤一：获取语音数据标注方的标注文本；

步骤二：对标注文本中的各标注的可靠性进行判定；

对标注文本中的各标注的可靠性进行判定时，针对每个标注对应的第一音素可采用步骤101至步骤103中的方式判定该因素是否为存疑音素，若判定结果为存疑音素，则确定该标注可靠；反之，确定该标注不可靠。

采用该方式，分别对标注文本中的各标注进行判定，即可完成对整个标注文本中各标注的可靠性判定。

步骤三：为标注文本中的各非可靠标注添加第二标注。

第二标注用于提示该标注非可靠。

该种可选地对语音数据标注方提供的标注文本进行可靠性判定的方式，可辅助标注验收人员发现标注错误，减少标注验收人员的工作量，提高效率。

参照图2，示出了本发明实施例的一种语音数据标注装置的结构框图。

本发明实施例的语音数据标注装置可以包括以下模块：

输入模块201，用于将语音数据和文本输入预先训练的声学模型中，得到每帧语音针对全部音素的后验概率以及对齐结果；

第一确定模块202，用于根据所述对齐结果，确定每个音素对应的各第一语音帧；

第二确定模块203，用于针对所述文本中的每个音素，依据所述第一语音帧针对所述音素的后验概率，确定所述音素是否为存疑音素；

第一标记模块204，用于在所述文本中对各所述存疑音素进行第一标记，其中，所述第一标记用于指示所述音素待校准。

可选地，所述第二确定模块包括：

可选地，所述第一标记模块包括：

可选地，所述装置包括：

可选地，所述装置还包括：

本发明实施例提供的语音数据标注装置，将语音数据和文本输入预先训练的声学模型中，得到每帧语音针对全部音素的后验概率以及对齐结果；根据对齐结果，确定每个音素对应的各第一语音帧；针对文本中的每个音素，依据第一语音帧针对所述音素的后验概率，确定音素是否为存疑音素；在文本中对各存疑音素进行第一标记，系统自动对文本中的存疑音素进行第一标记，一方面第一标记可提示后续进行语音数据标注人员哪些音素存疑，便于语音数据标注人员针对性地对存疑音素进行核实，提升标注准确度；第二方面，由于系统在文本中标记处了存疑音素，无需语音数据标注人员再一一核对存疑音素，能够节省人力消耗。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本发明的实施例中，还提供了一种电子设备。该电子设备可以包括一个或多个处理器，以及其上存储有指令的一个或多个机器可读介质，指令例如应用程序。当所述指令由所述一个或多个处理器执行时，使得所述处理器执行上述的语音数据标注方法。

在本发明的实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序可由电子设备的处理器执行，以完成上述的语音数据标注方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音数据标注方法及装置，电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音数据标注方法，其特征在于，所述方法包括：

根据所述对齐结果，确定每个音素对应的各第一语音帧；

2.根据权利要求1所述的方法，其特征在于，针对所述文本中的每个音素，依据所述第一语音帧针对所述音素的后验概率，确定所述音素是否为存疑音素的步骤，包括：

将所述后验概率平均值与预设概率阈值进行比较；

3.根据权利要求1所述的方法，其特征在于，所述在所述文本中对各所述存疑音素进行第一标记的步骤，包括：

在所述文本中，突出显示所述存疑音素；或者，

在所述文本中，为各所述存疑音素添加预设标记。

4.根据权利要求1所述的方法，其特征在于，在所述文本中对各所述存疑音素进行第一标记的步骤之后，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，在所述将所述目标文本以及所述语音数据发送至语音数据标注方的步骤之后，所述方法还包括：

获取所述语音数据标注方的标注文本；

对所述标注文本中的各标注的可靠性进行判定；

为所述标注文本中的各非可靠标注添加第二标注。

6.一种语音数据标注装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第二确定模块包括：

8.根据权利要求6所述的装置，其特征在于，所述第一标记模块包括：

9.根据权利要求6所述的装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质；

当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如权利要求1至5任一项所述的语音数据标注方法。