CN110544467A

CN110544467A - 语音数据的审核方法、装置、设备及存储介质

Info

Publication number: CN110544467A
Application number: CN201910831959.2A
Authority: CN
Inventors: 刘金财; 王涛; 王寿男
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2019-12-06

Abstract

本发明提供一种语音数据的审核方法、装置、设备及存储介质，该方法，包括：获取语音标注数据的标注特征；根据所述标注特征，确定所述语音标注数据的分类标签；根据所述分类标签，从所述语音标注数据中确定需要审核的目标语音数据；对所述目标语音数据进行审核处理。本发明可以实现有对语音数据的针对性审核，降低审核错误率，提高语音标注质量。

Description

语音数据的审核方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音数据的审核方法、装置、设备及存储介质。

背景技术

随着语音处理技术的发展，语音识别技术的应用也越来越广泛。

目前，针对语音标注工作，需要将大量切片语音识别成单句的文字对话，按照相应的规范对其逐条进行标注。当语音标注数据量大、语音标注规范注意事项多时，标注员在标注环节非常容易产生标注错误，因此需要审核人员对已标注的数据进行审核。

现有技术中，审核人员在进行审核时，无针对性，需要对已标注数据进行逐一审核，工作量大，容易出错，影响标注数据的质量。

发明内容

本发明提供一种语音数据的审核方法、装置、设备及存储介质，可以实现有对语音数据的针对性审核，降低审核错误率，提高语音标注质量。

第一方面，本发明实施例提供一种语音数据的审核方法，包括：

获取语音标注数据的标注特征；

根据所述标注特征，确定所述语音标注数据的分类标签；

根据所述分类标签，从所述语音标注数据中确定需要审核的目标语音数据；

对所述目标语音数据进行审核处理。

在一种可能的设计中，所述获取语音标注数据的标注特征，包括：

获取语音标注数据，所述语音标注数据包括：切片语音、切片语音对应的识别文字和标注信息；

根据预设的标注规范和业务类型，确定所述语音标注数据的标注特征。

在一种可能的设计中，所述根据所述标注特征，确定所述语音标注数据的分类标签，包括：

基于所述标注特征，通过朴素贝叶斯分类器确定所述语音标注数据的分类标签；其中，所述分类标签与业务类型相关，所述分类标签包括：话费查询类、业务咨询类、建议投诉类。

在一种可能的设计中，在根据所述分类标签，从所述语音标注数据中确定需要审核的目标语音数据之前，还包括：

通过审核列表显示所述语音标注的数据以及所述语音标注数据对应的分类标签。

在一种可能的设计中，根据所述分类标签，从所述语音标注数据中确定需要审核的目标语音数据，包括：

接收针对所述审核列表的操作信息；

根据所述操作信息，从所述语音标注数据中确定需要审核的目标语音数据。

在一种可能的设计中，所述对所述目标语音数据进行审核处理，包括：

对所述目标语音数据进行至少两级审核处理，若存在任一级审核结果不通过，则将所述目标语音数据反馈给标注平台，以使得标注人员对所述目标语音数据进行重新标注。

第二方面，本发明实施例提供一种语音数据的审核装置，包括：

获取模块，用于获取语音标注数据的标注特征；

第一确定模块，用于根据所述标注特征，确定所述语音标注数据的分类标签；

第二确定模块，用于根据所述分类标签，从所述语音标注数据中确定需要审核的目标语音数据；

审核模块，用于对所述目标语音数据进行审核处理。

在一种可能的设计中，所述获取模块，具体用于：

在一种可能的设计中，所述第一确定模块，具体用于：

在一种可能的设计中，还包括：显示模块，用于

在一种可能的设计中，所述第二确定模块，具体用于：

接收针对所述审核列表的操作信息；

在一种可能的设计中，所述审核模块，具体用于：

第三方面，本发明实施例提供一种电子设备，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的语音数据的审核方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述的语音数据的审核方法。

第五方面，本发明实施例提供一种程序产品，所述程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得服务器执行第一方面中任一所述的语音数据的审核方法。

本发明提供一种语音数据的审核方法、装置、设备及存储介质，通过获取语音标注数据的标注特征；根据所述标注特征，确定所述语音标注数据的分类标签；根据所述分类标签，从所述语音标注数据中确定需要审核的目标语音数据；对所述目标语音数据进行审核处理。本发明可以使审核员按照类别信息对语音标注数据进行分类审核，明确审核内容，从而实现语音标注数据的针对性审核，降低了审核员的工作量，减少审核错误，提高语音标注质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一应用场景的原理示意图；

图2为本发明实施例一提供的语音数据的审核方法的流程图；

图3为本发明实施例二提供的语音数据的审核方法的流程图；

图4为本发明实施例三提供的语音数据的审核装置的结构示意图；

图5为本发明实施例四提供的语音数据的审核装置的结构示意图；

图6为本发明实施例五提供的电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

目前，针对语音标注工作，需要将大量切片语音识别成单句的文字对话，按照相应的规范对其逐条进行标注。当语音标注数据量大、语音标注规范注意事项多时，标注员在标注环节非常容易产生标注错误，因此需要审核人员对已标注的数据进行审核。现有技术中，审核人员在进行审核时，无针对性，需要对已标注数据进行逐一审核，工作量大，容易出错，影响标注数据的质量。

针对上述技术问题，本发明提供一种语音数据的审核方法、装置、设备及存储介质，可以实现有对语音数据的针对性审核，降低审核错误率，提高语音标注质量。

图1为本发明一应用场景的原理示意图，如图1所示，语音标注包括标注和审核两个流程。在标注流程中，由标注员根据标注规范对待标注的切片语音进行标注，得到切片语音对应的识别文字和标注信息。在审核流程中，需要对已经标注的语音标注数据进行审核，以确定语音标注是否正确。可以按照标注规范和业务类型确定语音标注数据的特征属性，并对每个特征属性进行适当划分。

具体地，对于通信运营商，业务类型可以划分为查询类、办理类、投诉类，业务类型也可以划分为话费类、套餐余量类、增值业务类等等，可以根据业务类型设置合理的特征属性。然后，将标注特征作为输入，输入朴素贝叶斯分类器自动对标注内容进行分类，输出该标注对应分类标签，从而完成对标注内容的分类。

进一步地，审核员可以在审核列表中设置筛选条件，从语音标注数据中确定需要审核的目标语音数据，进行分类审核。例如，用户选择话费查询类分类标签，则返回所有话费查询类的需要审核的目标语音数据。因此，这种方式可以根据分类标签分配对应的业务领域的审核专家进行专业审核，实现对语音数据的针对性审核，降低审核错误率，提高语音标注质量。最后，对目标语音数据进行至少两级审核处理，不同级审核由不同的审核员负责。若存在任一级审核结果不通过，则将目标语音数据反馈给标注平台，以使得标注人员对目标语音数据进行重新标注。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例一提供的语音数据的审核方法的流程图，如图2所示，本实施例中的方法可以包括：

S101、获取语音标注数据的标注特征。

本实施例中，可以获取语音标注数据，根据预设的标注规范和业务类型，确定语音标注数据的标注特征。其中，语音标注数据包括：切片语音、切片语音对应的识别文字和标注信息；

具体地，语音标注包括标注和审核两个流程。在标注流程中，根据标注规范对切片语音进行标注，得到切片语音对应的识别文字和标注信息。在审核流程中，需要对已经标注的语音标注数据进行审核，以确定语音标注是否正确。可以按照标注规范和业务类型确定语音标注数据的特征属性，并对每个特征属性进行适当划分。例如，对于通信运营商，业务类型可以划分为查询类、办理类、投诉类，业务类型也可以划分为话费类、套餐余量类、增值业务类等等，可以根据业务类型设置合理的特征属性。

S102、根据标注特征，确定语音标注数据的分类标签。

本实施例中，基于标注特征，通过朴素贝叶斯分类器确定语音标注数据的分类标签；其中，分类标签与业务类型相关，分类标签包括：话费查询类、业务咨询类、建议投诉类。

具体地，将标注特征作为输入，输入朴素贝叶斯分类器自动对标注内容进行分类，输出该标注对应分类标签。

S103、根据分类标签，从语音标注数据中确定需要审核的目标语音数据。

本实施例中，接收针对审核列表的操作信息；根据操作信息，从语音标注数据中确定需要审核的目标语音数据。

具体地，用户可以在审核列表中设置筛选条件，进行分类审核。然后，审核平台根据筛选条件从语音标注数据中确定需要审核的目标语音数据。例如，用户选择话费查询类分类标签，则返回所有话费查询类的需要审核的目标语音数据。因此，这种方式可以根据分类标签分配对应的业务领域的审核专家进行专业审核，实现对语音数据的针对性审核，降低审核错误率，提高语音标注质量。

S104、对目标语音数据进行审核处理。

本实施例中，对目标语音数据进行至少两级审核处理，若存在任一级审核结果不通过，则将目标语音数据反馈给标注平台，以使得标注人员对目标语音数据进行重新标注。

具体地，对目标语音数据进行至少两级审核处理，不同级审核由不同的审核员负责。审核员对待审核语音自主选择分类审核，如果审核通过则进行二级审核，如果审核未通过则将审核结果及标注语音返回标注员待标注列表中，重新按照上述标注流程进行标注。

本实施例，通过获取语音标注数据的标注特征；根据标注特征，确定语音标注数据的分类标签；根据分类标签，从语音标注数据中确定需要审核的目标语音数据；对目标语音数据进行审核处理。本发明可以使审核员按照类别信息对语音标注数据进行分类审核，明确审核内容，从而实现语音标注数据的针对性审核，降低了审核员的工作量，减少审核错误，提高语音标注质量。

图3为本发明实施例二提供的语音数据的审核方法的流程图，如图3所示，本实施例中的方法可以包括：

S201、获取语音标注数据的标注特征。

S202、根据标注特征，确定语音标注数据的分类标签。

本实施例中，步骤S201～步骤S202的具体实现过程和技术原理请参见图2所示的方法中步骤S101～步骤S102中的相关描述，此处不再赘述。

S203、通过审核列表显示语音标注的数据以及语音标注数据对应的分类标签。

本实施例中，可以在通过审核列表显示语音标注的数据以及语音标注数据对应的分类标签，以方便审核员可以根据分类标签对数据进行分类筛选。例如以tab页的形式对数据进行分类展示，tab页的名称就是分类标签，tab页中具体的内容为该分类标签对应的语音标注数据。

S204、根据分类标签，从语音标注数据中确定需要审核的目标语音数据。

S205、对目标语音数据进行审核处理。

本实施例中，步骤S204～步骤S205的具体实现过程和技术原理请参见图2所示的方法中步骤S103～步骤S104中的相关描述，此处不再赘述。

另外，本实施还可以通过审核列表显示语音标注的数据以及语音标注数据对应的分类标签，以方便审核员可以根据分类标签对数据进行分类筛选。

图4为本发明实施例三提供的语音数据的审核装置的结构示意图，如图4所示，本实施例的语音数据的审核装置可以包括：

获取模块31，用于获取语音标注数据的标注特征；

第一确定模块32，用于根据标注特征，确定语音标注数据的分类标签；

第二确定模块33，用于根据分类标签，从语音标注数据中确定需要审核的目标语音数据；

审核模块34，用于对目标语音数据进行审核处理。

在一种可能的设计中，获取模块31，具体用于：

获取语音标注数据，语音标注数据包括：切片语音、切片语音对应的识别文字和标注信息；

根据预设的标注规范和业务类型，确定语音标注数据的标注特征。

在一种可能的设计中，第一确定模块32，具体用于：

基于标注特征，通过朴素贝叶斯分类器确定语音标注数据的分类标签；其中，分类标签与业务类型相关，分类标签包括：话费查询类、业务咨询类、建议投诉类。

在一种可能的设计中，第二确定模块33，具体用于：

接收针对审核列表的操作信息；

根据操作信息，从语音标注数据中确定需要审核的目标语音数据。

在一种可能的设计中，审核模块34，具体用于：

对目标语音数据进行至少两级审核处理，若存在任一级审核结果不通过，则将目标语音数据反馈给标注平台，以使得标注人员对目标语音数据进行重新标注。

本实施例的语音数据的审核装置，可以执行图2所示方法中的技术方案，其具体实现过程和技术原理参见图2所示方法中的相关描述，此处不再赘述。

图5为本发明实施例四提供的语音数据的审核装置的结构示意图，如图5所示，本实施例的语音数据的审核装置在图4所示装置的基础上，还可以包括：

显示模块35，用于

通过审核列表显示语音标注的数据以及语音标注数据对应的分类标签。

本实施例的语音数据的审核装置，可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

图6为本发明实施例五提供的电子设备的结构示意图，如图6所示，本实施例的电子设备40可以包括：处理器41和存储器42。

存储器42，用于存储程序；存储器42，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器42用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

处理器41，用于执行存储器42存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器41和存储器42可以是独立结构，也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时，存储器42、处理器41可以通过总线43耦合连接。

本实施例的电子设备可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本申请还提供一种程序产品，程序产品包括计算机程序，计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器实施上述本发明实施例任一的语音数据的审核方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音数据的审核方法，其特征在于，包括：

获取语音标注数据的标注特征；

根据所述标注特征，确定所述语音标注数据的分类标签；

对所述目标语音数据进行审核处理。

2.根据权利要求1所述的方法，其特征在于，所述获取语音标注数据的标注特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述标注特征，确定所述语音标注数据的分类标签，包括：

4.根据权利要求1所述的方法，其特征在于，在根据所述分类标签，从所述语音标注数据中确定需要审核的目标语音数据之前，还包括：

5.根据权利要求4所述的方法，其特征在于，根据所述分类标签，从所述语音标注数据中确定需要审核的目标语音数据，包括：

接收针对所述审核列表的操作信息；

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述对所述目标语音数据进行审核处理，包括：

7.一种语音数据的审核装置，其特征在于，包括：

获取模块，用于获取语音标注数据的标注特征；

审核模块，用于对所述目标语音数据进行审核处理。

8.根据权利要求7所述的装置，其特征在于，所述获取模块，具体用于：

9.一种电子设备，其特征在于，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6所述的语音数据的审核方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任一项所述的语音数据的审核方法。