CN109065076B

CN109065076B - 音频标签的设置方法、装置、设备和存储介质

Info

Publication number: CN109065076B
Application number: CN201811030676.XA
Authority: CN
Inventors: 涂臻; 杨振宇; 刘云峰; 吴悦; 陈正钦; 胡晓; 汶林丁
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2020-11-27
Anticipated expiration: 2038-09-05
Also published as: CN109065076A; WO2020048295A1

Abstract

本发明涉及一种音频标签的设置方法、装置、设备和存储介质。其中，音频标签的设置方法包括：获取完整音频；切分完整音频，得到至少两个子音频；通过预先训练得到的音频标签设置模型为子音频设置标签；整合各子音频的标签，生成完整音频的完整标签。本申请提供的音频标签的设置方法中，将完整音频切分为各个子音频，通过音频标签设置模型直接为子音频设置标签，整合各个标签得到完整音频的完整标签。如此，在为音频设置标签的过程中，可以直接对音频进行操作，避免了将音频转化为文字的过程，保留音频的语调语气，更加全面的为音频设置标签。

Description

音频标签的设置方法、装置、设备和存储介质

技术领域

本发明涉及音频评判技术领域，具体涉及一种音频标签的设置方法、装置、设备和存储介质。

背景技术

随着社会的不断发展，客服已成为人们生活中必不可少的一份子。为了保证客服的服务质量，需要对客服的通话音频进行评判。评判的形式为音频设置标签。

目前，音频标签的一般设置方法为，通过语音识别系统将音频转化为文字，根据文字内容为音频设置标签。

但是，采用上述方式，存在以下问题：语音识别系统将音频转化为文字的过程中，丢失了音频的语调语气，无法全面的评判通话语音。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种音频标签的设置方法、装置、设备和存储介质。

根据本申请实施例的第一方面，提供一种音频标签的设置方法，包括：

获取完整音频；

切分所述完整音频，得到至少两个子音频；

通过预先训练得到的音频标签设置模型为所述子音频设置标签；

整合各所述子音频的标签，生成所述完整音频的完整标签。

可选的，所述切分所述完整音频，得到至少两个子音频，包括：

预处理所述完整音频；

确定所述完整音频中的音频段和静音段；

按照所述音频段和所述静音段切分所述完整音频，并将所述音频段保留为所述子音频。

可选的，所述预处理所述完整音频包括：

转码所述完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。

可选的，所述确定所述完整音频中的音频段和静音段包括：

采用语音端点检测算法，确定所述完整音频中的音频段和静音段。

可选的，所述通过预先训练得到的音频标签设置模型为所述子音频设置标签包括：

对所述子音频进行分帧；

分别提取每一帧子音频的音频特征；

整合所述每一帧子音频的音频特征，得到音频特征矩阵；

向双向循环神经网络GRU层输入音频特征矩阵，得到第一输出数据；

向子采样层输入所述第一输出数据，进行子采样，得到第二输出数据；

向BN层输入所述第二输出数据，得到第三输出数据；

向最大池化层输入所述第三输出数据，得到第四输出数据；

向全连接+softmax层输入所述第四输出数据，得到子音频对应各标签的概率，选择概率最大的标签作为当前子音频的标签

可选的，所述音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。

可选的，还包括：

获取终端上传的所述完整标签是否合适的判断结果；所述判断结果包括：是或否；

若所述判断结果为否，获取所述终端上传的合适的完整标签。

可选的，所述获取所述终端上传的完整标签之后，还包括：

以所述终端上传的合适的完整标签和所述完整音频为训练数据，训练所述音频标签设置模型。

可选的，所述预训练的音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。

根据本申请实施例的第二方面，提供一种音频标签的设置装置，包括：

第一获取模块，用于获取音频；

切分模块，用于切分所述音频为各个子音频；

标签设置模块，通过音频标签设置模型为所述子音频设置标签；

整合模块，用于整合各所述子音频的标签，生成所述音频的完整标签。

所述切分模块具体用于：

预处理所述完整音频；

确定所述完整音频中的音频段和静音段；

可选的，所述预处理所述完整音频包括：

可选的，确定所述完整音频中的音频段和静音段所采用算法为：语音端点检测算法。

可选的，所述标签设置模块具体用于：

对所述子音频进行分帧；

分别提取每一帧子音频的音频特征；

整合所述每一帧子音频的音频特征，得到音频特征矩阵；

向BN层输入所述第二输出数据，得到第三输出数据；

向最大池化层输入所述第三输出数据，得到第四输出数据；

向全连接+softmax层输入所述第四输出数据，得到子音频对应各标签的概率，选择概率最大的标签作为当前子音频的标签。

可选的，所述音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。

可选的，所述音频标签的设置装置，还包括：

第二获取模块，用于获取终端上传的所述完整标签是否合适的判断结果；所述判断结果包括：是或否；

可选的，所述音频标签的设置装置，还包括：

第三获取模块，用于若所述判断结果为否，获取所述终端上传的完整标签。

根据本申请实施例的第三方面，提供一种音频标签的设置设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行本申请实施例的第一方面所述的音频标签的设置方法；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

根据本申请实施例的第四方面，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现本申请实施例的第一方面所述的音频标签的设置方法中各个步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请提供的音频标签的设置方法中，将完整音频切分为各个子音频，通过音频标签设置模型直接为子音频设置标签，整合各个标签得到完整音频的完整标签。如此，在为音频设置标签的过程中，可以直接对音频进行操作。与背景技术中的方案相比较，避免了将音频转化为文字的过程，保留音频的语调语气，更加全面的为音频设置标签。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的音频标签的设置方法的流程示意图。

图2是本发明另一实施例提供的音频标签的设置方法的流程示意图。

图3是本发明另一实施例提供的音频标签的设置方法的流程示意图。

图4是本发明另一实施例提供的音频标签的设置方法的流程示意图

图5是本发明一实施例提供的音频标签的设置装置的结构示意图。

图6是本发明一实施例提供的音频标签的设置设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明一实施例提供的一种音频标签的设置方法，其特征在于，包括：

S110，获取完整音频；

其中，完整音频只是为了与后文出现的子音频进行区分，并非强调音频为整个通话的音频。

S120切分完整音频，得到至少两个子音频；

具体的，如图2所示，S120包括：

S201，预处理完整音频；

其中，预处理完整音频包括：转码完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。相同采样率、相同采样位深、相同比特率可以保留音频的大部分的特征。如此，将音频转化为某种音频格式的同时，保留了音频大部分的特征。

S202，确定完整音频中的音频段和静音段；

S203，按照音频段和静音段切分完整音频，并将音频段保留为子音频。

按照上述S201，S202和S203中的方案，在将完整音频切分为多个子音频的同时，剔除完整音频中的静音段，节省下面的步骤中处理静音段的时间，提高工作效率。同时，如此切分完整音频，保留的子音频多为单个字或词的音频。按照这种方式切分音频，不会割裂单独的字、词或句子，可以更加全面的保留音频信息。

例如：当音频为：“我明白了，是的，我对您的服务很满意”时，按照上述S201，S202和S203中的方案，可以将音频切分为“我明白了”、“是的”、“我对您的服务很满意”如此，并不会割裂音频中的“我明白了”的音频为两个音频。合理的保留了最小单元的字、词或句子完整性，更加全面的保留音频信息。

S130通过预先训练得到的音频标签设置模型为子音频设置标签；

具体的，如图3所示，步骤130可以包括：

S301，对子音频进行分帧；

S302，分别提取每一帧子音频的音频特征；

S303，整合每一帧子音频的音频特征，得到音频特征矩阵；

S304，向双向循环神经网络GRU层输入音频特征矩阵，得到第一输出数据；

S305，向子采样层输入第一输出数据，进行子采样，得到第二输出数据；

S306，向BN层输入第二输出数据，得到第三输出数据；

S307，向最大池化层输入第三输出数据，得到第四输出数据；

S308，向全连接+softmax层输入第四输出数据，得到子音频对应各标签的概率，选择概率最大的标签作为当前子音频的标签。

如此，通过S301，S302，S303，S304，S305，S306，S307，S308，可以直接为子音频设置标签，与背景技术中的方案相比较，避免将音频转化为文字的过程，保留子音频的语调语气，可以更加准确的为子音频设置标签。

其中，特征矩阵为梅尔倒谱系数(Mel Frequency Cepstral Coefficents，MFCC)特征矩阵。MFCC特征矩阵是基于MFCC技术特征矩阵，MFCC技术是一种在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的研究成果的技术，采用这种技术可以提高语音识别系统的性能。

S140，整合各子音频的标签，生成完整音频的完整标签。

其中，预训练的音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。

本申请提供的音频标签的设置方法中，将完整音频切分为各个子音频，通过音频标签设置模型直接为子音频设置标签，整合各个标签得到完整音频的完整标签。如此，在为音频设置标签的过程中，可以直接对音频进行操作。与背景技术中的方案相比较，避免了将音频转化为文字的过程，保留音频的语调语气，更加全面的为音频设置标签。同时，由于目前的语音识别技术的效率和准确率偏低，所以采用背景技术中的方案会降低为音频设置标签的效率的准确率。而本申请提供的方案中，避免使用语音识别技术将音频识别为文字，提高为音频设置标签的效率的准确率。

进一步的，如图4所示，本申请提供音频标签的设置方法还包括：

S401，获取终端上传的完整标签是否合适的判断结果；判断结果包括：是或否；

S402若判断结果为否，获取终端上传的完整标签。

如此，当S110，S120，S130，S140，提供的方法为音频设置的标签后，可以获取终端上传的完整标签是否合适的判断结果，来确定标签是否合适，若不合适，则及时的获取终端上传的合适的完整标签，进一步的提高为音频设置的标签的准确率。

其中，终端上传的判断结果和合适的完整标签的来源可以是由人工进行输入。即由工作人员对设置有标签的音频进行检查，发现标签不合适，则通过终端上传判断结果和合适的完整标签。

进一步的，本申请提供音频标签的设置方法还包括：

S403，以终端上传的合适的完整标签和完整音频为训练数据，训练音频标签设置模型。

通过终端上传的合适的完整标签和完整音频为训练数据，训练音频标签设置模型，可以有效的提高音频标签设置模型为音频设置标签时的准确率。

下面结合以上各实施例中的优选实施例，对本申请实施例提供的音频标签的设置方法置进行更加详细的说明：

获取完整音频；

转码完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式；

确定完整音频中的音频段和静音段；

按照音频段和静音段切分完整音频，并将音频段保留为子音频；

对子音频进行分帧；

分别提取每一帧子音频的音频特征；

整合每一帧子音频的音频特征，得到音频特征矩阵；其中，音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。

向子采样层输入第一输出数据，进行子采样，得到第二输出数据；

向BN层输入第二输出数据，得到第三输出数据；

向最大池化层输入第三输出数据，得到第四输出数据；

向全连接+softmax层输入第四输出数据，得到子音频对应各标签的概率，选择概率最大的标签作为当前子音频的标签；

获取终端上传的完整标签是否合适的判断结果；判断结果包括：是或否；

若判断结果为否，获取终端上传的合适的完整标签；

以终端上传的合适的完整标签和完整音频为训练数据，训练音频标签设置模型。

图5是本申请一实施例提供的音频标签的设置装置的结构示意图。参照与5，音频标签的设置装置包括：

第一获取模块501，用于获取音频；

切分模块502，用于切分音频为各个子音频；

标签设置模块503，通过音频标签设置模型为子音频设置标签；

整合模块504，用于整合各子音频的标签，生成音频的完整标签。

本申请提供的音频标签的设置装置中，将完整音频切分为各个子音频，通过音频标签设置模型直接为子音频设置标签，整合各个标签得到完整音频的完整标签。如此，在为音频设置标签的过程中，可以直接对音频进行操作。与背景技术中的方案相比较，避免了将音频转化为文字的过程，保留音频的语调语气，更加全面的为音频设置标签。同时，由于目前的语音识别技术的效率和准确率偏低，所以采用背景技术中的方案会降低为音频设置标签的效率的准确率。而本申请提供的方案中，避免使用语音识别技术将音频识别为文字，提高为音频设置标签的效率的准确率。

切分模块502具体用于：

预处理完整音频；

确定完整音频中的音频段和静音段；

按照音频段和静音段切分完整音频，并将音频段保留为子音频。

可选的，预处理完整音频包括：

转码完整音频为相同采样率、相同采样位深、相同比特率和相同编码方式的音频格式。

可选的，确定完整音频中的音频段和静音段所采用算法为：语音端点检测算法。

可选的，标签设置模块503具体用于：

对子音频进行分帧；

分别提取每一帧子音频的音频特征；

整合每一帧子音频的音频特征，得到音频特征矩阵；

向BN层输入第二输出数据，得到第三输出数据；

向最大池化层输入第三输出数据，得到第四输出数据；

向全连接+softmax层输入第四输出数据，得到子音频对应各标签的概率，选择概率最大的标签作为当前子音频的标签。

可选的，音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。

可选的，预训练的音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。

可选的，音频标签的设置装置，还包括：

第二获取模块，用于获取终端上传的完整标签是否合适的判断结果；判断结果包括：是或否；

可选的，音频标签的设置装置，还包括：

第三获取模块，用于若判断结果为否，获取终端上传的完整标签。

图6是本申请一实施例提供的音频标签的设置设备的结构示意图。参照与6，音频标签的设置设备，包括：

处理器602，以及与处理器相连接的存储器601；

存储器601用于存储计算机程序，计算机程序至少用于执行本申请实施例的音频标签的设置方法；

处理器用于调用并执行存储器中的计算机程序。

本申请提供的音频标签的设置设备中，将完整音频切分为各个子音频，通过音频标签设置模型直接为子音频设置标签，整合各个标签得到完整音频的完整标签。如此，在为音频设置标签的过程中，可以直接对音频进行操作。与背景技术中的方案相比较，避免了将音频转化为文字的过程，保留音频的语调语气，更加全面的为音频设置标签。同时，由于目前的语音识别技术的效率和准确率偏低，所以采用背景技术中的方案会降低为音频设置标签的效率的准确率。而本申请提供的方案中，避免使用语音识别技术将音频识别为文字，提高为音频设置标签的效率的准确率。

本申请还提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现本申请实施例的音频标签的设置方法中各个步骤。

关于上述实施例中的装置和设备，其中各个模块和部件执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种音频标签的设置方法，其特征在于，包括：

获取完整音频；

切分所述完整音频，得到至少两个子音频；

整合各所述子音频的标签，生成所述完整音频的完整标签；

若所述判断结果为否，获取所述终端上传的合适的完整标签；

以所述终端上传的合适的完整标签和所述完整音频为训练数据，训练所述音频标签设置模型；

所述通过预先训练得到的音频标签设置模型为所述子音频设置标签包括：

对所述子音频进行分帧；

分别提取每一帧子音频的音频特征；

整合所述每一帧子音频的音频特征，得到音频特征矩阵；

向BN层输入所述第二输出数据，得到第三输出数据；

向最大池化层输入所述第三输出数据，得到第四输出数据；

2.根据权利要求1所述的方法，其特征在于，所述切分所述完整音频，得到至少两个子音频，包括：

预处理所述完整音频；

确定所述完整音频中的音频段和静音段；

3.根据权利要求2所述的方法，其特征在于，所述预处理所述完整音频包括：

4.根据权利要求2所述的方法，其特征在于，所述确定所述完整音频中的音频段和静音段包括：

5.根据权利要求1所述的方法，其特征在于，所述音频特征矩阵为梅尔倒谱系数MFCC特征矩阵。

6.根据权利要求1～5任一项所述的方法，其特征在于，所述音频标签设置模型是基于预先采集的音频和标签作为训练数据训练得到。

7.一种音频标签的设置装置，其特征在于，包括：

第一获取模块，用于获取音频；

切分模块，用于切分所述音频为各个子音频；

整合模块，用于整合各所述子音频的标签，生成所述音频的完整标签；

第三获取模块，用于若所述判断结果为否，获取所述终端上传的完整标签；

训练模块，用于以所述终端上传的完整标签和完整音频为训练数据，训练所述音频标签设置模型；

其中，所述通过预先训练得到的音频标签设置模型为所述子音频设置标签包括：

对所述子音频进行分帧；

分别提取每一帧子音频的音频特征；

整合所述每一帧子音频的音频特征，得到音频特征矩阵；

向BN层输入所述第二输出数据，得到第三输出数据；

向最大池化层输入所述第三输出数据，得到第四输出数据；

8.一种为音频设置标签的设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行权利要求1-6任一项所述的音频标签的设置方法；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-6任一项所述的音频标签的设置方法中各个步骤。