CN111599381A

CN111599381A - 音频数据处理方法、装置、设备及计算机存储介质

Info

Publication number: CN111599381A
Application number: CN202010477575.8A
Authority: CN
Inventors: 黄中一
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-08-28

Abstract

本申请公开了一种音频数据处理方法、装置、设备及计算机存储介质，属于音频数据分析技术领域。所述方法包括：获取音频数据的至少两种音频特征，所述至少两种音频特征与至少两个判别模型一一对应，每个所述判别模型用于根据对应的音频特征输出用户特征；将每个所述音频特征输入对应的判别模型，得到所述至少两种音频特征对应的至少两个用户特征；根据所述至少两个用户特征确定所述音频数据对应的目标用户特征。上述技术方案，解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。

Description

音频数据处理方法、装置、设备及计算机存储介质

技术领域

本申请涉及音频数据分析技术领域，特别涉及一种音频数据处理方法、装置、设备及计算机存储介质。

背景技术

服务器可以根据用户的音频数据获取用户特征，以便服务器根据用户特征为用户匹配(或推荐)其他用户，用户特征可以包括用户性别信息以及情绪类型中的至少一种。

相关技术中的一种音频数据处理方法中，服务器将用户的音频数据输入判别模型中，该判别模型即可输出用户的性别信息与情绪类型。

但是，这种音频数据处理方法得到的用户的性别信息与情绪类型为单一的结果，可选择性较低，导致这种音频数据处理方法准确性较低。

发明内容

本申请实施例提供了一种音频数据处理方法、装置、设备及计算机存储介质。所述技术方案如下：

根据本申请的第一方面，提供了一种音频数据处理方法，所述音频数据处理方法包括：

获取音频数据的至少两种音频特征，所述至少两种音频特征与至少两个判别模型一一对应，每个所述判别模型用于根据对应的音频特征输出用户特征；

将每个所述音频特征输入对应的判别模型，得到所述至少两种音频特征对应的至少两个用户特征；

根据所述至少两个用户特征确定所述音频数据对应的目标用户特征。

可选的，所述获取音频数据的至少两种音频特征之前，所述方法还包括：

获取训练音频数据以及所述训练音频数据对应的用户特征；

获取所述训练音频数据的至少两种音频特征；

根据所述训练音频数据的至少两种音频特征以及所述用户该特征分别训练至少两个初始判别模型，得到所述至少两个判别模型。

可选的，每个所述用户特征包括至少一类子特征，所述用户特征的数量为至少三个，

所述根据所述至少两个用户特征确定所述音频数据对应的目标用户特征，包括：

将至少三个所述用户特征中，每一类子特征中出现次数最多的子特征确定为所述目标用户特征中的子特征。

获取原始音频数据；

对所述原始音频数据进行预处理，得到所述音频数据，所述预处理包括重采样，预加重以及去除所述初始音频信号中的静音部分中的至少一种。

可选的，所述用户特征中的子特征包括性别信息和情绪类型中的至少一种。

可选的，所述判别模型包括深度学习神经网络模型，高斯混合模型，隐马尔可夫模型以及主成分分析模型中的至少一种。

可选的，所述音频特征包括：

基频特征，共振峰，频谱包络特征以及声压级特征中的至少两种。

另一方面，提供了一种音频数据处理装置，所述音频数据处理装置包括：

获取模块，用于获取音频数据的至少两种音频特征，所述至少两种音频特征与至少两个判别模型一一对应，每个所述判别模型用于根据对应的音频特征输出用户特征；

输入模块，用于将每个所述音频特征输入对应的判别模型，得到所述至少两种音频特征对应的至少两个用户特征；

确定模块，用于根据所述至少两个用户特征确定所述音频数据对应的目标用户特征。

又一方面，提供了一种音频数据处理设备，所述音频数据处理设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的音频数据处理方法。

再一方面，提供了一种计算机存储介质，所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的音频数据处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

提供了一种音频数据处理方法，该音频数据处理方法通过将音频数据的至少两种音频特征输入对应的判别模型，可以得到与每种音频特征对应的用户特征，如此便能根据至少两种音频特征确定音频数据对应的目标用户特征。上述技术方案，解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频数据处理方法的实施环境的示意图；

图2是本申请实施例提供的一种音频数据处理方法的流程图；

图3是本申请实施例提供的另一种音频数据处理方法的流程图；

图4是本申请实施例提供的一种根据训练音频数据得到至少两个判别模型的流程图；

图5是本申请实施例提供的一种根据音频数据得到目标用户特征的流程图；

图6是本申请实施例提供的一种音频数据处理装置的框图；

图7是本申请实施例提供的一种音频数据处理装置的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在一种音频数据处理方法中，服务器将用户的音频数据输入判别模型中，该判别模型即可输出用户的性别信息与情绪类型。

本申请实施例提供了一种音频数据处理方法、装置、设备及计算机存储介质。

图1是本申请实施例提供的音频数据处理方法的实施环境的示意图，该实施环境可以包括服务器11以及终端12。

服务器11可以为一个服务器或服务器集群。

终端12可以为手机、平板电脑、笔记本电脑、智能可穿戴设备等各种终端。

终端12可以通过有线或无线的方式(图1示出的是以无线的方式进行连接的情况)与服务器11连接。

图2是本申请实施例提供的一种音频数据处理方法的流程图。该音频数据处理方法可以应用于图1所示实施环境的服务器中，该音频数据处理方法可以包括：

步骤201，获取音频数据的至少两种音频特征。至少两种音频特征与至少两个判别模型一一对应，每个判别模型用于根据对应的音频特征输出用户特征。

步骤202，将每个音频特征输入对应的判别模型，得到至少两种音频特征对应的至少两个用户特征。

步骤203，根据至少两个用户特征确定音频数据对应的目标用户特征。

综上所述，本申请实施例提供了一种音频数据处理方法，该音频数据处理方法通过将音频数据的至少两种音频特征输入对应的判别模型，可以得到与每种音频特征对应的用户特征，如此便能根据至少两种音频特征确定音频数据对应的目标用户特征。上述技术方案，解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。

图3是本申请实施例提供的另一种音频数据处理方法的流程图，该音频数据处理方法可以应用于图1所示实施环境的服务器中。参考图3可以看出，该音频数据处理方法可以包括：

步骤301，获取训练音频数据以及训练音频数据对应的用户特征。

用户特征可以包括训练音频数据对应的用户的性别信息以及终端获取训练音频数据时该用户的情绪类型。可以通过终端获取用户填写的用户的性别信息以及该用户录制训练音频数据时的情绪类型，训练音频数据以及该训练音频数据对应的用户特征可以从数据库获取，或者，服务器也可以获取终端上传的训练音频数据，再由工作人员人工标定该训练音频数据的用户特征，或者，服务器也可以获取终端上传的训练音频数据以及该训练音频数据对应的用户特征。常见的情绪类型的类别可以包括高兴，伤心，愤怒，紧张以及普通。

步骤302，获取训练音频数据的至少两种音频特征。

音频特征包括基频特征，共振峰，频谱包络特征以及声压级特征中的至少两种。音频特征还可以包括梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents，MFCC)、短时能量和短时平均过零率及其统计特征等其他特征，本申请实施例对此并不进行限制。

服务器可以从音频数据中获取至少两种音频特征，服务器可以根据每种音频特征从不同的角度分析训练音频数据，也即是服务器可以对训练音频数据进行较为全面的分析。

需要说明的是，服务器在获取训练音频数据的至少两种音频特征之前，服务器可以对训练音频数据进行预处理，预处理可以包括重采样，预加重以及去除音频信号中的静音部分中的至少一种。

步骤303，根据训练音频数据的至少两种音频特征以及训练音频数据对应的用户该特征分别训练至少两个初始判别模型，得到至少两个判别模型。

判别模型包括深度学习神经网络模型，高斯混合模型，隐马尔可夫模型以及主成分分析模型中的至少一种。至少两个初始判别模型可以为同一类型的模型，也可以为不同类型的模型，本申请实施例对此并不进行限制。

服务器可以将训练音频数据的音频特征作为初始判别模型的输入，将训练音频数据对应的用户特征作为初始判别模型的输出，对初始判别模型进行训练，得到判别模型。该判别模型可以根据音频数据的音频特征输出该音频数据对应的用户特征。服务器可以根据训练音频数据的每种音频特征训练一个与该音频特征对应的判别模型。

示例性的，请参考图4，其为本申请实施例提供的一种根据训练音频数据得到至少两个判别模型的流程图。终端可以从声音拾取模块获取训练音频数据。该声音拾取模块可以为终端中的声音拾取模块，也可以为终端外设的声音拾取模块。服务器可以获取终端上传的训练音频数据，服务器还可以获取该训练音频数据对应的用户特征，用户特征包括用户的性别信息以及用户在录制该训练音频数据时的情绪类型。服务器先对获取到的训练音频数据进行预处理，之后可以获取该训练音频数据的四种音频特征。当服务器获取到的训练数据的音频特征包括基频特征，共振峰，频谱包络特征以及声压级特征时，服务器可以根据训练数据的每种音频特征以及训练数据对应的用户特征训练一个与该音频特征对应的判别模型。也即是服务器可以训练四个判别模型分别与训练数据的四种音频特征对应。

步骤301至步骤303为训练初始判别模型并得到判别模型的步骤，步骤304至步骤308为应用判别模型获取音频数据对应的用户特征的步骤。

步骤304，获取原始音频数据。

服务器可以获取终端上传的原始音频数据，该原始音频数据为终端获取到的未处理的音频数据。终端可以提示用户进行原始音频数据的获取，并获取用户的原始音频数据(例如可以提示用户读出预定的语句或数字)，之后再上传至服务器。

步骤305，对原始音频数据进行预处理，得到音频数据。预处理包括重采样，预加重以及去除初始音频信号中的静音部分中的至少一种。

服务器可以对原始音频数据进行预处理，得到音频数据。重采样可以对原始音频数据进行优化。原始音频数据在传输中会收到一定的损失，服务器可以对原始音频数据进行预加重以使服务器获取较好的音频数据。去除初始音频信号中的静音部分可以方便服务器对音频信号进行处理。

步骤306，获取音频数据的至少两种音频特征。至少两种音频特征与至少两个判别模型一一对应，每个判别模型用于根据对应的音频特征输出用户特征。

服务器可以获取音频数据的至少两种音频特征，该至少两种音频特征应与步骤303中至少两个判别模型一一对应。

步骤307，将每个音频特征输入对应的判别模型，得到至少两种音频特征对应的至少两个用户特征。

服务器可以将音频数据的每种音频特征输入对应的判别模型，每个判别模型可以根据对应的音频特征输出用户特征。用户特征可以包括用户的性别信息以及用户在录制原始音频数据时的情绪类型中的至少一种。

常见情绪类型的类别包括高兴，伤心，愤怒，紧张以及普通。普通表示用户在录制初始音频数据时的情绪较为稳定。

服务器根据至少两种音频特征得到的与至少两种音频特征对应的用户特征可能相同，也可能不同。由于音频特征包括的信息不同，将同一音频数据的至少两种音频特征输入对应的判别模型后，得到的至少两个用户特征可能相同也可能不同。

示例性的，服务器可以将情绪类型中的高兴设置为第1类，伤心设置为第2类，愤怒设置为第3类，紧张设置为第4类，普通设置为第5类，服务器还可以对用户的性别信息进行分类，男性用户为第6类，女性用户为第7类。音频特征包括基频特征，共振峰，频谱包络特征以及声压级特征时，将基频特征输入对应的判别模型后，该判别模型的输出可以为4，6，也即是根据基频特征得到用户特征的情绪类型为第4类，性别信息为第6类。将共振峰输入对应的判别模型后，该判别模型的输出可以为5，6。将频谱包络特征输入对应的判别模型后，该判别模型的输出可以为4，6。将声压级特征输入对应的判别模型后，该判别模型的输出可以为4，7。服务器可以将每个判别模型输出的情绪类型组合为情绪类型向量，将用户的性别组合为性别特征向量，也即是服务器可以得到情绪类型向量[4，5，4，4]，性别特征向量[6，6，6，7]，服务器可以对这两个特征向量进行处理，以得到目标用户特征。

步骤308，根据至少两个用户特征确定音频数据对应的目标用户特征。

服务器可以根据至少两个判别模型输出的用户特征确定音频数据对应的目标用户特征。服务器可以使用目标用户特征为用户匹配(或推荐)其他用户。目标用户特征可以包括用户的性别信息，用户的情绪类型以及用户的性别与情绪类型的组合，本申请实施例对此并不进行限制。

每个用户特征包括至少一类子特征，用户特征的数量为至少三个时，将至少三个用户特征中，每一类子特征中出现次数最多的子特征确定为目标用户特征中的子特征。用户特征中的子特征包括性别信息和情绪类型中的至少一种。

其中，用户特征的子特征包括用户的性别信息，用户的情绪类型以及用户的性别信息与情绪类型的组合种的至少一种。当用户特征的数量为至少三个时，服务器可以将每一类子特征中出现次数最多的子特征确定为目标用户特征中的子特征。服务器还可以将第一音频特征对应的用户特征确定为目标用户特征，该第一音频特征为操作人员根据实际情况选择的任一音频特征，本申请实施例对此并不进行限制。

示例性的，请参考图5，其为本申请实施例提供的一种根据音频数据得到目标用户特征的流程图。终端可以从声音拾取模块获取原始音频数据。该声音拾取模块可以为终端中的声音拾取模块，也可以为终端外设的声音拾取模块。服务器可以获取终端上传的远视音频数据，并对该原始音频数据进行预处理，得到音频数据。并获取该音频数据的四个音频特征。当服务器获取到的音频数据的音频特征包括基频特征，共振峰，频谱包络特征以及声压级特征时，服务器可以将每种音频特征分别输入每种音频特征对应的判别模型。也即是服务器可以将四个音频特征输入四个判别模型，得到四个用户特征。将四个用户特征中的情绪类型的类别组合为情绪类型向量，将性别信息的类别组合为性别特征向量。

情绪类型向量为[4，5，4，4]，性别特征向量为[6，6，6，7]时，服务器可以将情绪类型向量中出现次数最多的数字定为目标用户特征中的情绪类型的类别，将性别特征向量中出现次数最多的数字定为目标用户特征中的性别的类别，也即是服务器可以将第4类情绪紧张确定为目标用户特征的一类子特征，将第6类性别男性确定为目标用户的另一类子特征。

示例性的，服务器在得到目标用户特征后，可以选择性别信息匹配，情绪类型匹配，以及性别与情绪类型共同匹配中的至少一种为用户进行匹配。例如，服务器通过用户的原始语音数据得到该用户的目标用户特征为女性用户，情绪类型为普通，则服务器可以选择为该用户匹配男性用户，且该男性用户的情绪为开心。如此便能根据用户特征为用户匹配合适的其他用户。使用本申请实施例提供的音频数据处理方法，可以根据至少两种音频特征得到用户特征，可以较为全面地对用户特征进行分析，并根据实际情况选择合适的目标用户特征，使得音频数据处理方法较为准确。

综上所述，本申请实施例提供了一种音频数据处理方法，该音频数据处理方法通过将音频数据的至少两种音频特征输入对应的判别模型，可以得到与每个音频特征对应的用户特征，如此便能根据至少两种音频特征确定音频数据对应的目标用户特征。上述技术方案，解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。

在一个示例性实施例中，音频数据处理方法可以应用于服务器中，训练音频数据以及该训练音频数据对应的用户特征可以从数据库获取，或者，服务器也可以获取终端上传的训练音频数据，再由工作人员人工标定该训练音频数据的用户特征，或者，服务器也可以获取终端上传的训练音频数据以及该训练音频数据对应的用户特征，服务器获取训练音频数据后可以对该训练音频数据进行预处理，并获取训练音频数据的至少两种音频特征，根据训练音频数据的至少两种音频特征以及训练音频数据对应的用户该特征分别训练至少两个初始判别模型，得到至少两个判别模型。

上述步骤为获取判别模型的步骤，以下步骤为使用判别模型得到目标用户特征的步骤。

服务器可以获取终端上传的原始音频数据，并对原始音频数据进行预处理，得到音频数据。获取音频数据的至少两种音频特征，并将每个音频特征输入对应的判别模型，得到至少两种音频特征对应的至少两个用户特征，根据至少两个用户特征确定音频数据对应的目标用户特征。

图6是本申请实施例提供的一种音频数据处理装置的框图。参考图6可以看出，该音频数据处理装置600可以包括：

获取模块601，用于获取音频数据的至少两种音频特征，至少两种音频特征与至少两个判别模型一一对应，每个判别模型用于根据对应的音频特征输出用户特征。

输入模块602，用于将每个音频特征输入对应的判别模型，得到至少两种音频特征对应的至少两个用户特征。

确定模块603，用于根据至少两个用户特征确定音频数据对应的目标用户特征。

综上所述，本申请实施例提供了一种音频数据处理装置，该音频数据处理装置通过将音频数据的至少两种音频特征输入对应的判别模型，可以得到与每个音频特征对应的用户特征，如此便能根据至少两种音频特征确定音频数据对应的目标用户特征。上述技术方案，解决了相关技术中音频数据处理方法准确性较低的问题。达到了提高音频数据处理方法准确性的效果。

可选地，音频数据处理装置还包括：

数据获取模块，用于获取原始音频数据。

预处理模块，用于对原始音频数据进行预处理，得到音频数据，预处理包括重采样，预加重以及去除音频信号中的静音部分中的至少一种。

可选地，音频数据处理装置还包括：

训练数据获取模块，用于获取训练音频数据以及训练音频数据对应的用户特征。

特征获取模块，用于获取训练音频数据的至少两种音频特征。

训练模块，用于根据训练音频数据的至少两种音频特征以及训练音频数据对应的用户该特征分别训练至少两个初始判别模型，得到至少两个判别模型。

可选地，每个用户特征包括至少一类子特征，用户特征的数量为至少三个，确定模块603还用于将至少三个用户特征中，每一类子特征中出现次数最多的子特征确定为目标用户特征中的子特征。

可选地，用户特征中的子特征包括性别信息和情绪类型中的至少一种。

可选地，判别模型包括深度学习神经网络模型，高斯混合模型，隐马尔可夫模型以及主成分分析模型中的至少一种。

可选地，音频特征包括基频特征，共振峰，频谱包络特征以及声压级特征中的至少两种。

图7是本申请实施例提供的一种音频数据处理装置700的结构示意图，该音频数据处理装置700可以为服务器。示例地，如图7所示，该音频数据处理装置700包括中央处理单元(Central Processing Unit，CPU)701、存储器702，以及连接存储器702和中央处理单元701的系统总线703，存储器702可以包括诸如硬盘或者紧凑型光盘只读储存器(CompactDisc Read-Only Memory，CD-ROM)之类的计算机可读介质(未示出)。

不失一般性，计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦写可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。

上述存储器702还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行，以实现本申请实施例提供的音频数据处理方法。

本申请实施例还提供了一种存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如上述方法实施例所提供的音频数据处理方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取音频数据的至少两种音频特征之前，所述方法还包括：

获取训练音频数据以及所述训练音频数据对应的用户特征；

获取所述训练音频数据的至少两种音频特征；

根据所述训练音频数据的至少两种音频特征以及所述训练音频数据对应的用户特征分别训练至少两个初始判别模型，得到所述至少两个判别模型。

3.根据权利要求1所述的方法，其特征在于，每个所述用户特征包括至少一类子特征，所述用户特征的数量为至少三个，

4.根据权利要求3所述的方法，其特征在于，所述用户特征中的子特征包括性别信息和情绪类型中的至少一种。

5.根据权利要求1所述的方法，其特征在于，所述获取音频数据的至少两种音频特征之前，所述方法还包括：

获取原始音频数据；

6.根据权利要求1或3任一所述的方法，其特征在于，所述判别模型包括深度学习神经网络模型，高斯混合模型，隐马尔可夫模型以及主成分分析模型中的至少一种。

7.根据权利要求1所述的方法，其特征在于，所述音频特征包括：

8.一种音频数据处理装置，其特征在于，所述音频数据处理装置包括：

9.一种音频数据处理设备，其特征在于，所述音频数据处理设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的音频数据处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的音频数据处理方法。