CN116230022A

CN116230022A - 音频的转换方法、装置、计算机设备和存储介质

Info

Publication number: CN116230022A
Application number: CN202310060230.6A
Authority: CN
Inventors: 黄玮佳
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-06-06

Abstract

本申请涉及一种音频的转换方法、装置、计算机设备、存储介质和计算机程序产品，涉及人工智能技术领域。所述方法包括：获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征；将所述音频特征和所述人脸图像特征输入情绪识别模型，得到所述目标用户对应的目标情绪识别结果；在各预设的声音转换策略中，确定与所述目标情绪识别结果相匹配的目标声音转换策略；根据所述目标声音转换策略，确定所述业务设备的待输出音频。本方案能够使待输出音频匹配目标用户的实时情绪，进而提高交互效果。

Description

音频的转换方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种音频的转换方法、装置、计算机设备和存储介质。

背景技术

目前，为了便于目标用户理解业务操作，目标用户在操作业务设备的业务页面时，业务设备通过业务页面的文字、以及交易音频与目标用户进行人机交互。其中，业务设备中预先存储有待输出音频。在响应于目标用户的业务操作请求时，业务设备基于待输出音频输出交易音频。

然而，预先存储的待输出音频的音频参数(如声调、音量、以及音色等)是固定的，导致基于待输出音频输出的交易音频比较单一、交互效果较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够使待输出音频匹配目标用户的实时情绪，提高交互效果的音频的转换方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种音频的转换方法。所述方法包括：

获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征；

将所述音频特征和所述人脸图像特征输入情绪识别模型，得到所述目标用户对应的目标情绪识别结果；

在各预设的声音转换策略中，确定与所述目标情绪识别结果相匹配的目标声音转换策略；

根据所述目标声音转换策略，确定所述业务设备的待输出音频。

在其中一个实施例中，所述情绪识别模型包括人脸图像识别子模型、音频识别子模型、以及融合识别子模型；所述将所述音频特征和所述人脸图像特征输入情绪识别模型，得到所述目标用户对应的目标情绪识别结果包括：

将所述音频特征输入至所述音频识别子模型，得到音频情绪识别结果；

将所述人脸图像特征输入至所述人脸图像识别子模型，得到图像情绪识别结果；

将所述音频情绪识别结果、以及所述图像情绪识别结果输入至所述融合识别子模型，得到目标情绪识别结果。

在其中一个实施例中，所述人脸图像识别子模型包括残差网络、多个第一双重注意力机制、第一长短期记忆网络、第一拼接层、以及第一情绪识别网络；所述将所述人脸图像特征输入至所述人脸图像识别子模型，得到图像情绪识别结果包括：

将所述人脸图像特征输入至包含多个残差子网络的所述残差网络，得到每个所述残差子网络输出的图像语义特征、以及所述残差网络输出的目标图像语义特征；其中，在所述残差网络中除最后一个残差子网络之外的残差子网络的输出是下一个的残差子网络的输入；

针对每个所述图像语义特征，将所述图像语义特征输入至所述第一双重注意力机制，得到所述图像语义特征对应的图像加权特征；

将各所述图像加权特征分别输入至所述第一长短期记忆网络中对应的输入神经元，得到图像上下文特征；

将所述图像上下文特征、以及所述目标图像语义特征输入至所述第一拼接层，得到图像融合特征；

将所述图像融合特征输入至所述第一情绪识别网络，得到图像情绪识别结果。

在其中一个实施例中，所述音频识别子模型包括第二双重注意力机制、第二长短期记忆网络、以及第二情绪识别网络；所述将所述音频特征输入至所述音频识别子模型，得到音频情绪识别结果包括：

将所述音频特征输入至所述第二双重注意力机制，得到所述音频加权特征；

将所述音频加权特征输入至所述第二长短期记忆网络中，得到音频上下文特征；

将所述音频上下文特征输入至所述第二情绪识别网络，得到音频情绪识别结果。

在其中一个实施例中，所述获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征包括：

在达到特征提取的触发条件的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征。

在其中一个实施例中，所述在达到特征提取的触发条件的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征包括：

获取业务设备的待输出音频的已确定次数；

在所述已确定次数属于第一预设区间的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征；

在所述已确定次数属于预设第二区间、且当前的目标声音转换策略与上一次目标声音转换策略不相同的情况下，获取所述目标用户在操作所述业务设备的业务页面时的音频特征和人脸图像特征；其中，所述第一预设区间的上限值小于所述第二预设区间的下限值。

获取目标用户在操作业务设备的业务页面时的音频数据和人脸图像；

确定所述音频数据的梅尔频率倒谱系数，得到音频特征；

根据预设的分割策略，对所述人脸图像进分割，得到各人脸子图像，并根据预设的缩放策略，对所述人脸子图像进行缩放，得到人脸图像特征。

在其中一个实施例中，所述目标情绪识别结果包括积极情绪概率和消极情绪概率；所述在各预设的声音转换策略中，确定与所述目标情绪识别结果相匹配的目标声音转换策略包括：

计算所述积极情绪概率与所述消极情绪概率的差异度；

在所述差异度大于或者等于预设差异度阈值的情况下，若所述消极情绪概率大于所述积极情绪概率，则将重度消极情绪对应的声音转换策略作为目标声音转换策略；

在所述差异度小于所述预设差异度阈值的情况下，基于消极情绪概率、积极情绪概率以及声音转换策略的映射关系，确定与所述目标情绪识别结果包含的积极情绪概率和消极情绪概率相匹配的目标声音转换策略。

在其中一个实施例中，所述方法还包括：

在所述差异度大于或者等于预设差异度阈值的情况下，若所述积极情绪概率大于所述消极情绪概率，则保持当前的声音转换策略不变。

第二方面，本申请还提供了一种音频的转换装置。所述装置包括：

第一获取模块，用于获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征；

第一确定模块，用于将所述音频特征和所述人脸图像特征输入情绪识别模型，得到所述目标用户对应的目标情绪识别结果；

第二确定模块，用于在各预设的声音转换策略中，确定与所述目标情绪识别结果相匹配的目标声音转换策略；

第三确定模块，用于根据所述目标声音转换策略，确定所述业务设备的待输出音频。

在其中一个实施例中，所述情绪识别模型包括人脸图像识别子模型、音频识别子模型、以及融合识别子模型；所述第一确定模块具体用于：

在其中一个实施例中，所述人脸图像识别子模型包括残差网络、多个第一双重注意力机制、第一长短期记忆网络、第一拼接层、以及第一情绪识别网络；所述第一确定模块具体用于：

在其中一个实施例中，所述音频识别子模型包括第二双重注意力机制、第二长短期记忆网络、以及第二情绪识别网络；所述第一确定模块具体用于：

在其中一个实施例中，所述第一获取模块具体用于：

获取业务设备的待输出音频的已确定次数；

在其中一个实施例中，所述第一获取模块具体用于：

确定所述音频数据的梅尔频率倒谱系数，得到音频特征；

在其中一个实施例中，所述目标情绪识别结果包括积极情绪概率和消极情绪概率；所述第二确定模块具体用于：

计算所述积极情绪概率与所述消极情绪概率的差异度；

在其中一个实施例中，所述第二确定模块还用于：

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以第一方面所述的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以第一方面所述的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时以第一方面所述的步骤。

上述音频的转换方法、装置、计算机设备、存储介质和计算机程序产品，通过获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征；将音频特征和人脸图像特征输入情绪识别模型，得到目标用户对应的目标情绪识别结果；在各预设的声音转换策略中，确定与目标情绪识别结果相匹配的目标声音转换策略；根据目标声音转换策略，确定业务设备的待输出音频。上述方案中，根据音频特征、人脸图像特征、情绪识别模型、以及各预设的声音转换策略，确定目标声音转换策略，并根据该目标声音转换策略确定业务设备的待输出音频。也就是说，本方案可以根据目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征，来实时转换业务设备的待输出音频，因此，待输出音频匹配目标用户的实时情绪，交互效果好。

附图说明

图1为一个实施例中音频的转换方法的流程示意图；

图2为一个实施例中情绪识别模型的结构示意图；

图3为一个实施例中图像情绪识别结果的确定方法的流程示意图；

图4为一个实施例中人脸图像识别子模型的结构示意图；

图5为一个实施例中残差块的结构示意图；

图6为一个实施例中音频识别子模型的结构示意图；

图7为一个实施例中目标声音转换策略的确定方法的流程示意图；

图8为另一个实施例中音频的转换方法的流程示意图；

图9为一个实施例中音频的转换装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种音频的转换方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征。

本申请实施例中，终端获取目标用户在操作业务设备的业务页面时的音频数据和人脸图像。其中，音频数据是目标用户在操作业务设备时域业务设备进行人机交互时产生的音频。终端根据预设的音频预处理策略，对音频数据进行预处理，得到音频特征。在一个实施例中，音频特征是音频数据的梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCCs)。终端根据预设的图像预处理策略，对人脸图像进行预处理，得到人脸图像特征。

步骤104，将音频特征和人脸图像特征输入情绪识别模型，得到目标用户对应的目标情绪识别结果。

其中，情绪识别模型包括人脸图像识别子模型、音频识别子模型、以及融合识别子模型。人脸图像识别子模型包括残差网络、多个第一双重注意力机制、第一长短期记忆网络、第一拼接层、以及第一情绪识别网络。音频识别子模型包括第二双重注意力机制、第二长短期记忆网络、以及第二情绪识别网络。

本申请实施例中，如图2所示，终端将音频特征输入至情绪识别模型的音频识别子模型、以及将人脸图像特征输入至情绪识别模型的人脸图像识别子模型，得到情绪识别模型输出的目标用户对应的目标情绪识别结果。在一个实施例中，目标情绪识别结果包括积极情绪概率和消极情绪概率。其中，积极情绪概率的范围是[0,1]，消极情绪概率[0,1]。

步骤106，在各预设的声音转换策略中，确定与目标情绪识别结果相匹配的目标声音转换策略。

本申请实施例中，终端根据目标情绪识别结果，在各预设的声音转换策略中，确定与目标情绪识别结果相匹配的目标声音转换策略。可选的，声音转换策略可以是语料数据集，也可以是音频参数调整策略。在一个实施例中，终端根据目标情绪识别结果、以及预设的情绪识别结果与声音转换策略的第一对应关系，匹配得到该目标情绪识别结果对应的目标声音转换策略。在一个实施例中，第一对应关系可以以列表形式进行存储，如第一对应关系表。其中，第一对应关系表包括多个键值对，每个键值对由情绪识别结果、以及该情绪识别结果对应的声音转换策略组成。具体的，终端根据目标情绪识别结果，在第一对应关系表中进行检索，得到包含目标情绪识别结果的键值对，并将该键值对中的声音转换策略作为目标情绪识别结果对应的目标声音转换策略。在一个实施例中，终端根据目标情绪识别结果、以及预设的情绪识别结果与声音转换策略的第一映射关系，确定与该目标情绪识别结果相匹配的目标声音转换策略。具体的，终端计算目标情绪识别结果中积极情绪概率与消极情绪概率的差异度，并根据该差异度、以及预设的差异度与第二映射关系的对应关系，查询得到该差异度对应的第二映射关系。其中，第二映射关系用于表征消极情绪概率、积极情绪概率以及声音转换策略的映射关系。终端根据目标情绪识别结果中积极情绪概率与消极情绪概率、以及差异度对应的第二映射关系，映射得到与该目标情绪识别结果相匹配的目标声音转换策略。

步骤108，根据目标声音转换策略，确定业务设备的待输出音频。

本申请实施例中，终端根据目标声音转换策略，确定业务设备的待输出音频。在目标声音转换策略是目标语料数据集的情况下，终端将目标语料数据集中的语料数据作为业务设备的待输出音频。在目标声音转换策略是目标音频参数调整策略的情况下，终端根据目标音频参数调整策略，对原待输出音频的音频参数进行调整，得到业务设备的待输出音频。

上述音频的转换方法中，上述方案中，根据音频特征、人脸图像特征、情绪识别模型、以及各预设的声音转换策略，确定目标声音转换策略，并根据该目标声音转换策略确定业务设备的待输出音频。也就是说，本方案可以根据目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征，来实时转换业务设备的待输出音频，因此，待输出音频匹配目标用户的实时情绪，交互效果好。

在一个实施例中，情绪识别模型包括人脸图像识别子模型、音频识别子模型、以及融合识别子模型；将音频特征和人脸图像特征输入情绪识别模型，得到目标用户对应的目标情绪识别结果包括：

将音频特征输入至音频识别子模型，得到音频情绪识别结果；将人脸图像特征输入至人脸图像识别子模型，得到图像情绪识别结果；将音频情绪识别结果、以及图像情绪识别结果输入至融合识别子模型，得到目标情绪识别结果。

本申请实施例中，如图2所示，终端将音频特征输入至音频识别子模型，输出得到音频情绪识别结果。在一个实施例中，音频情绪识别结果包括音频积极情绪概率和音频消极情绪概率。其中，音频积极情绪概率的范围是[0,1]，音频消极情绪概率[0,1]。终端将人脸图像特征输入至人脸图像识别子模型，输出得到图像情绪识别结果。在一个实施例中，图像情绪识别结果包括图像积极情绪概率和图像消极情绪概率。其中，图像积极情绪概率的范围是[0,1]，图像消极情绪概率[0,1]。终端将音频情绪识别结果、以及图像情绪识别结果输入至融合识别子模型，输出得到目标情绪识别结果。

本实施例中，基于音频识别子模型对音频特征进行情绪识别，得到音频情绪识别结果；基于人脸图像识别子模型对人脸图像进行情绪识别，得到图像情绪识别结果；然后，基于音频情绪识别结果、以及图像情绪识别结果，确定目标情绪识别结果。因此，本方案得到的目标情绪识别结果是基于音频特征、以及人脸图像特征确定的，从多维度确定目标用户的情绪，提高了情绪识别的准确率。

在一个实施例中，如图3所示。人脸图像识别子模型包括残差网络、多个第一双重注意力机制、第一长短期记忆网络、第一拼接层、以及第一情绪识别网络；将人脸图像特征输入至人脸图像识别子模型，得到图像情绪识别结果包括：

步骤302，将人脸图像特征输入至包含多个残差子网络的残差网络，得到每个残差子网络输出的图像语义特征、以及残差网络输出的目标图像语义特征。

其中，残差网络包括卷积层、多个残差子网络、以及池化层。在残差网络中，除最后一个残差子网络之外的残差子网络的输出是下一个的残差子网络的输入，最后一个残差子网络的输出是池化层的输入。

本申请实施例中，如图4所示，终端将人脸图像特征输入至残差网络的卷积层，得到卷积层的输出结果。终端将卷积层的输出结果输入至残差网络的第一个残差子网络中，得到第一个残差子网络输出的图像语义特征。终端将第一个残差子网络输出的图像语义特征输入至该残差网络的第二个残差子网络中，得到第二个残差子网络输出的图像语义特征。以此类推，终端将倒数第二个残差子网络输出的图像语义特征输入至该残差网络的最后一个残差子网络中，得到最后一个残差子网络输出的图像语义特征。终端将最后一个残差子网络输出的图像语义特征输入至残差网络中的池化层，输出目标图像语义特征。可选的，池化层可以是平均池化层，也可以是最大池化层。为了方便区分，将第N个残差子网络输出的图像语义特征称为第N图像语义特征，其中，N为正整数。在一个实施例中，N为4。每个残差子网络包括至少一个残差块。各残差子网络所包含的残差块的数目可以相同、也可以不同，但每个残差块的结构是相同的。在一个实施例中，残差网络包括一个卷积层、四个残差子网络、以及一个平均池化层。其中，第一个残差子网络由3个残差块组成，第二个残差子网络由4个残差块组成，第三个残差子网络由6个残差块组成，第四个残差子网络由3个残差块组成，各残差块的结构相同。在一个实施例中，残差子网络中的残差块由三个残差卷积层构成，第一个残差卷积层的卷积核是1*1、通道数为64的卷积核，第二个残差卷积层的卷积核是3*3、通道数为64的卷积核，第三个残差卷积层的卷积核是1*1、通道数为256的卷积核，具体的，如图5所示。步骤304，针对每个图像语义特征，将图像语义特征输入至第一双重注意力机制，得到图像语义特征对应的图像加权特征。

本申请实施例中，针对每个图像语义特征，终端将图像语义特征输入至第一双重注意力机制，输出图像语义特征对应的图像加权特征。其中，第一双重注意力机制包括通道注意力机制和空间注意力机制。具体的，针对每个图像语义特征，终端将图像语义特征输入至第一双重注意力机制的通道注意力机制，输出初始图像加权特征。终端将图像通道语义特征输入至第一双重注意力机制的空间注意力机制，输出图像加权特征。可以理解，第一双重注意力机制的个数等于残差子网络的个数。

步骤306，将各图像加权特征分别输入至第一长短期记忆网络中对应的输入神经元，得到图像上下文特征。

本申请实施例中，终端将各图像加权特征分别输入至第一长短期记忆网络中对应的输入神经元，输出图像上下文特征。其中，第一长短期记忆网络是长短期记忆网络(Bidirectional Long Short-Term Memory，BiLSTM)。

步骤308，将图像上下文特征、以及目标图像语义特征输入至第一拼接层，得到图像融合特征。

本申请实施例中，终端将第一长短期记忆网络输出的图像上下文特征、以及残差网络的池化层输出的目标图像语义特征输入至第一拼接层，输出图像融合特征。其中，第一拼接层是concat层。

步骤310，将图像融合特征输入至第一情绪识别网络，得到图像情绪识别结果。

本申请实施例中，终端将图像融合特征输入至第一情绪识别网络，输出图像情绪识别结果。其中，第一情绪识别网络包括全连接层、以及sigmoid函数。具体的，终端将图像融合特征输入至第一情绪识别网络的全连接层，输出初始图像情绪识别结果，再将初始图像情绪识别结果输入至第一情绪识别网络的sigmoid函数，输出图像情绪识别结果。

本实施例中，通过人脸图像识别子模型对人脸图像特征进行情绪识别处理，得到图像情绪识别结果，因此，可以从人脸图像的维度来确定目标用户当前的情绪，进而为后续从多维度来确定目标用户的当前情绪提供前提。

在一个实施例中，音频识别子模型包括第二双重注意力机制、第二长短期记忆网络、以及第二情绪识别网络；将音频特征输入至音频识别子模型，得到音频情绪识别结果包括：

将音频特征输入至第二双重注意力机制，得到音频加权特征；将音频加权特征输入至第二长短期记忆网络中，得到音频上下文特征；将音频上下文特征输入至第二情绪识别网络，得到音频情绪识别结果。

本申请实施例中，如图6所示，终端将音频特征输入至第二双重注意力机制，输出音频特征对应的音频加权特征。其中，第二双重注意力机制包括通道注意力机制和空间注意力机制。具体的，终端将音频特征输入至第二双重注意力机制中的通道注意力机制，输出初始音频加权特征。终端将初始音频加权特征输入至第二双重注意力机制的空间注意力机制，输出音频加权特征。终端将音频加权特征分别输入至第二长短期记忆网络，输出音频上下文特征。在一个实施例中，第二长短期记忆网络是长短期记忆网络(Bidirectional LongShort-Term Memory，BiLSTM)。终端将音频上下文特征输入至第二情绪识别网络，得到音频情绪识别结果。在一个实施例中，第二情绪识别网络包括全连接层、以及sigmoid函数。

本实施例中，通过音频识别子模型对音频特征进行情绪识别处理，得到音频情绪识别结果，因此，可以从音频的维度来确定目标用户当前的情绪，进而为后续从多维度来确定目标用户的当前情绪提供前提。

在一个实施例中，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征包括：

本申请实施例中，在达到特征提取的触发条件的情况下，终端获取目标用户在操作业务设备的业务页面时的音频数据和人脸图像。具体的，终端响应于目标用户在操作业务设备的业务页面时通过业务设备发起的第一个操作请求，获取初始请求发起时刻。终端根据该初始请求发起时刻和预设的数据采集策略，计算得到数据采集时刻。具体的，终端根据该初始请求发起时刻和预设的数据采集周期，计算得到数据采集时刻。在当前时刻达到数据采集时刻的情况下，终端采集目标用户在操作业务设备的业务页面时的音频数据和人脸图像。终端根据预设的音频预处理策略，对音频数据进行预处理，得到音频特征。终端根据预设的图像预处理策略，对人脸图像进行预处理，得到人脸图像特征。

本实施例中，通过在达到特征提取的触发条件的情况下，终端获取目标用户的音频特征和人脸图像特征，为后续基于音频特征和人脸图像特征进行情绪识别提供前提。

在一个实施例中，如图6所示，在达到特征提取的触发条件的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征包括：

步骤602，获取业务设备的待输出音频的已确定次数。

本申请实施例中，终端获取业务设备的待输出音频的已确定次数。其中，已确定次数是指步骤108执行的次数。具体的，终端在每次执行完步骤108之后，在原已确定次数的基础上加1得到新的已确定次数。可以理解，已确定次数的初始值为0。

步骤604，在已确定次数属于第一预设区间的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征。

本申请实施例中，在已确定次数属于第一预设区间的情况下，终端获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征。其中，第一预设区间的下限值为0，第一预设区间的上限值为正数。可选的，第一预设区间的上限值可以是1，也可以是2，还可以是3。具体的，在当前时刻达到数据采集时刻、且已确定次数属于第一预设区间的情况下，终端获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征。

步骤606，在已确定次数属于预设第二区间、且当前的目标声音转换策略与上一次目标声音转换策略不相同的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征。

其中，第一预设区间的上限值小于第二预设区间的下限值。

本申请实施例中，在已确定次数属于预设第二区间、且当前的目标声音转换策略与上一次目标声音转换策略不相同的情况下，终端获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征。在一个实施例中，预设第一区间和预设第二区间的并集是下限值为0、上限值为预设第二区间的上限值的区间。示例性的，预设第一区间为[0，1]和预设第二区间为(1，2]，或者，预设第一区间为[0，2)和预设第二区间为[2，3)。具体的，在当前时刻达到数据采集时刻、已确定次数属于预设第二区间、且当前的目标声音转换策略与上一次目标声音转换策略不相同的情况下，终端获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征。

本实施例中，具体的特征提取的触发条件可以是已确定次数属于第一预设区间，或者，已确定次数属于预设第二区间、且当前的目标声音转换策略与上一次目标声音转换策略不相同。因此，可以根据特征提取的触发条件来确定是否需要获取音频特征和人脸图像特征。

获取目标用户在操作业务设备的业务页面时的音频数据和人脸图像；确定音频数据的梅尔频率倒谱系数，得到音频特征；根据预设的分割策略，对人脸图像进分割，得到各人脸子图像，并根据预设的缩放策略，对人脸子图像进行缩放，得到人脸图像特征。

本申请实施例中，终端获取目标用户在操作业务设备的业务页面时的音频数据和人脸图像。终端基于音频数据，确定该音频数据的梅尔频率倒谱系数，并将该音频数据的梅尔频率倒谱系数作为该音频数据的音频特征。终端根据预设的分割策略，对人脸图像进行分割，得到分割后的各人脸子图像。在一个实施例中，人脸子图像的尺寸为256*256。终端根据预设的缩放策略，对每张人脸子图像分别进行缩放，得到缩放后的人脸子图像，并将各缩放后的人脸子图像作为人脸图像特征。在一个实施例中，缩放后的人脸子图像的尺寸为254*254。

本实施例中，终端将音频数据的梅尔频率倒谱系数作为该音频数据的音频特征；对人脸图像通过分割、以及缩放，得到人脸图像特征。因此，本方案可以基于音频数据、以及人脸图像来获取音频特征、以及人脸图像特征，而音频特征、以及人脸图像特征相比于音频数据、以及人脸图像更具有分类性，进而提高基于音频特征、以及人脸图像特征进行情绪识别的情绪识别准确率。

在一个实施例中，如图7所示，目标情绪识别结果包括积极情绪概率和消极情绪概率；在各预设的声音转换策略中，确定与目标情绪识别结果相匹配的目标声音转换策略包括：

步骤702，计算积极情绪概率与消极情绪概率的差异度。

本申请实施例中，终端根据积极情绪概率、以及消极情绪概率，计算得到积极情绪概率与消极情绪概率的差异度。具体的，终端计算积极情绪概率与消极情绪概率的差的绝对值，得到积极情绪概率与消极情绪概率的差异度。

步骤704，在差异度大于或者等于预设差异度阈值的情况下，若消极情绪概率大于积极情绪概率，则将重度消极情绪对应的声音转换策略作为目标声音转换策略。

本申请实施例中，在差异度大于或者等于预设差异度阈值的情况下，终端判断消极情绪概率与积极情绪概率的大小。若消极情绪概率大于积极情绪概率，则终端将重度消极情绪对应的声音转换策略作为目标声音转换策略。在一个实施例中，预设差异度阈值为0.2。

步骤706，在差异度小于预设差异度阈值的情况下，基于消极情绪概率、积极情绪概率以及声音转换策略的映射关系，确定与目标情绪识别结果包含的积极情绪概率和消极情绪概率相匹配的目标声音转换策略。

本申请实施例中，在差异度小于预设差异阈值的情况下，终端判断消极情绪概率与积极情绪概率是否属于同一预设概率区间。可以理解，各预设概率区间的并集为[0，1]。在一个实施例中，预设概率区间包括第一预设概率区间、以及第二预设概率区间。其中，第一预设概率区间为[0，0.5]，第二预设概率区间为(0.5，1]。若消极情绪概率与积极情绪概率属于同一预设概率区间，则终端将平淡情绪对应的声音转换策略作为目标声音转换策略。若消极情绪概率与积极情绪概率属于不同预设概率区间，则终端判断消极情绪概率与积极情绪概率的大小。在消极情绪概率大于积极情绪概率，则终端将轻度消极情绪对应的声音转换策略作为目标声音转换策略。在消极情绪概率小于或者等于积极情绪概率，则终端将轻度积极情绪对应的声音转换策略作为目标声音转换策略。

本实施例中，通过基于积极情绪概率、消极情绪概率、以及差异度，确定目标声音转换策略。因此，采用本方案可以基于目标情绪识别结果来确定目标声音转换策略，进而实现音频的转换。

在一个实施例中，音频的转换方法还包括：

在差异度大于或者等于预设差异度阈值的情况下，若积极情绪概率大于消极情绪概率，则保持当前的声音转换策略不变。

本申请实施例中，在差异度大于或者等于预设差异阈值的情况下，终端判断消极情绪概率与积极情绪概率的大小。若积极情绪概率大于消极情绪概率，则终端保持当前的声音转换策略不变。具体的，在差异度大于或者等于预设差异阈值、且积极情绪概率大于消极情绪概率的情况下，终端将当前的声音转换策略作为目标声音转换策略。

示例性的，步骤702至步骤706、以及本申请实施例确定目标声音转换策略的判断条件，如下表1所示。其中，x是积极情绪概率，y是消极情绪概率，|x-y|是积极情绪概率与消极情绪概率的差异度，0.2为预设差异度阈值，[0，0.5]为第一预设概率区间，(0.5，1]为第二预设概率区间为。

表1

本实施例中，在差异度大于或者等于预设差异度阈值、且积极情绪概率大于消极情绪概率的情况下，可以认为此时目标用户的情绪为重度积极情绪，也就是说，目标用户对业务设备当前输出的音频是较为满意的，所以不需要转换音频。因此，本方案的待输出音频匹配目标用户的实时情绪，交互效果好。

在一个实施例中，如图8所示，还提供了一种音频的转换方法示例，该方法包括以下步骤：

步骤802，获取业务设备的待输出音频的已确定次数。

步骤804，在达到特征提取的触发条件的情况下，获取目标用户在操作业务设备的业务页面时的音频数据和人脸图像。

步骤806，确定音频数据的梅尔频率倒谱系数，得到音频特征。

步骤808，根据预设的分割策略，对人脸图像进分割，得到各人脸子图像，并根据预设的缩放策略，对人脸子图像进行缩放，得到人脸图像特征。

步骤810，将音频特征和人脸图像特征输入情绪识别模型，得到目标用户对应的目标情绪识别结果。其中，目标情绪识别结果包括积极情绪概率和消极情绪概率。

步骤812，计算积极情绪概率与消极情绪概率的差异度。

步骤814，判断差异度是否大于或者等于预设差异度阈值，若是，则执行步骤816；若否，则执行步骤822。

步骤816，判断消极情绪概率是否大于积极情绪概率，若是，则执行步骤818；若否，则执行步骤820。

步骤818，将重度消极情绪对应的声音转换策略作为目标声音转换策略，执行步骤832。

步骤820，保持当前的声音转换策略不变，执行步骤832。

步骤822，判断消极情绪概率与积极情绪概率是否属于同一预设概率区间，若是，则执行步骤824；若否，则执行步骤826。

步骤824，将平淡情绪对应的声音转换策略作为目标声音转换策略，执行步骤832。

步骤826，判断消极情绪概率是否大于积极情绪概率的大小，若是，则执行步骤828；若否，则执行步骤830。

步骤828，将轻度消极情绪对应的声音转换策略作为目标声音转换策略，执行步骤832。

步骤830，将轻度积极情绪对应的声音转换策略作为目标声音转换策略，执行步骤832。

步骤832，根据目标声音转换策略，确定业务设备的待输出音频，返回执行步骤802。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音频的转换方法的音频的转换装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音频的转换装置实施例中的具体限定可以参见上文中对于音频的转换方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种音频的转换装置，包括：

第一获取模块902，用于获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征；

第一确定模块904，用于将音频特征和人脸图像特征输入情绪识别模型，得到目标用户对应的目标情绪识别结果；

第二确定模块906，用于在各预设的声音转换策略中，确定与目标情绪识别结果相匹配的目标声音转换策略；

第三确定模块908，用于根据目标声音转换策略，确定业务设备的待输出音频。

在一个实施例中，情绪识别模型包括人脸图像识别子模型、音频识别子模型、以及融合识别子模型；第一确定模块904具体用于：

将音频特征输入至音频识别子模型，得到音频情绪识别结果；

将人脸图像特征输入至人脸图像识别子模型，得到图像情绪识别结果；

将音频情绪识别结果、以及图像情绪识别结果输入至融合识别子模型，得到目标情绪识别结果。

在一个实施例中，人脸图像识别子模型包括残差网络、多个第一双重注意力机制、第一长短期记忆网络、第一拼接层、以及第一情绪识别网络；第一确定模块904具体用于：

将人脸图像特征输入至包含多个残差子网络的残差网络，得到每个残差子网络输出的图像语义特征、以及残差网络输出的目标图像语义特征；其中，在残差网络中除最后一个残差子网络之外的残差子网络的输出是下一个的残差子网络的输入；

针对每个图像语义特征，将图像语义特征输入至第一双重注意力机制，得到图像语义特征对应的图像加权特征；

将各图像加权特征分别输入至第一长短期记忆网络中对应的输入神经元，得到图像上下文特征；

将图像上下文特征、以及目标图像语义特征输入至第一拼接层，得到图像融合特征；

将图像融合特征输入至第一情绪识别网络，得到图像情绪识别结果。

在一个实施例中，音频识别子模型包括第二双重注意力机制、第二长短期记忆网络、以及第二情绪识别网络；第一确定模块904具体用于：

将音频特征输入至第二双重注意力机制，得到音频加权特征；

将音频加权特征输入至第二长短期记忆网络中，得到音频上下文特征；

将音频上下文特征输入至第二情绪识别网络，得到音频情绪识别结果。

在一个实施例中，第一获取模块902具体用于：

获取业务设备的待输出音频的已确定次数；

在已确定次数属于第一预设区间的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征；

在已确定次数属于预设第二区间、且当前的目标声音转换策略与上一次目标声音转换策略不相同的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征；其中，第一预设区间的上限值小于第二预设区间的下限值。

在一个实施例中，第一获取模块902具体用于：

确定音频数据的梅尔频率倒谱系数，得到音频特征；

根据预设的分割策略，对人脸图像进分割，得到各人脸子图像，并根据预设的缩放策略，对人脸子图像进行缩放，得到人脸图像特征。

在一个实施例中，目标情绪识别结果包括积极情绪概率和消极情绪概率；第二确定模块906具体用于：

计算积极情绪概率与消极情绪概率的差异度；

在差异度大于或者等于预设差异度阈值的情况下，若消极情绪概率大于积极情绪概率，则将重度消极情绪对应的声音转换策略作为目标声音转换策略；

在差异度小于预设差异度阈值的情况下，基于消极情绪概率、积极情绪概率以及声音转换策略的映射关系，确定与目标情绪识别结果包含的积极情绪概率和消极情绪概率相匹配的目标声音转换策略。

在一个实施例中，第二确定模块906还用于：

上述音频的转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音频的转换方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音频的转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述情绪识别模型包括人脸图像识别子模型、音频识别子模型、以及融合识别子模型；所述将所述音频特征和所述人脸图像特征输入情绪识别模型，得到所述目标用户对应的目标情绪识别结果包括：

3.根据权利要求2所述的方法，其特征在于，所述人脸图像识别子模型包括残差网络、多个第一双重注意力机制、第一长短期记忆网络、第一拼接层、以及第一情绪识别网络；所述将所述人脸图像特征输入至所述人脸图像识别子模型，得到图像情绪识别结果包括：

4.根据权利要求2所述的方法，其特征在于，所述音频识别子模型包括第二双重注意力机制、第二长短期记忆网络、以及第二情绪识别网络；所述将所述音频特征输入至所述音频识别子模型，得到音频情绪识别结果包括：

5.根据权利要求1所述的方法，其特征在于，所述获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征包括：

6.根据权利要求5所述的方法，其特征在于，所述在达到特征提取的触发条件的情况下，获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征包括：

获取业务设备的待输出音频的已确定次数；

7.根据权利要求1或者5任意一项所述的方法，其特征在于，所述获取目标用户在操作业务设备的业务页面时的音频特征和人脸图像特征包括：

确定所述音频数据的梅尔频率倒谱系数，得到音频特征；

8.根据权利要求1所述的方法，其特征在于，所述目标情绪识别结果包括积极情绪概率和消极情绪概率；所述在各预设的声音转换策略中，确定与所述目标情绪识别结果相匹配的目标声音转换策略包括：

计算所述积极情绪概率与所述消极情绪概率的差异度；

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种音频的转换装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。