CN110677716B

CN110677716B - 音频处理方法、电子设备和存储介质

Info

Publication number: CN110677716B
Application number: CN201910769325.9A
Authority: CN
Inventors: 马晓琳; 张进; 莫东松; 钟宜峰; 赵璐; 王科
Original assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2022-02-01
Anticipated expiration: 2039-08-20
Also published as: CN110677716A

Abstract

本发明实施例涉及计算机领域，公开了一种音频处理方法、电子设备和存储介质。本发明中，获取待调整视频，并从待调整视频中提取待调整图像以及待调整音频；对待调整图像进行识别，得到声音关联图像；查询与声音关联图像对应的时间信息，根据时间信息，从待调整音频中提取目标子音频；对目标子音频进行调整，并将调整后的目标子音频按照时间信息合成为目标音频，可以直接对待调整视频中的音频进行调整，从而避免对音频的调整仅仅是依赖硬件设备，可以提高对音频调整的灵活性。

Description

音频处理方法、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频处理方法、电子设备和存储介质。

背景技术

目前，视频直播应用越来越广泛，因此，不同的视频播放平台可以借助互联网等技术进行直播，使得用户可以实时获取相关资讯。

然而，发明人发现现有技术中至少存在如下问题：在视频直播时，往往是通过现场的视频进行采集，并将采集到的视频由导播推送至不同的终端，但是对视频中音频的调整均是直接通过导播设备或者用户终端进行调整，而通过导播设备或者用户终端进行调整受限于采集到的现场视频中的音频信号，导致灵活性差。

发明内容

本发明实施方式的目的在于提供一种音频处理方法、电子设备和存储介质，使得提高对音频调整的灵活性。

为解决上述技术问题，本发明的实施方式提供了一种音频处理方法，包括以下步骤：

获取待调整视频，并从所述待调整视频中提取待调整图像以及待调整音频；

对所述待调整图像进行识别，得到声音关联图像；

查询与所述声音关联图像对应的时间信息，根据所述时间信息，从所述待调整音频中提取目标子音频；

对所述目标子音频进行调整，并将调整后的目标子音频按照所述时间信息合成为目标音频。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述音频处理方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的音频处理方法。

本发明实施方式相对于现有技术而言，并非是完全依赖硬件设备对音频进行调整，而是获取待调整视频，从待调整视频中提取到待调整图像和待调整音频，进而对待调整图像进行识别，从待调整图像中得到声音关联图像，查询与声音关联图像对应的时间信息，根据时间信息，从待调整音频中提取目标子音频，并对目标子音频进行调整，并将调整后的目标子音频按照时间信息合成为目标音频，因此可以直接对待调整视频中的音频进行调整，从而避免对音频的调整仅仅是依赖硬件设备，可以提高对音频调整的灵活性。

另外，对所述待调整图像进行识别，得到声音关联图像，包括：

根据人脸识别模型，从所述待调整图像中识别得到目标人物图像；

根据物体识别模型，从所述目标人物图像中进行筛选得到筛选后的目标人物图像；

根据动作识别模型，从筛选后的目标人物图像中，选取得到声音关联图像。

可以通过不同的识别模型从待调整图像中识别得到声音关联图像，保证识别的准确性。

另外，查询与所述声音关联图像对应的时间信息，根据所述时间信息，从所述待调整音频中提取目标子音频之前，包括：

根据训练得到的音频识别模型，对所述待调整音频进行识别，得到初始子音频；

所述查询与所述声音关联图像对应的时间信息，根据所述时间信息，从所述待调整音频中得到目标子音频，包括：

查询与所述声音关联图像对应的时间信息，根据所述时间信息，从所述初始子音频中提取到目标子音频。

通过采用训练得到的音频识别模型，从待调整音频进行识别，得到初始子音频，从而再根据声音关联图像对应的时间信息，从初始子音频中提取到目标子音频，因此可以保证提取到的目标子音频准确，从而保证对目标子音频可以准确调整，保证最终合成目标音频时的质量。

另外，所述对所述目标子音频进行调整，包括；

当所述目标子音频为目标音时，提取与所述目标音对应的第一待调整特征；

根据与所述目标音对应的，预设的目标音调整逻辑，对所述第一待调整特征进行调整；

获取所述目标音在合成所述目标音频时，目标音音量对应的第一音量比例，根据所述第一音量比例，对所述目标音音量进行调整。

通过对目标音中包含的第一待调整特征，采用目标音调整逻辑进行调整，也即可以灵活调整，且进一步可以对目标音音量按照预设的第一音量比例进行调整，从而进一步实现灵活调整。

另外，所述对所述目标子音频进行调整还包括：

当所述目标子音频为环境音时，提取与所述环境音对应的第二待调整特征；

根据与所述环境音对应的，预设的环境音调整逻辑，对所述第二待调整特征进行调整；

获取所述环境音在合成所述目标音频时，环境音音量对应的第二音量比例，根据所述第二音量比例，对所述环境音音量进行调整。

通过对第一待调整特征的调整可以是对第一特征值进行调整，且可以是针对第一特征值与第一调整阈值的比较结果调整，调整方式简单且灵活。

另外，所述根据与所述目标音对应的，预设的目标音调整逻辑，对所述第一待调整特征进行调整，包括：

获取所述第一待调整特征的第一特征值，并获取与所述第一特征值对应的第一调整阈值；

当所述第一特征值低于所述第一调整阈值时，则将与低于所述第一调整阈值的第一特征值对应的所述目标音更改为环境音，并对所述环境音进行调整；

当所述第一特征值高于或等于所述第一调整阈值时，查询所述第一特征值对应的第一调整范围，根据所述第一调整范围，对所述第一特征值进行调整，完成对所述第一待调整特征的调整。

通过对第二待调整特征的调整可以是对第二特征值进行调整，且可以是针对第二特征值与第二调整阈值的比较结果调整，调整方式简单且灵活。

另外，所述根据与所述环境音对应的，预设的环境音调整逻辑，对所述第二待调整特征进行调整，包括；

获取所述第二待调整特征的第二特征值，并获取与所述第二特征值对应的第二调整阈值；

当所述第二特征值低于所述第二调整阈值时，则将与低于所述第二调整阈值的第二特征值对应的、所述环境音进行删除；

当所述第二特征值高于或等于所述第二调整阈值时，查询所述第二特征值对应的第二调整范围，根据所述第二调整范围，对所述第二特征值进行特征完成对所述第二待调整特征的调整。

通过对环境音中包含的第二待调整特征，采用环境音调整逻辑进行调整，也即可以灵活调整，且进一步可以对环境音音量按照预设的第二音量比例进行调整，从而进一步实现灵活调整。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式中的音频处理方法的流程示意图；

图2是根据本发明第二实施方式中的音频处理方法的流程示意图；

图3是根据本发明第三实施方式中的音频处理方法的流程示意图；

图4是根据本发明第四实施方式中的音频处理方法的流程示意图；

图5是根据本发明第五实施方式中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种音频处理方法。本实施方式的核心在于获取待调整视频，并从待调整视频中提取待调整图像以及待调整音频；对待调整图像进行识别，得到声音关联图像；查询与声音关联图像对应的时间信息，根据时间信息，从待调整音频中提取目标子音频；对目标子音频进行调整，并将调整后的目标子音频按照时间信息合成为目标音频。本实施例方式的音频处理方法，并非是完全依赖硬件设备对音频进行调整，而是直接对获取到的待调整视频中的音频进行调整，避免对音频的调整仅仅医疗硬件设备，可以提高对音频调整的灵活性。下面对本实施方式的音频处理方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的音频处理方法如图1所示，且以该音频处理方法应用在服务器上进行说明，具体包括：

步骤101：获取待调整视频，并从待调整视频中提取待调整图像以及待调整音频。

具体地，待调整视频是指服务器从录制现场接收到的，需要对其中的音频或者图像进行调整的视频，服务器可以将调整完成的视频推送至不同的终端，使得用户可以通过终端进行观看。在具体实现中，服务器获取到从录制现场接收到的待调整视频，服务器将包含在待调整视频中的每一帧图像进行提取，得到待调整图像，且服务器将包含在待调整视频中不同的音频帧进行提取，得到待调整音频。

步骤102：对所述待调整图像进行识别，得到声音关联图像。

具体地，声音关联图像是指包含在待调整图像中，对应有音频的图像。声音关联图像可以是对应有目标音的图像。例如，目标音为人声时，则声音关联图像为与音频中出现人声时对应的图像。

在具体实现中，服务器可以识别待调整图像中包含的特征点，根据特征点，可以识别待调整图像中不同的图像帧是否为关联有目标音的图像，并将关联有目标音的图像帧作为声音关联图像。例如，服务器可以按照预设的不同的图像识别模型，并且提取到待调整图像中包含的特征点，根据特征点采用图像识别模型，从待调整图像中识别是否有关联人声的图像，并将关联人声的图像进行提取作为声音关联图像。

在一个实施方式中，步骤102可以包括；根据人脸识别模型，从所述待调整图像中识别得到目标人物图像；根据物体识别模型，从所述目标人物图像中进行筛选得到筛选后的目标人物图像；根据动作识别模型，从筛选后的目标人物图像中，选取得到声音关联图像。

具体地，服务器可以从待调整图像中提取到对应的特征点，进而服务器获取到预设的比对图片，并从比对图片中提取到对应的比对特征。服务器将从待调整图像中提取得到的特征点以及比对特征，输入至预设的人脸识别模型，通过人脸识别模型可以计算特征点与比对特征的相似度，进而服务器计算待调整图像中所有特征点的总相似度，当总相似度超过阈值时，则超过阈值所对应的待调整图像为目标人物图像。需要说明的是，服务器计算待调整图像中所有特征点的总相似度，可以计算不同的特征点与比对特征的相似度的和，也可以是，获取到不同特征点与比对特征的相似度的权重，根据权重以及相似度，计算得到总相似度。服务器选取到目标人物图像时，可以获取到物体识别模型，并根据识别目标人物图像相同的方法，对目标人物图像进行筛选得到筛选后的人物图像。进而服务器可以根据预设的动作识别模型，识别筛选后的目标人物图像中的特征点发生变化的图像帧，选取得到声音关联图像。

例如，待调整视频为演唱会视频，则服务器首先根据人脸识别模型，获取到预设的演员图片，并从预设的演员图片中提取到比对特征，如面部特征点，进而服务器从待调整图像中提取到不同的特征点，如待调整图像中包含的不同的面部特征点，则将比对特征与特征点输入至人脸识别模型中进行识别得到目标人物图像，该目标人物图像可以是包含有演员的图像。进而服务器获取到物体识别模型，识别目标人物图像中是否包含有麦克风等物体，并将目标人物图像中包含有麦克风等物体的图像进行筛选得到筛选后的目标人物图像。服务器将筛选后的目标人物图像，输入至动作识别模型，通过动作识别模型，识别到演员的口型是否有变化，从而从筛选后的目标人物图像中选取得到声音关联图像。

本实施方式可以通过不同的识别模型从待调整图像中识别得到声音关联图像，保证识别的准确性。

步骤103：查询与声音关联图像对应的时间信息，根据时间信息，从待调整音频中提取目标子音频。

具体地，时间信息是指在对视频进行采集时，所记录的每一帧图像的唯一时间编码。时间信息可以是时间码。在具体实现中，当服务器查询与声音关联图像对应的时间信息，查询待调整音频中与时间信息所对应的第一子音频，且服务器根据第一子音频以及待调整音频，得到第二子音频，从而服务器可以将第一子音频或者第二子音频单独作为目标子音频，也可以将第一子音频与第二子音频共同作为目标子音频。

例如，当服务器提取到的声音关联图像为与音频中人声对应的图像时，则服务器提取到该声音关联图像对应的时间码，并按照时间码从待调整音频中选取到第一子音频，该第一子音频可以是与目标音对应的音频信号，进而服务器将待调整音频中未作为第一子音频的其他子音频作为第二子音频，该第二子音频可以是环境音，进而服务器可以将目标音或环境音作为目标子音频，也可以将目标音与环境音共同作为目标子音频。

步骤104：对目标子音频进行调整，并将调整后的目标子音频按照时间信息合成为目标音频。

具体地，当服务器得到目标子音频时，则需要对得到的目标子音频进行调整，服务器将调整后的目标子音频按照时间信息顺序连接，合成目标音频。例如，当服务器得到的目标子音频仅为环境音或人声时，则对环境音或人声进行调整，并将调整后的环境音或人声直接顺序连接作为目标音频。当服务器得到的目标子音频为环境音和人声时，则分别对环境音和人声进行调整，并将调整后的环境音以及人声，顺序相连从而合成为目标音频。进一步地，服务器还可以对待调整图像进行调整，如调整清晰度、亮度等，得到目标图像，进而服务器根据得到的目标图像以及目标音频，按照时间信息，将目标图像以及目标音频进行合成得到目标视频，并将目标视频推送至不同的终端。

本实施方式中，并非是完全依赖硬件设备对音频进行调整，而是获取待调整视频，从待调整视频中提取到待调整图像和待调整音频，进而对待调整图像进行识别，从待调整图像中得到声音关联图像，查询与声音关联图像对应的时间信息，根据时间信息，从待调整音频中提取目标子音频，并对目标子音频进行调整，并将调整后的目标子音频按照时间信息合成为目标音频，因此可以直接对待调整视频中的音频进行调整，从而避免对音频的调整仅仅是依赖硬件设备，可以提高对音频调整的灵活性。

本发明的第二实施方式涉及一种音频处理方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在第一实施方式中，是直接根据时间信息从待调整音频中提取到目标子音频。而在本发明第二实施方式中，是先从待调整音频中选取到初始子音频，进而从初始子音频中提取得到目标子音频。本发明第二实施方式中的识别风险用户的方法流程如图2所示，包括如下实施步骤：

步骤201：获取待调整视频，并从待调整视频中提取待调整图像以及待调整音频。

步骤202：对待调整图像进行识别，得到声音关联图像。

步骤203：根据训练得到的音频识别模型，对待调整音频进行识别，得到初始子音频。

步骤204：查询与声音关联图像对应的时间信息，根据时间信息，从初始子音频中提取到目标子音频。

步骤205：对目标子音频进行调整，并将调整后的目标子音频按照时间信息合成为目标音频。

需要说明的是，本实施方式中步骤201、步骤202以及步骤205与第一实施方式中的步骤101、步骤102以及步骤104相同，为了减少重复，此处不再赘述，仅叙述不同之处。

具体地，音频识别模型是指可以对待调整音频预先进行识别，从而预先得到不同类型子音频的模型，例如，可以通过音频识别模型，从完整的音频中得到环境音和目标音，也即是从完整的音频中直接通过音频识别模型提取得到环境音和人声。在具体实现中，服务器根据训练得到的音频识别模型，提取待调整音频中包含的识别特征，并将识别特征输入至该音频识别模型中，得到初始子音频。例如，服务器对待调整音频进行降采样，并从将采样的待调整音频中提取到对应的特征，该特征可以是频率特征，并将提取到的频率特征生成对应的特征向量，并将生成的特征向量输入至训练得到的音频识别模型中进行识别，得到对应初始子音频，例如该初始子音频可以是从待调整音频中初步判断，得到的目标音以及环境音。

需要说明的是，在一个实施方式中，音频识别模型可以是通过服务器获取到样本音频对样本音频降采样得到初始音频，并根据初始音频生成特征向量，将特征向量输入至初始模型中进行训练得到的。

可以是，当服务器获取到样本音频时，则对样本音频降采样，使得样本音频的数据大小降低，该降采样的样本音频作为初始音频，可以采用预设的滤波算法提取到样本音频的特征，根据提取到的特征生成特征向量，并将特征向量输入至获取到的初始模型中进行训练得到的。例如，当服务器获取到样本音频时，则对样本音频进行降采样到25KHZ得到初始音频，进而可以采用gammatone滤波器组从初始音频中进行特征提取，提取的特征可以是不同的帧长所对应的初始音频的频率，进而将提取到的频率作为向量中的元素，从而生成特征向量，服务器将特征向量输入至初始模型，如VGG19模型中进行训练，即可得到音频识别模型，且该音频识别模型可以对不同的音频识别得到目标音以及环境音。

具体地，服务器查询与声音关联图像对应的时间信息，并查询初始子音频的子音频时间，并将时间信息与子音频时间进行比对，当时间信息与子音频时间一致时，则查询与声音关联图像所关联的音频的音频类型，并且服务器比对初始子音频的子音频类型是否与音频类型一致，当不一致时，则将初始子音频类型更改为音频类型，进而服务器将相同子音频类型的子音频进行提取，作为目标子音频。

例如，服务器查询与声音关联图像对应的第一时间码，并查询初始子音频对应的第二时间码，服务器将第一时间码与第二时间码进行比对，当一致时，则表明声音关联图像与初始子音频是相互对应的，因此，服务器查询到声音关联图像此时所关联的音频的音频类型实际为目标音，该目标音为人声，服务器查询初始子音频的子音频类型是否为人声。如果初始子音频的子音频类型不为人声，则将该不为人声的初始子音频的子音频类型更改为人声。进而服务器从初始子音频中将标记为人声的子音频进行提取作为目标音，并将其他的未标记为人声的子音频进行提取作为环境音，服务器可以将目标音或环境音分别作为目标子音频，也可以将目标音和环境音共同作为目标子音频。

本实施例中，可以采用训练得到的音频识别模型，从待调整音频进行识别，得到初始子音频，从而再根据声音关联图像对应的时间信息，从初始子音频中提取到目标子音频，因此可以保证提取到的目标子音频准确，从而保证后续目标子音频可以准确调整，保证最终合成目标音频时的质量。

本发明的第三实施方式涉及一种音频处理方法。第三实施方式与第一实施方式大致相同，主要区别之处在于：在第三实施方式中，主要说明了对目标子音频进行调整。

本发明第三实施方式中的音频处理方法流程如图3所示，包括如下实施步骤：需要说明的是，本实施方式中步骤301、步骤302以及步骤303与第一实施方式中的步骤101、步骤102以及步骤103相同，为了减少重复，此处不再赘述，仅叙述不同之处。

步骤304：当所述目标子音频为目标音时，提取与所述目标音对应的第一待调整特征。

具体地，第一待调整特征是目标音中需要调整的参数，如目标音对应的音量、频率、音调等参数。在具体实现中，服务器查询到目标子音频为目标音时，则可以从目标音中提取需要调整的参数作为第一待调整特征。例如，服务器查询到目标子音频为人声时，则从人声中提取到需要调整的音量大小，该音量大小作为第一待调整特征。

步骤305：根据与所述目标音对应的，预设的目标音调整逻辑，对所述第一待调整特征进行调整。

具体地，目标音调整逻辑是指用来调整目标音的相关调整策略。在具体实现中，服务器可以查询到预存储的与目标音对应的目标音调整逻辑，根据目标音调整逻辑，对提取到的第一待调整特征调整。

在一个实施方式中，步骤305可以包括：获取第一待调整特征的第一特征值，并获取与第一特征值对应的第一调整阈值；当第一特征值低于第一调整阈值时，则将与低于第一调整阈值的第一特征值对应的目标音更改为环境音，并对环境音进行调整；当第一特征值高于或等于第一调整阈值时，查询第一特征值对应的第一调整范围，根据第一调整范围，对第一特征值进行调整，完成对第一待调整特征的调整。

具体地，第一特征值是指待调整特征所对应的详细数值，例如，第一待调整特征对应为目标音音量，则对应的第一特征值为目标音音量值。第一调整阈值是表征第一特征值是否需要进行调整的标准值。第一调整范围是指第一特征值所需要满足的取值范围。

在具体实现中，服务器从目标音中提取到的第一待调整特征，并获取到第一待调整特征的第一特征值，进而获取到第一特征值对应的、是否需要进行调整的标准值作为第一调整阈值，并将第一特征值与第一待调整阈值进行比较。当第一特征值小于第一待调整阈值时，则将第一特征值小于第一待调整阈值的目标音直接标记为环境音，并采用环境音的调节步骤进行调整。当第一特征值高于或等于第一待调整阈值时，则服务器查询到与第一特征值对应的第一调整范围，并根据第一调整范围，获取到预设的调整值，并采用预设的调整值替换第一特征值，从而完成对第一特征值的调整，以使第一待调整特征完成调整。需要说明的是，对目标音的调整可以是根据时间信息，对每一帧目标音的第一待调整特征均进行调整，其中，若有任意一帧的目标音对应的第一待调整特征值低于第一调整阈值时，则将该帧目标音更改为环境音。

例如，服务器获取到的目标音为人声，且第一待调整特征为目标音音量，服务器获取到目标音音量值，并获取到第一调整阈值为30分贝，将目标音音量值与30分贝进行对比。当获取到的目标音音量值低于30分贝时，则将低于30分贝的人声更改为环境音，则可以采用对环境音的调节步骤进行调节。

当获取到的目标音音量值高于或等于30分贝时，则获取到第一调整范围为[30，56]，当目标音音量值大于或等于30分贝，并且小于或等于56分贝时，则获取到预设调整公式，该调整公式如公式(1)，

y＝1.25x (1)

其中，x为第一特征值，y为替换值。服务器采用该调整公式，计算出目标音音量值的替换值，并将该目标音音量采用替换值进行替换。

进一步地，当目标音音量值高于56分贝时，则获取到预设的替换值为70分贝，因此，将高于56分贝的目标音音量值替换为70分贝。服务器经过以上过程完成对第一待调整特征为目标音音量的调整。

需要说明的是，本实施方式中，对目标音音量的调整可以是根据时间信息，获取到每一帧的目标音，从而对每一帧目标音的目标音音量进行调整，若有任意一帧的目标音对应的目标音音量的目标音音量值低于第一调整阈值时，则将该帧目标音更改为环境音。本实施方式中，还可以对其他第一待调整特征采用相同步骤进行调整，如对频率或者音调等进行调整。另外，本实施方式中，不同的数值举例仅仅是示例作用，并非是对实施方式的限制。

本实施方式中，对第一待调整特征的调整可以是对第一特征值进行调整，且可以是针对第一特征值与第一调整阈值的比较结果调整，调整方式简单且灵活。

步骤306；获取所述目标音在合成所述目标音频时，目标音音量对应的第一音量比例，根据所述第一音量比例，对所述目标音音量进行调整。

具体地，第一音量比例是指在目标音频中，目标音的音量占比。服务器对第一待调整特征进行调整，当采用目标音合成目标音频时，查询到目标音音量有对应的特殊音量比例，也即时目标音音量需要按照预设比例进行放大或缩小，则服务器查询到目标音音量对应的第一音量比例，根据第一音量比例，计算目标音音量的实际值，从而将目标音音量的值调整为实际值。另外，当目标音不需要对应有特殊音量比例时，则可以将第一音量比例设置为1，则目标音音量不变。进一步地，服务器按照调整后的目标音，按照时间信息顺序连接合成为目标音频。

本实施例中，可以是对目标音中包含的第一待调整特征，采用目标音调整逻辑进行调整，也即可以灵活调整，且进一步可以对目标音音量按照预设的第一音量比例进行调整，从而进一步实现灵活调整。

本发明第四实施方式中的音频处理方法流程如图4所示，包括如下实施步骤：需要说明的是，本实施方式中步骤401、步骤402以及步骤403与第一实施方式中的步骤101、步骤102以及步骤103相同，为了减少重复，此处不再赘述，仅叙述不同之处。

步骤404：当目标子音频为环境音时，提取与环境音对应的第二待调整特征。

具体地，第二待调整特征是环境音中需要调整的参数，如环境音对应的音量、频率、音调等参数。在具体实现中，服务器查询到目标子音频为环境音时，则可以从环境音中提取到需要调整的参数作为第二待调整特征。例如，服务器查询到目标子音频为背景音时，则从背景音中提取到需要调整的音量大小，该音量大小作为第二待调整特征。

步骤405；根据与环境音对应的，预设的环境音调整逻辑，对第二待调整特征进行调整。

具体地，环境音调整逻辑是指用来调整环境音的相关调整策略。在具体实现中，服务器可以查询到预存储的与环境音对应的环境音调整逻辑，根据环境音调整逻辑，对提取到的第二待调整特征调整。

在一个实施方式中，步骤405可以包括：获取第二待调整特征的第二特征值，并获取与第二特征值对应的第二调整阈值；当第二特征值低于第二调整阈值时，则将与低于第二调整阈值的第二特征值对应的、环境音进行删除；当第二特征值高于或等于第二调整阈值时，查询第二特征值对应的第二调整范围，根据第二调整范围，对第二特征值进行特征完成对第二待调整特征的调整。

具体地，第二特征值是指待调整特征所对应的详细数值，例如，第二待调整特征对应为环境音音量，则对应的第二特征值为环境音音量值。第二调整阈值是表征第二特征值是否需要进行调整的标准值。第二调整范围是指第二特征值所需要满足的取值范围。

在具体实现中，服务器从环境音中提取到的第二待调整特征，并获取到第二待调整特征的第二特征值，进而获取到第二特征值对应的是否需要进行调整的标准值作为第二调整阈值，并将第二特征值与第二待调整阈值进行比较。当第二特征值小于第二待调整阈值时，则该环境音可以认为是无效音，直接将第二特征值小于第二待调整阈值的环境音删除。当第二特征值高于或等于第二待调整阈值时，则服务器查询到与第二特征值对应的第二调整范围，并根据第二调整范围，获取到预设的调整值，并采用预设的调整值替换第二特征值，从而完成对第二特征值的调整，以使第二待调整特征完成调整。需要说明的是，对环境音的调整可以是根据时间信息，对每一帧环境音的第二待调整特征均进行调整，其中，若有任意一帧的环境音对应的第二待调整特征值低于第二调整阈值时，则直接将该环境音删除。

本实施方式中，还可以对其他第二待调整特征采用相同步骤进行调整，如对频率或者音调等进行调整。

本实施方式中，对第二待调整特征的调整可以是对第二特征值进行调整，且可以是针对第二特征值与第二调整阈值的比较结果调整，调整方式简单且灵活。

步骤406：获取环境音在合成目标音频时，环境音音量对应的第二音量比例，根据第二音量比例，对环境音音量进行调整。

具体地，第二音量比例是指在目标音频中，环境音的音量占比。服务器对第二待调整特征进行调整，当查询到采用环境音合成环境音频时，擦汗寻环境音音量有对应的特殊音量比例，也即环境音音量需要按照预设比例进行放大或缩小，则服务器查询到环境音音量对应的第二音量比例，根据第二音量比例，计算环境音音量的实际值，从而将环境音音量的值调整为实际值。另外，当环境音不需要对应有特殊音量比例时，则可以将第一音量比例设置为1，则环境音音量不变。进一步地，服务器按照调整后的环境音，按照时间信息顺序连接合成为目标音频。需要说明的是，还可以是服务器查询到调整后的目标音，该目标音是将第一待调整特征进行调整，且目标音音量按照第一音量比例进行调整，从而将调整后的环境音以及调整后的目标音按照时间顺序连接，合成得到目标音频。

本实施例中，可以是对环境音中包含的第二待调整特征，采用环境音调整逻辑进行调整，也即可以灵活调整，且进一步可以对环境音音量按照预设的第二音量比例进行调整，从而进一步实现灵活调整。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第五实施方式涉及一种电子设备，如图5所示，包括至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502，其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行音频处理的方法。

本实施方式中，处理器501以中央处理器(Central Processing Unit，CPU)为例，存储器502以可读写存储器(Random Access Memory，RAM)为例。处理器501、存储器502可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施方式中实现音频处理的方法的程序就存储于存储器502中。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述音频处理的方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个程序模块存储在存储器502中，当被一个或者多个处理器501执行时，执行上述实施方式中的音频处理的方法。

上述产品可执行本申请实施方式所提供的音频处理方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的音频处理的方法。

本发明第六实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种音频处理方法，其特征在于，包括：

对所述待调整图像进行识别，得到声音关联图像；

根据训练得到的音频识别模型，对所述待调整音频进行识别，得到不同类型的初始子音频；

查询与所述声音关联图像对应的时间信息，根据所述时间信息，从所述初始子音频中提取目标子音频，具体包括：查询与所述声音关联图像对应的时间信息，并查询所述初始子音频的子音频时间；将所述声音关联图像对应的时间信息与所述子音频时间进行比对，当一致时，查询与所述声音关联图像所关联的音频的音频类型，并比对是否与所述初始子音频的子音频类型是否一致，当不一致时，将所述子音频类型更改为音频类型；将相同子音频类型的子音频进行提取，作为目标子音频；

2.根据权利要求1所述的音频处理方法，其特征在于，所述对所述待调整图像进行识别，得到声音关联图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标子音频进行调整，包括；

4.根据权利要求1所述的方法，其特征在于，所述对所述目标子音频进行调整还包括：

5.根据权利要求3所述的方法，其特征在于，所述根据与所述目标音对应的，预设的目标音调整逻辑，对所述第一待调整特征进行调整，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据与所述环境音对应的，预设的环境音调整逻辑，对所述第二待调整特征进行调整，包括；

7.根据权利要求1所述的方法，其特征在于，所述音频识别模型是通过获取样本音频，对所述样本音频降采样得到初始音频，并根据所述初始音频生成特征向量，将所述特征向量输入至所述初始模型中进行训练得到的。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的音频处理方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的音频处理方法。