CN112165591B

CN112165591B - 一种音频数据的处理方法、装置及电子设备

Info

Publication number: CN112165591B
Application number: CN202011063099.1A
Authority: CN
Inventors: 韩俊宁; 肖荣彬; 陈文辉
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-05-31
Anticipated expiration: 2040-09-30
Also published as: CN112165591A

Abstract

本申请实施例公开了一种音频数据的处理方法、装置及电子设备，方法包括：确定第一音频文件中包含的至少一个对象，所述对象为第一音频文件输出过程中具有与其对应的音频数据的对象；从至少一个对象中确定出第一对象；基于第一对象的特征信息对第一音频文件进行处理，得到第一对象的声音参数优于其他对象的声音参数的第二音频数据。上述音频数据的处理方法、装置及电子设备，对于已经完成录制的音频文件，能够在其输出前或输出过程中，基于用户选择的在音频文件中具有对应音频的第一对象，对整个音频文件进行处理，使得处理后的音频文件中第一对象的声音更加清晰突出，提升用户的使用体验。

Description

一种音频数据的处理方法、装置及电子设备

技术领域

本申请涉及数据处理技术，更具体的说，是涉及一种音频数据的处理方法、装置及电子设备。

背景技术

当前的视频录音实现中，无论电子设备采用单麦克风还是双麦克风进行声音采集，在电子设备进行视频采集过程中，通常都是对现场声音进行全向性的采集。依据该方式采集的声音没有方向性，即没有音频焦点。在此基础上，再加上噪声的影响，导致最终的音频数据体验较差；且这种全向性声音的采集方式显然也已经不能满足当前用户对于音频数据个性化输出的需求。

发明内容

有鉴于此，本申请提供如下技术方案：

一种音频数据的处理方法，包括：

确定第一音频文件中包含的至少一个对象，所述对象为所述第一音频文件输出过程中具有与其对应的音频数据的对象；

从所述至少一个对象中确定出第一对象；

基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，在所述第二音频数据中，所述第一对象的声音参数优于其他对象的声音参数，所述声音参数包括响度和信噪比。

可选的，所述确定第一音频文件种包含的至少一个对象，包括：

在所述第一音频文件输出前，对第一音频文件进行声纹识别，基于所述第一音频文件中包含的声纹确定至少一个对象；

或，

在所述第一音频文件输出前，对与所述第一音频文件对应的第一图像文件中的图像帧进行智能识别，确定所述图像帧中包含的至少一个对象，其中所述第一音频文件和所述第一图像文件共同组成第一视频文件，其中的对象为在所述第一视频文件采集过程中能够被采集到声音且在图像采集设备取景范围内具有可见形态的实体。

可选的，在所述第一音频文件仅为音频文件时，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，包括：

确定所述第一对象对应的第一声纹特征；

对所述第一声纹特征对应的声纹进行增益放大处理，并将所述第一音频文件中所述第一声纹特征对应的声纹之外的其他声纹做衰减降噪处理。

可选的，在所述第一音频文件属于所述第一视频文件的部分文件时，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，包括：

确定与所述第一音频文件对应的图像帧中所述第一对象的方位信息；

基于所述方位信息确定所述第一对象对应的声音聚焦位置；

基于采集所述第一音频文件的拾音模组采集的原始音频调整声音相位，使得调整后的声音相位能够以所述声音聚焦位置为焦点输出第二音频数据。

可选的，所述从所述至少一个对象中确定出第一对象，包括：

在所述包含所述第一音频文件的第二视频文件的输出过程中，获取针对所述第二视频文件中的图像帧的输出界面的第一操作；

基于所述第一操作的操作位置确定至少一个第一对象。

可选的，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，包括：

在所述第二视频文件的不同图像帧中，基于所述第一对象的方位信息对所述第一对象进行音频追踪处理，得到第二音频数据。

可选的，所述在所述第二视频文件的不同图像帧中，基于所述第一对象的方位信息对所述第一对象进行音频追踪处理，得到第二音频数据，包括：

确定所述第二视频文件中第一图像帧中所述第一对象的第一方位信息；

确定所述第二视频文件中与所述第一图像帧中相邻的第二图像帧中所述第一对象的第二方位信息，所述第一图像帧的输出时间早于所述第二图像帧的输出时间；

将所述第一方位信息与所述第二方位信息进行比较，得到所述第一对象的第一运动参数；

基于所述第一运动参数确定原始音频中声音相位的调整参数，所述原始音频为采集所述第一音频文件的拾音模组在录制现场采集的没有进行任何处理的音频数据。

可选的，所述第一音频文件包括其包含的各个对象的聚焦音频，所述聚焦音频为以其对应的对象所处位置为声音聚焦位置而采集获取的音频，则基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，包括：

基于所述第一对象的特征信息从所述第一音频文件中提取出所述第一对象对应的第一聚焦音频。

一种音频数据的处理装置，包括：

对象获取模块，用于确定第一音频文件中包含的至少一个对象，所述对象为所述第一音频文件输出过程中具有与其对应的音频数据的对象；

对象确定模块，用于从所述至少一个对象中确定出第一对象；

音频处理模块，用于基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，在所述第二音频数据中，所述第一对象的声音参数优于其他对象的声音参数，所述声音参数包括响度和信噪比。

一种电子设备，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述可执行指令包括：确定第一音频文件中包含的至少一个对象，所述对象为所述第一音频文件输出过程中具有与其对应的音频数据的对象；从所述至少一个对象中确定出第一对象；基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，在所述第二音频数据中，所述第一对象的声音参数优于其他对象的声音参数，所述声音参数包括响度和信噪比。

经由上述的技术方案可知，与现有技术相比，本申请实施例公开了一种音频数据的处理方法、装置及电子设备，方法包括：确定第一音频文件中包含的至少一个对象，所述对象为第一音频文件输出过程中具有与其对应的音频数据的对象；从至少一个对象中确定出第一对象；基于第一对象的特征信息对第一音频文件进行处理，得到第一对象的声音参数优于其他对象的声音参数的第二音频数据。上述音频数据的处理方法、装置及电子设备，对于已经完成录制的音频文件，能够在其输出前或输出过程中，基于用户选择的在音频文件中具有对应音频的第一对象，对整个音频文件进行处理，使得处理后的音频文件中第一对象的声音更加清晰突出，从而增加音频文件处理的可操作性；基于此方案能够针对性的从音频文件中提取出高质量的目标音频，提升用户的使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种音频数据的处理方法流程图；

图2为本申请实施例公开的一种获取第二音频数据的流程图；

图3为本申请实施例公开的另一种获取第二音频数据的流程图；

图4为本申请实施例公开的一种确定第一对象的流程图；

图5为本申请实施例公开的第三种获取第二音频数据的流程图；

图6为本申请实施例公开的一种音频数据的处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种音频数据的处理方法流程图，该方法可以适用于具有图像采集以及音频采集功能的电子设备，本申请对该电子设备的产品形式不做限定，可以包括但并不局限于智能手机、平板电脑、可穿戴设备、个人计算机(personalcomputer，PC)、上网本等，可以依据应用需求选择。参见图1所示，音频数据的处理方法可以包括：

步骤101：确定第一音频文件中包含的至少一个对象，所述对象为所述第一音频文件输出过程中具有与其对应的音频数据的对象。

其中的第一音频文件，可以为单纯的音频文件，也可以是包含第一音频文件的视频文件。基于此，在第一音频文件为纯音频文件时，前述对象可以是在第一音频文件中具有对应声音的对象；而在第一音频文件属于视频文件的部分内容时，考虑到录制视频文件的图像采集设备的取景范围通常会包含主要的录制对象，则前述对象可以是在第一音频文件中具有对应声音且在视频文件的图像帧中具有可视形态的对象。例如，在某公开课堂上，摄像机会采集讲台上讲师的图像和声音，则会调整摄像机角度，使得讲师在设备取景框中位于中间位置，同时采用设置在摄像机上或其他额外的语音采集设备收集视频录制现场的声音数据。

需要说明的是，本申请实施例中，第一音频文件为已经录制完成的、事实存在的音频文件，本申请实施例记载的音频数据的处理方法是在第一音频文件录制完成后，在后续输出前或输出过程中能够进行的音频处理，可以理解为基于用户选择对第一音频文件的后期处理。

由于本申请实施例公开的音频数据的处理方法需要满足第一音频文件录制完成后，后期对第一音频文件中特定对象(第一对象)声音参数的优化，因此在第一音频文件的采集过程中，需要采用多个语音采集设备来获取第一音频文件，从而使得采集的第一音频文件中声音的相位可调以实现特定位置的声音聚焦。本申请实施例中，采集第一音频文件的语音采集设备的数量可为不少于3个，且多个语音采集设备的设置位置不同，可尽量分散设置。

基于此，第一音频文件可以包含多个语音采集设备在录制现场采集的原始音频数据，该原始音频数据可以理解为没有进行任何处理的音频数据，其中的处理如降噪、润色、聚焦等。

步骤102：从所述至少一个对象中确定出第一对象。

第一音频文件中可以包含多个对象，这些对象的发声主体可以是相同类型的主体，也可以是不同类型的主体。例如，第一音频文件中包含的声音的发声主体可以是人类，动物、交通工具、乐器等主体中至少一种。无论是什么主体发出的声音，都能够通过相应的识别技术识别出来；本实施例中，可以将一个主体发出的声音认定为一个对象，对识别出的所有对象进行编号，以便于用户选择；或者，基于语音识别技术，可以直接对第一音频文件中识别出的声音进行分类标识，如人类1、人类2、乐器1、乐器2等，这样更好的便于用户区分不同类别的对象。

从至少一个对象中确定出的第一对象，至少为一个，也可以为两个或两个以上。例如，某访谈节目现场，需要将主持人以及被访嘉宾的声音确定为第一对象，而不关心观众席上或其他地方发出的声音。

步骤103：基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，在所述第二音频数据中，所述第一对象的声音参数优于其他对象的声音参数，所述声音参数包括响度和信噪比。

其中的特征信息在不同的实现中也不相同，在后面的实施例中，将对进行详细介绍。

第一对象的声音参数优于其他对象的声音参数，即将第一音频文件中第一对象对应的声音“凸显”出来，使其更加清晰。这个处理过程可以理解为对用户在第一音频文件中感兴趣的重点声音进行聚焦提取，以满足用户需求。

本实施例所述音频数据的处理方法，对于已经完成录制的音频文件，能够在其输出前或输出过程中，基于用户选择的在音频文件中具有对应音频的第一对象，对整个音频文件进行处理，使得处理后的音频文件中第一对象的声音更加清晰突出，从而增加音频文件处理的可操作性；基于此方案能够针对性的从音频文件中提取出高质量的目标音频，提升用户的使用体验。

在前面的实施例中，已经介绍到第一对象的特征信息在不同实现中的内容也不相容，例如，在第一音频文件为纯音频文件时，特征信息可以是声纹特征；在第一音频文件属于视频文件的部分内容时，特征信息可以是方位信息，即第一对象在图像帧中相对于图像采集设备的角度信息和距离信息。

对应的，前述实施例中所述确定第一音频文件中包含的至少一个对象也有不同的实现，具体的，确定第一音频文件种包含的至少一个对象，可以包括：在所述第一音频文件输出前，对第一音频文件进行声纹识别，基于所述第一音频文件中包含的声纹确定至少一个对象；或，在所述第一音频文件输出前，对与所述第一音频文件对应的第一图像文件中的图像帧进行智能识别，确定所述图像帧中包含的至少一个对象。其中所述第一音频文件和所述第一图像文件共同组成第一视频文件，其中的对象为在所述第一视频文件采集过程中能够被采集到声音且在图像采集设备取景范围内具有可见形态的实体。

其中，对第一图像文件中的图像帧进行智能识别，可以采用AI识别技术直接对图像帧中的物体进行识别，同时可以基于AI测距技术确定识别出的物体的方位信息，包括角度信息和距离信息，便于为后续对第一音频数据进行处理提供参考数据。

本实施例中，音频数据的处理方法可在第一音频文件输出前开始实施，即在第一音频数据录制完成后，在用户还没有触发播放第一音频数据前，系统自动确定其中包含的至少一个对象，并自动罗列出识别出的多个对象，以供用户从识别出的多个对象中选择出第一对象并进行后续的相关处理，得到第二音频数据，后续用户触发输出第一音频文件时，直接输出处理后的第二音频数据。实现中，对第一音频文件的处理可以在用户触发输出第一音频文件前已经全部完成，或者在用户触发输出第一音频文件时仅完成第一音频文件的部分处理，这样后续可以一边输出处理后的第二音频数据，一边继续进行对第一音频文件尚未完成处理的部分的音频处理。

下面介绍了基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据的不同实现，以帮助更好的理解本申请记载方案的具体实现。

图2为本申请实施例公开的一种获取第二音频数据的流程图，参见图2所示，在前述公开内容的基础上，在第一音频文件仅为音频文件时，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，可以包括：

步骤201：确定所述第一对象对应的第一声纹特征。

步骤202：对所述第一声纹特征对应的声纹进行增益放大处理，并将所述第一音频文件中所述第一声纹特征对应的声纹之外的其他声纹做衰减降噪处理。

在第一音频文件仅为音频文件时，没有其他可以辅助参考的数据，如图像数据，仅能够基于音频文件自身的特征信息进行相关处理。本实施例中，在确定了用户感兴趣的第一对象后，首先确定第一对象对应的第一声纹特征，而后为了实现“凸显”出第一对象对应的声音的效果，可以将第一声纹特征对应的声纹进行增益放大处理，并将所述第一音频文件中所述第一声纹特征对应的声纹之外的其他声纹做衰减降噪处理。例如，在一个录制了鸟叫声音的音频文件中，用户选择的第一对象为鸟叫的声音，则系统会将音频文件中与鸟叫的声音对应的声纹进行增益放大，并对其他如汽车声音，人类的说话声音进行衰减处理，这样最终得到的处理后的音频中基本上只能够听见鸟叫的声音，而听不到或者能够听到很小声音的汽车声音或人类说话的声音。

图3为本申请实施例公开的另一种获取第二音频数据的流程图，参见图2所示，在前述公开内容的基础上，在第一音频文件属于所述第一视频文件的部分文件时，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，可以包括：

步骤301：确定与所述第一音频文件对应的图像帧中所述第一对象的方位信息。

步骤302：基于所述方位信息确定所述第一对象对应的声音聚焦位置。

步骤303：基于采集所述第一音频文件的拾音模组采集的原始音频调整声音相位，使得调整后的声音相位能够以所述声音聚焦位置为焦点输出第二音频数据。

在第一音频文件属于所述第一视频文件的部分文件时，系统可通过图像识别技术自动识别出第一视频文件中的对象，并呈现给用户；呈现的方式可以直接是相应图像帧中识别出对象的截图。而后，用户可基于这些截图直观的了解到全部的对象，然后从中选择出自身感兴趣的第一对象。

确定了第一对象后，可以对第一对象的声音进行聚焦处理，由于第一对象的声音是由第一对象发出来的，因此本实施例中，将第一对象所处位置确定为声音聚焦位置。

第一对象所处位置可以用方位信息来表征。其中的方位信息，可以是基于AI识别和AI测距技术直接对图像帧中的第一对象进行方位确定，即通过相应的图像分析方法得到用于表征在视频录制状态下第一对象相对于图像采集设备的位置关系。其中的方位信息可以但不限于包括角度和距离。

当然，可以理解的，在第一视频文件录制过程中，也可以实时的保存采集的图像帧时的相关参数，如图像放大比例；在采用双目摄像设备采集视频时还可以保存双目摄像设备的一些参数，之后将这些参数以及确定的第一对象的相关数据一起输入语音引擎，使得语音引擎能够综合获取的数据对第一音频文件进行处理。

本实现中，在确定了声音聚焦位置后，对采集第一音频文件的拾音模组采集的原始音频调整声音相位，得到以声音聚焦位置为焦点的聚焦声音数据，即第二音频数据。例如，在一个视频画面中，一条小狗在马路旁人行道叫，视频中还惨杂了马路上汽车行驶和喇叭发出的声音，整体的听觉效果非常混乱模糊；则经过相应的音频处理后，小狗的叫声会非常清晰，而马路上汽车行驶和喇叭发出的声音会以比较小的背景音的方式输出。

在另一个实现中，用户还可以在包含第一音频文件的第二视频文件的输出界面中，实时的通过“点击选择”的操作来选择第一对象。图4为本申请实施例公开的一种确定第一对象的流程图，结合图4所示，在本实现中，所述从所述至少一个对象中确定出第一对象，可以包括：

步骤401：在所述包含所述第一音频文件的第二视频文件的输出过程中，获取针对所述第二视频文件中的图像帧的输出界面的第一操作。

步骤402：基于所述第一操作的操作位置确定至少一个第一对象。

即，用户在第二视频文件输出的过程中，从输出的图像画面中点击选择了自身感兴趣的对象。这个过程中，系统可基于用户点击位置确定输出图像中对应位置的第一对象，然后系统基于确定的第一对象再进行后续对第一音频文件的处理。在第二视频文件输出的过程中，用户随时可以点选或切换自身感兴趣的第一对象。

在上述公开内容的基础上，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，可以包括：在所述第二视频文件的不同图像帧中，基于所述第一对象的方位信息对所述第一对象进行音频追踪处理，得到第二音频数据。

具体的，图5为本申请实施例公开的第三种获取第二音频数据的流程图，参见图5所示，所述在所述第一视频文件的不同图像帧中，基于所述第一对象的方位信息对所述第一对象进行音频追踪处理，得到第二音频数据，可以包括：

步骤501：确定所述第二视频文件中第一图像帧中所述第一对象的第一方位信息，其中的方位信息包括角度和距离。

步骤502：确定所述第二视频文件中与所述第一图像帧中相邻的第二图像帧中所述第一对象的第二方位信息，所述第一图像帧的输出时间早于所述第二图像帧的输出时间。

由于在一些视频录制场景中，录制的对象不是静止不动的，而是动态变化的，因此本申请实施例介绍的为在视频录制过程中第一对象动态变化时后续音频文件的处理过程。

步骤503：将所述第一方位信息与所述第二方位信息进行比较，得到所述第一对象的第一运动参数。

在不同的图像帧中，第一对象的方位信息可能没有发生变化，也可能发生了变化。若相邻两个图像帧中第一对象的方位信息发生了变化，发生变化的幅度可能也不相同。因此，可以通过表征相邻图像帧中第一对象方位变化的第一运动参数确定第一对象的变化趋势和状态。

步骤504：基于所述第一运动参数确定原始音频中声音相位的调整参数，所述原始音频为采集所述第一音频文件的拾音模组在录制现场采集的没有进行任何处理的音频数据。

若第一运动参数表征第一对象在当前图像帧中相对于上一图像帧的方位信息没有变化，则保持当前声音相位不变；若第一运动参数表征第一对象在当前图像帧中相对于上一图像帧的方位信息发生了变化，则基于变化参数，在已有的声音相位的基础上进行声音相位的调整，使得调整后的声音相位以当前图像帧中第一对象的方位信息对应的位置为声音聚焦位置。

本实施例中，只有在第一运动参数表征第一对象在当前图像帧中相对于上一图像帧的方位信息发生了变化时，才会进行声音相位的调整，避免了系统针对每一个图像帧中第一对象都进行声音相位计算的情况，节省了系统资源。同时通过第一运动参数能够预测第一对象的变化趋势和状态，更好的指导后续处理。

在一个实现中，所述第一音频文件可以包括其包含的各个对象的聚焦音频，所述聚焦音频为以其对应的对象所处位置为声音聚焦位置而采集获取的音频，则基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，可以包括：基于所述第一对象的特征信息从所述第一音频文件中提取出所述第一对象对应的第一聚焦音频。

具体的，在视频录制过程中，可以对出现在视频录制界面中的每一个拍摄对象进行音视频追踪检测，在视频录制过程中，就得到各拍摄对象的清晰音频信息，这样，在后续播放所录制的视频时，可以根据不同用户的观看需求，从中选择特定的一个或多个拍摄对象，以使电子设备播放视频时，主要输出所选择的拍摄对象的音频，而对于视频中的其他拍摄对象，根据需要可以屏蔽或弱化处理，保证所选择的拍摄对象的音频清晰。其中的拍摄对象可以为上述内容中的对象。

在实际应用中，在电子设备的拾音模组包含多个拾音器的情况下，在录制视频过程中，可以先确定每一个第一拍摄对象的主拾音器和辅助拾音器，不同拍摄对象对应的主拾音器和辅助拾音器可以不同，但也可能存在针对若干个拍摄对象确定相同的主拾音器和辅助拾音器的情况。

示例性的，本申请可以依据拍摄对象的方位信息，将距离该拍摄对象最近的拾音器确定为主拾音器；也可以选择有效拾音方向与该拍摄对象的拍摄方向，靠近或一致的拾音器为主拾音器；还可以利用基于多个拾音条件预先训练得到的模型来确定，即将各拍摄对象的拍摄方向及摄距离输入该模型，输出相应拍摄对象对应的主拾音器的标识等。

在视频录制过程中，拾音模组中的多个拾音器可以采集到多路音频，之后，可以依据上述确定出的各拍摄对象的主拾音器和辅助拾音器，利用其辅助拾音器采集到音频，对主拾音器采集到的音频进行降噪处理，以使得主拾音器中该拍摄对象的声音信号更加干净、清晰，本申请对这种处理方式的降噪方法不做限定。

在确定出的各拍摄对象的主拾音器和辅助拾音器之后，本申请可以依据拍摄对象的角度及距离(可以基于图像分析方法确定)，对该拍摄对象的主拾音器的拾音参数进行调整，以使得主拾音器所采集到的拍摄对象的声音信号更加清晰。

示例性的，仍以上述会议场景为例，在视频录制过程中，当会议成员A从会议成员B前方，移动到会议成员后方，甚至逐渐远离该会议成员B，同时远离电子设备，这种情况下，本实施例通过相邻帧视频图像分析，可以得到该会议成员A的这一运动情况，为了更加准确且清楚地采集到该会议成员A对应的音频，本申请需要实时动态调整电子设备的拾音模组的拾音参数，如对于主要采集会议成员A的拾音器，可以调整其拾音方向，并增大其增益值，增大该拾音器采集的音频信号强度，得到满足预设拾音要求的该会议成员A对应的音频，但并不局限于这些拾音参数的调整。

一个实现中，在有选择性的播放所录制的视频中部分拍摄对象的音频实现过程中，在播放该视频之前，可以在视频播放界面中，选择设置中的播放配置功能按钮，输出针对该视频的播放配置界面，此时，用户可以依据实际需求，从该视频包含的各信息中，选择本次播放视频需要重点输出的对象，如选择其中的某个人，之后，依据用户完成的播放配置信息，对所录制的视频文件进行处理，对处理后的视频文件进行播放，播放输出的内容已经的用户选择的重点输出对象对应的音频数据做了相应处理。

例如，在第一音频文件录制过程中，通过相应的参数配置，已经获取了分别以各个对象为聚焦点的对应的聚焦音频，例如一视频录制现场中包含3个对象A、B、C，在视频录制过程中，已经同时分别获取了以A位置为声音聚焦点的A聚焦音频，以B位置为声音聚焦点的B聚焦音频和以C位置为声音聚焦点的C聚焦音频，将这些聚焦音频和前述原始音频数据统一打包作为第一音频文件。后续在确定了第一对象后，基于第一对象的方位信息确定第一对象为A、B或C，然后直接从第一音频文件中提取除对应的聚焦音频。

在实时录制视频的过程中，电子设备能够依据图像分析结果，直接在视频录制过程中实时调整拾音参数，以使采集到的各拍摄对象的音频满足预设拾音要求，使得录制完后的视频在播放时，能够根据需要抑制某拍摄对象的音频，或将播放的音频聚焦到特定拍摄对象等，更好地满足不同用户的视频播放需求，极大提高了用户体验。

示例性的，在录制庆典晚会场景的情况下，若录制时段正在放烟火，此时用户往往会希望重点录制烟花绽放的画面及其产生的音频，可以对其进行增强、润色等处理，而对于参与晚会的用户来说，不需要听清楚说话内容，可以将其作为背景噪声，对其进行弱化或过滤处理，以保证播放该段视频时，在看到烟花绽放的画面同时，也可以听到相应的声音，给观看者一种身临其境的感觉。为了提高该感受，本申请可以将每次绽放的每一个烟花作为一个拍摄对象，按照上述方式对其音频进行追踪检测，以使得同时时刻绽放的多个烟花，也能够从声音上体现多个烟花的绽放空间感，如哪个烟花绽放的声音近，哪个烟花绽放的声音远等，进一步提高用户观看录制视频的体验。

当然，若在上述场景中，某时段有主持人对该庆典晚会的讲解，电子设备也可以将其作为一个第一拍摄对象，对其输出的音频进行增强处理，以使得播放这段视频时，不仅能够达到上述烟花观看效果，还能够清晰听到主持人的讲解内容，具体实现过程本申请不做详述。

结合上文实施例相应部分的描述，在视频录制过程中，本申请实施例可以通过实时动态调整拾音模组的拾音参数，来使其采集到的每一帧音频能够满足预设拾音要求，所以，本实施例可以按照预设拾音要求，利用第一拍摄对象的方位信息，来确定相应拍摄对象对应的应该是环境中的哪个声音，进而据此有针对性地确定电子设备的拾音模组应该具有的拾音参数。

应该理解，对拾音模组的拾音参数的调整方向及内容，可以依据预设拾音要求确定，如需要某拍摄对象的声音响亮、清晰，可以将拾音模型的拾音方向调整为朝向或靠近该拍摄对象的拍摄方向等，本申请在此不做一一详述。

在本申请实施例中，视频录制过程中，不仅要追踪检测到各拍摄对象满足预设拾音要求的音频，同时希望这些音频为立体声，能够结合各拍摄对象之间的动态位置关系，以及与图像采集器的动态拍摄距离，实现更细粒度、更身临其境每一帧音频的录制，这样，在播放所录制的视频时，能够还原录像场景的空间位置场景信息，也就是说，能够通过听播放的音频，得到当前说话的拍摄对象之间的空间位置关系，从而给观看该录制视频的用户更好的体验。

基于上述技术构思，本申请实施例在对拍摄对象进行定位的同时，还可以据此来确定不同拍摄对象之间的空间位置关系，具体可以依据各拍摄对象的定位结果即当前帧的位置信息，来获得该空间位置关系；当然，也可以通过对上述步骤获得的各拍摄对象的方位信息进行相应参数的比较，来确定该空间位置关系等，但并不局限于这两种获得空间位置关系的方法。

应该理解，本实施例是在帧视频图像包含的拍摄对象的数量为多个的情况下执行的，而在帧视频图像包含的拍摄对象的数量为一个的情况下，本申请可以直接获取与拍摄对象的方位信息相对应的拾音参数，将其确定为电子设备的拾音模组的拾音参数。

本申请实施例中，可以针对不同的空间位置关系，可以预先配置达到各种拾音要求对应的拾音参数，这样，在实际应用中，确定当前视频录制场景后，就可以直接按照该对应关系，选择符合当前视频录制场景的，与上述空间位置关系对应的拾音参数，作为电子设备的拾音模组的拾音参数。

而且，在确定上述拾音参数过程中，因确定了相应帧的视频图像中各拍摄对象之间的空间位置关系，这样，在当前环境存在多个声音的情况下，拾音模组就也可以依据该空间位置关系，更加精准且快速地确定不同位置的拍摄对象应该对应哪个声音，以便据此实现拾音参数的有针对性调整，具体实现过程本申请不做详述。

其中，在拾音模组包含多个拾音参数的情况下，所确定的拾音模组的拾音参数可以包括这多个拾音器各自的拾音参数。当然，若本申请实施例仅选择这多个拾音器中的部分拾音器参与本次视频录制，或当前帧的音频录制，上述拾音参数可以仅包括这部分拾音器的拾音参数等。

此外，需要说明的是，在视频文件录制过程中，用户也可以在录制界面中实时的点击选择声音聚焦位置，当用户在视频文件录制过程中触发了声音聚焦功能后，系统会保留两个音频文件。其中一个音频文件为采用聚焦功能后，以用户选择的声音聚焦位置对声音进行聚焦后得到的音频文件；另一个音频文件为录制现场语音采集设备采集的原始的、没有经过任何处理(如上述聚焦)的音频文件。

即，在视频录制过程中，无论用户是否启用了声音聚焦、降噪、润色等声音处理功能，必须保留一个录制现场语音采集设备采集的原始的、没有经过任何处理的原始音频文件。该原始音频文件为后期进行本申请实施例记载的音频数据的处理方法的实施主体；只有保留了原始音频数据，本申请方案记载的音频数据的处理方法才能够正常实施。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

上述本申请公开的实施例中详细描述了方法，对于本申请的方法可采用多种形式的装置实现，因此本申请还公开了一种装置，下面给出具体的实施例进行详细说明。

图6为本申请实施例公开的一种音频数据的处理装置的结构示意图，参见图6所示，音频数据的处理装置60可以包括：

对象获取模块601，用于确定第一音频文件中包含的至少一个对象，所述对象为所述第一音频文件输出过程中具有与其对应的音频数据的对象。

对象确定模块602，用于从所述至少一个对象中确定出第一对象。

音频处理模块603，用于基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，在所述第二音频数据中，所述第一对象的声音参数优于其他对象的声音参数，所述声音参数包括响度和信噪比。

本实施例所述音频数据的处理装置，对于已经完成录制的音频文件，能够在其输出前或输出过程中，基于用户选择的在音频文件中具有对应音频的第一对象，对整个音频文件进行处理，使得处理后的音频文件中第一对象的声音更加清晰突出，从而增加音频文件处理的可操作性；基于此方案能够针对性的从音频文件中提取出高质量的目标音频，提升用户的使用体验。

本申请实施例公开的音频数据的处理装置及其各个模块的具体实现可参见方法实施例中相应部分的内容介绍，在此不再重复赘述。

进一步的，本申请还公开了一种电子设备，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

上述电子设备与前述音频数据的处理方法和装置具有相同的技术效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频数据的处理方法，包括：

确定第一音频文件中包含的至少一个对象，所述对象为所述第一音频文件输出过程中具有与其对应的音频数据的对象，所述第一音频文件为已经录制完成的的音频文件，包含多个语音采集设备在录制现场采集的原始音频数据；

从所述至少一个对象中确定出第一对象；

基于所述第一对象的特征信息对所述原始音频数据中的声音进行相位调整，使得调整后的声音相位能够以声音聚焦位置为焦点输出第二音频数据，所述声音聚焦位置与所述特征信息对应，所述特征信息包括第一对象的方位信息，在所述第二音频数据中，所述第一对象的声音参数优于其他对象的声音参数，所述声音参数包括响度和信噪比。

2.根据权利要求1所述的音频数据的处理方法，所述确定第一音频文件种包含的至少一个对象，包括：

或，

3.根据权利要求2所述的音频数据的处理方法，在所述第一音频文件仅为音频文件时，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，包括：

确定所述第一对象对应的第一声纹特征；

4.根据权利要求2所述的音频数据的处理方法，在所述第一音频文件属于所述第一视频文件的部分文件时，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，包括：

基于所述方位信息确定所述第一对象对应的声音聚焦位置；

5.根据权利要求1所述的音频数据的处理方法，所述从所述至少一个对象中确定出第一对象，包括：

基于所述第一操作的操作位置确定至少一个第一对象。

6.根据权利要求5所述的音频数据的处理方法，所述基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，包括：

7.根据权利要求6所述的音频数据的处理方法，所述在所述第二视频文件的不同图像帧中，基于所述第一对象的方位信息对所述第一对象进行音频追踪处理，得到第二音频数据，包括：

8.根据权利要求1-7任一项所述的音频数据的处理方法，所述第一音频文件包括其包含的各个对象的聚焦音频，所述聚焦音频为以其对应的对象所处位置为声音聚焦位置而采集获取的音频，则基于所述第一对象的特征信息对所述第一音频文件进行处理，得到第二音频数据，包括：

9.一种音频数据的处理装置，包括：

对象获取模块，用于确定第一音频文件中包含的至少一个对象，所述对象为所述第一音频文件输出过程中具有与其对应的音频数据的对象，所述第一音频文件为已经录制完成的的音频文件，包含多个语音采集设备在录制现场采集的原始音频数据；

音频处理模块，用于基于所述第一对象的特征信息对所述原始音频数据中的声音进行相位调整，使得调整后的声音相位能够以声音聚焦位置为焦点输出第二音频数据，所述声音聚焦位置与所述特征信息对应，所述特征信息包括第一对象的方位信息，在所述第二音频数据中，所述第一对象的声音参数优于其他对象的声音参数，所述声音参数包括响度和信噪比。

10.一种电子设备，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述可执行指令包括：确定第一音频文件中包含的至少一个对象，所述对象为所述第一音频文件输出过程中具有与其对应的音频数据的对象，所述第一音频文件为已经录制完成的的音频文件，包含多个语音采集设备在录制现场采集的原始音频数据；从所述至少一个对象中确定出第一对象；基于所述第一对象的特征信息对所述原始音频数据中的声音进行相位调整，使得调整后的声音相位能够以声音聚焦位置为焦点输出第二音频数据，所述声音聚焦位置与所述特征信息对应，所述特征信息包括第一对象的方位信息，在所述第二音频数据中，所述第一对象的声音参数优于其他对象的声音参数，所述声音参数包括响度和信噪比。