CN113542466A

CN113542466A - 音频处理方法、电子设备及存储介质

Info

Publication number: CN113542466A
Application number: CN202110768384.1A
Authority: CN
Inventors: 孙小光
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-10-22

Abstract

本申请实施例公开了一种音频处理方法、电子设备及存储介质。所述方法包括：从所述摄像头模组采集的图像中确定目标对象；从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音；对所述目标声音进行突出。通过该方法实现了从与显示屏共面的摄像头模组采集的图像中确定目标对象，便于用户能直接从电子设备的屏幕看到自己的画面，同时，通过从麦克风采集的音频信号中获取目标声音，并对该目标声音进行突出，可以实现突出目标声音而抑制环境噪声的效果，有助于提升用户的使用体验。

Description

音频处理方法、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，更具体地，涉及一种音频处理方法、电子设备及存储介质。

背景技术

目前手机等电子设备存在多摄像头模组用于录像及视频通话等，然而，对于一些直播场景而言，现有的录音技术并不能较好的满足用户的使用体验。

发明内容

鉴于上述问题，本申请提出了一种音频处理方法、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种音频处理方法，应用于电子设备，所述电子设备包括麦克风、摄像头模组以及显示屏，所述摄像头模组与所述显示屏共面，所述方法包括：从所述摄像头模组采集的图像中确定目标对象；从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音；对所述目标声音进行突出。

第二方面，本申请实施例提供了一种电子设备，所述电子设备包括麦克风、摄像头模组、显示屏以及处理器，所述摄像头模组与所述显示屏共面：所述摄像头模组，用于采集图像；所述麦克风，用于采集音频信号；所述处理器，用于执行上述第一方面所述的方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述第一方面的方法。

第四方面，本申请实施例提供了一种电子设备，所述电子设备包括摄像头模组，用于采集图像；麦克风，用于采集音频信号；电路，与所述摄像头模组以及所述麦克风连接，所述电路用于从所述摄像头模组采集的图像中确定目标对象，并从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音，以及对所述目标声音进行突出。

本申请提供的一种音频处理方法、电子设备及存储介质，本方法包括：从所述摄像头模组采集的图像中确定目标对象；从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音；对所述目标声音进行突出。本方法通过从与显示屏共面的摄像头模组采集的图像中确定目标对象，便于用户能直接从电子设备的屏幕看到自己的画面，同时，通过从麦克风采集的音频信号中获取目标声音，并对该目标声音进行突出，可以实现突出目标声音而抑制环境噪声的效果，有助于提升用户的使用体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种音频处理方法的方法流程图。

图2示出了本申请实施例提供的用户通过电子设备的前置摄像头进行直播(或视频)的场景示例图。

图3示出了本申请实施例提供的在电子设备的显示屏上看到自己的实时直播画面的示例图。

图4示出了本申请另一实施例提出的一种音频处理方法的方法流程图。

图5示出了本申请实施例提供的在从麦克风采集的音频信号中获取目标声音时，录音角度及波束角度的示意图。

图6示出了检测目标对象所处的位置范围是否在指定波束角度范围内或者是否在指定录音角度范围内的原理示意图。

图7示出了本申请又一实施例提出的一种音频处理方法的方法流程图。

图8示出了本申请再一实施例提出的一种音频处理方法的方法流程图。

图9示出了本申请的用于执行根据本申请实施例的一种音频处理方法的电子设备的结构框图。

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的一种音频处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

近年来，随着智能终端技术的不断发展以及互联网技术的发展，网络直播用户数量迅速增长，使用手机进行直播的用户也日趋增加，拥有一台好的录像录音手机是非常便利的，例如，拥有一台录音效果好的手机可以达到较好的声音录制和通话体验。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请一实施例提供一种音频处理方法，可应用于电子设备，该电子设备包括麦克风、摄像头模组以及显示屏，其中，摄像头模组与显示屏共面，该电子设备可以为手机、平板电脑等具备网络连接功能的移动通信设备，所述方法包括：

步骤S110：从所述摄像头模组采集的图像中确定目标对象。

需要说明的是，本申请实施例中的摄像头模组可以理解为电子设备的前置摄像头，摄像头模组可以包括单个前置摄像头或者多个前置摄像头。其中，若摄像头模组包括多个前置摄像头，多个前置摄像头可以按任一方向并列摆放设置，此时，所述目标对象为多个前置摄像头拍摄得到的多张图像中的一张图像所对应的对象，该对象可以为人或者动物，例如，该对象可以为“美女主播”、“猫”、“大象”等，该对象的具体类型不作限定。

可选的，若摄像头模组包括单个前置摄像头，可以将所述单个前置摄像头首次拍摄得到的图像中的人物确定为目标对象，或者将所述单个摄像头最后一次拍摄得到的图像中的人物确定为目标对象，或者可以将单个摄像头拍摄得到的质量最好的图像中的人物确定为目标对象。本实施方式中，若前置摄像头拍摄得到的图像中包括多个人物，那么可以将拍摄得到的多个人物中占屏幕面积最大的一个人物确定为目标对象，或者可以获取多个人物图像的景深，并将景深深度最小的一个人物确定为目标对象。

可以理解的是，在一些直播场景中(例如，直播带货场景)，除了主播用户会发言之外，其他协助主播带货的用户(例如品牌商用户)可能也会对着摄像头发言，在这种方式下，目标对象可以变化，例如，可以由主播用户变化为品牌商用户。此种方式下，可以通过人脸识别技术判断摄像头模组采集的图像内容是否发生变化，若判定发生了变化，那么可以将变化后的图像内容对应的任务确定为目标对象。

例如，在一个具体的应用场景中，请参阅图2，示出了本申请实施例提供的用户通过电子设备的前置摄像头进行直播(或视频)的场景示例图。如图2所示，主播用户A正通过电子设备的前置摄像头在直播，此时，电子设备的前置摄像头可以对准直播用户A进行捕捉并锁焦，采集主播用户A的图像，进而可以将主播用户A确定为目标对象。其中，前置摄像头在采集直播用户A的图像时，可以采集直播用户A的各种姿势、各种造型的图像。

本实施方式中，用户通过图2所示的方式进行直播时，如图3所示，用户可以在电子设备的显示屏上看到自己的实时直播画面，同时，在该显示屏上还可以看到主播的头像、昵称、粉丝数量、获赞数量以及观众用户的发言信息等，相较于通过后置摄像头进行网络直播，本实施例通过电子设备的前置摄像头进行网络直播，可以给用户带来较好的录制体验与使用体验。

步骤S120：从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音。

本实施方式中，麦克风的数量至少包括两个，所述至少两个麦克风设置在电子设备的不同的位置。本实施例中，以主播用户直播为例，若主播用户直播时房间内只有主播用户一人，那么麦克风可以采集该主播用户(主播用户此时可以理解为目标对象)的音频信号，并可以直接将该音频信号获取作为目标声音。

而若主播用户在人流量较多的室外直播、或者在有多个用户的室内直播时，周围不可避免的会掺杂其他用户的声音，在这种方式下，麦克风可以对电子设备周围所有的音频信号进行采集，再从采集的所有音频信号中筛选出目标对象的声音作为目标声音。例如，可以预先存储目标对象的声纹特征，再将采集的所有音频信号的声纹特征与目标对象的声纹特征进行比对，进而将比对后与目标对象的声纹特征一致的声纹特征所对应的音频信号作为目标声音。

本实施例中，当目标对象发生变化时，可以重新从麦克风采集的音频信号中获取目标声音，所述目标声音为变化后的目标对象的声音。

步骤S130：对所述目标声音进行突出。

本实施例中，在获取到目标对象的声音后，为了更好的实现直播场景或视频场景的录音效果，可以对目标声音进行突出，以实现突出人声音、压制环境噪声的效果。

本申请提供的一种音频处理方法，通过从所述摄像头模组采集的图像中确定目标对象；从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音；对所述目标声音进行突出。本方法通过从与显示屏共面的摄像头模组采集的图像中确定目标对象，便于用户能直接从电子设备的屏幕看到自己的画面，同时，通过从麦克风采集的音频信号中获取目标声音，并对该目标声音进行突出，可以实现突出目标声音而抑制环境噪声的效果，有助于提升用户的使用体验。

请参阅图4，本申请另一实施例提供一种音频处理方法，可应用于电子设备，所述电子设备包括麦克风、摄像头模组以及显示屏，其中，摄像头模组与显示屏共面，所述方法包括：

步骤S210：从所述摄像头模组采集的图像中确定目标对象。

步骤S220：从所述麦克风采集的音频信号中获取位于指定波束角度范围内的音频信号。

本实施例中，波束角度可以理解为麦克风录制音频信号时来自前置摄像头方向的音频信号的角度范围，指定波束角度范围可以为0°～120°(具体数值可以根据实际需求进行调整)。作为一种方式，为了便于准确的区分目标对象的声音与其他声音，可以从麦克风采集的音频信号中获取位于指定波束角度范围内的音频信号，从而可以根据音频信号的来源方向快速的确定目标对象的声音所在的方位。

步骤S230：将所述音频信号作为目标声音，所述目标声音为所述目标对象的声音。

此种方式下，可以直接将位于指定波束角度范围内的音频信号作为目标对象的声音，通过该方式可以快速的确定目标对象的声音。

作为另一种方式，在上述确定目标对象的声音的实施方式的基础之上，为了便于能更准确的确定目标对象的声音，可以从麦克风采集的音频信号中获取位于所述指定波束角度范围内且位于指定录音角度范围内的音频信号，并将所述音频信号作为目标声音。其中，所述指定录音角度小于所述指定波束角度，指定录音角度可以理解为麦克风录制音频信号时来自前置摄像头的视场角范围内的音频信号的角度范围，指定录音角度范围可以为0°～90°(具体数值可以根据实际需求进行调整)。

在一个具体的应用场景中，请参阅图5，示出了本申请实施例提供的在从麦克风采集的音频信号中获取目标声音时，录音角度及波束角度的示意图。如图5所示，电子设备水平放置，且图5所示为电子设备的侧边视角，假设电子设备配置有前置摄像头和后置摄像头，前置摄像头可以用于主播用户直播、或视频用户视频，电子设备的至少两个麦克风可以分别设置于图5所示的位置。当用户在用图5所示的电子设备进行直播时，为了便于获取更加准确的目标声音，可以获取位于120°波束角度范围内的音频信号作为目标音频，或者获取位于120°波束角度范围内、且位于90°录音角度范围内的音频信号作为目标音频，可以实现更为准确的获取目标对象的声音。

其中，电子设备可以实时检测目标对象所处的位置范围是否在指定波束角度范围内或者是否在指定录音角度范围内。如图6(为图5的局部示意图)所示，假设D为目标对象当前所在的位置，电子设备可以基于该位置以及前置摄像头的位置确定目标对象相对于电子设备的侧边的中心线的角度(即图6所示的角度C)，例如，可以通过两点确定一条直线的方式确定目标对象的所在位置，进而确定其相对于电子设备的侧边的中心线的角度C。同时电子设备还可以确定目标对象位于所述指定波束角度范围内且位于指定录音角度范围内时对应的角度范围(及图6所示的(角度A，角度B)，其中，角度B大于角度A)，在这种方式下，若检测出角度C落在(角度A，角度B)之间的角度范围内，那么可以判定目标对象当前位于所述指定波束角度范围内且位于指定录音角度范围内时对应的角度范围内，从而可以实现快速且准确的获取目标对象的声音。

可选的，若只从麦克风采集的音频信号中获取位于所述指定波束角度范围内的音频信号作为目标声音时，确定的原理与上述描述类似，在此不再赘述。

步骤S240：对所述目标声音进行突出。

请参阅图7，本申请又一实施例提供一种音频处理方法，可应用于电子设备，所述电子设备包括麦克风、摄像头模组以及显示屏，其中，摄像头模组与显示屏共面，所述方法包括：

步骤S310：从所述摄像头模组采集的图像中确定目标对象。

步骤S320：从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音。

步骤S330：对所述目标声音进行增益处理。

在一种实施方式中，为了便于更好的突出目标对象的声音，使其区别于环境噪声以及其他声音，可以对目标声音进行增益处理，以实现增强目标声音的幅度，从而可以得到更清晰的目标对象的声音，提升用户使用体验。例如，当主播用户在室内直播时，如果室内还有其他直播参演人员，可能会影响到主播用户的声音录制效果，而其他参演人员的声音也是录制时所需要的，例如，其他参演人员可能是供货商、厂商等帮忙讲解产品的工作人员，此时，为了不影响整体的录音效果有可以突出主播用户的声音，可以通过对主播用户的声音进行增益处理的方式来突出主播用户的声音，便于观众用户可以快速的区别出主播用户的声音，以提升主播用户的声音录制体验。

在另一种实施方式中，也可以对所述麦克风采集的音频信号中的指定声音进行降噪处理，所述指定声音为所述音频信号中除所述目标声音以外的声音，例如，该指定声音可以为环境噪音，或者可以为其他行人或用户的声音，通过削弱目标用户的声音以外的声音，可以实现较好的突出目标用户的声音，给用户带来较好的声音录制体验。例如，当主播用户在人流量较大的公共场所直播时(例如，音乐主播用户可能会在商业购物广场路演)，环境中的噪声是比较复杂的，包括车流声、其他商家播放的音乐声、路人的讲话声等等，可能会较大程度的干扰主播用户的声音录制效果，在这种方式下，为了有效的提升主播用户的声音录制效果，可以对所述麦克风采集的音频信号中除所述目标声音以外的声音进行降噪处理，以实现较好的压制环境噪声，从而实现突出人声。

在又一种实施方式中，还可以对所述目标声音进行增益处理，同时对所述麦克风采集的音频信号中除所述目标声音以外的声音进行降噪处理，从而可以更大程度的突出人声，给用户带来较好的使用体验。

请参阅图8，本申请再一实施例提供一种音频处理方法，可应用于电子设备，所述电子设备包括麦克风、摄像头模组以及显示屏，其中，摄像头模组与显示屏共面。本实施例中，所述电子设备关联有智能穿戴设备，所述智能穿戴设备设置有麦克风，所述方法包括：

步骤S410：从所述摄像头模组采集的图像中确定目标对象。

步骤S420：从所述麦克风以及所述智能穿戴设备的麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音。

可选的，在目标对象直播的过程中，其可能会移动位置，例如，歌唱主播直播时通常会来回走动而与观众进行互动，在这种方式下，如果用户移动后的位置超出了前述实施例中所描述的所述指定波束角度范围内且所述指定录音角度范围内的位置时，通过麦克风录制得到的音频信号可能会不准确，例如，可能会误将其他用户的声音作为目标声音，为了优化这一问题，本实施例中的电子设备可以与智能穿戴设备关联，智能穿戴设备可以为手环或手表等智能设备，本实施例中，智能穿戴设备设置有麦克风，且麦克风的数量以及具体设置位置可以不做限定。

作为一种方式，智能穿戴设备佩戴在用户的手上或者身上，智能穿戴设备的麦克风可以实时拾取目标用户的音频信号。当检测出目标对象所在的位置位于所述指定波束角度范围内且所述指定录音角度范围内之外的位置时，可以从所述麦克风以及所述智能穿戴设备的麦克风采集的音频信号中获取目标声音。例如，若发现目标对象所在的位置完全偏离所述指定波束角度范围内且所述指定录音角度范围内之外的位置时，可以直接从所述智能穿戴设备的麦克风采集的音频信号中获取目标声音，若发现目标对象所在的位置处于所述指定波束角度范围内且所述指定录音角度范围内的位置时，可以直接从电子设备的麦克风采集的音频信号中获取目标声音，否则可以从所述麦克风以及所述智能穿戴设备的麦克风采集的音频信号中获取目标声音。

其中，当从所述麦克风以及所述智能穿戴设备的麦克风采集的音频信号中获取目标声音时，可以获取两个设备各自的麦克风获取的音频信号所对应的声纹特征与目标对象的声音的声纹特征的相似度，进而可以从相似度相对较大的麦克风获取的音频信号中获取目标声音。

步骤S430：对所述目标声音进行增益处理。

请参阅图9，基于上述的音频处理方法，本申请实施例还提供了一种可以执行前述音频处理方法的电子设备100。电子设备100包括麦克风1、摄像头模组2、显示屏3、存储器102以及相互耦合的一个或多个(图中仅示出一个)处理器104，存储器102以及处理器104之间通信线路连接，麦克风1以及处理器104之间通信线路连接，摄像头模组2以及处理器104之间通信线路连接，显示屏3以及处理器104之间通信线路连接。存储器102中存储有可以执行前述实施例中内容的程序，而处理器104可以执行存储器102中存储的程序。

其中，处理器104可以包括一个或者多个处理核。处理器104利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器102内的指令、程序、代码集或指令集，以及调用存储在存储器102内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器104可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器104可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器104中，单独通过一块通信芯片进行实现。

存储器102可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

其中，摄像头模组2与所述显示屏3共面。所述摄像头模组2，用于采集图像；所述麦克风1，用于采集音频信号；所述处理器104，用于执行前述方法实施例中任一所述的方法。

可选的，在其他一些可能的实施方式中，电子设备100可以包括摄像头模组、麦克风以及电路，其中，摄像头模组，用于采集图像；麦克风，用于采集音频信号；电路，与所述摄像头模组以及所述麦克风连接，所述电路用于从所述摄像头模组采集的图像中确定目标对象，并从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音，以及对所述目标声音进行突出。

请参考图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质500中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质500包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。

综上所述，本申请提供的一种音频处理方法、电子设备及存储介质，本方法包括：从所述摄像头模组采集的图像中确定目标对象；从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音；对所述目标声音进行突出。本方法通过从与显示屏共面的摄像头模组采集的图像中确定目标对象，便于用户能直接从电子设备的屏幕看到自己的画面，同时，通过从麦克风采集的音频信号中获取目标声音，并对该目标声音进行突出，可以实现突出目标声音而抑制环境噪声的效果，有助于提升用户的使用体验。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，其特征在于，应用于电子设备，所述电子设备包括麦克风、摄像头模组以及显示屏，所述摄像头模组与所述显示屏共面，所述方法包括：

从所述摄像头模组采集的图像中确定目标对象；

从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音；

对所述目标声音进行突出。

2.根据权利要求1所述的方法，其特征在于，所述从所述麦克风采集的音频信号中获取目标声音，包括：

从所述麦克风采集的音频信号中获取位于指定波束角度范围内的音频信号；

将所述音频信号作为目标声音。

3.根据权利要求2所述的方法，其特征在于，所述从所述麦克风采集的音频信号中获取目标声音，包括：

从所述麦克风采集的音频信号中获取位于所述指定波束角度范围内且位于指定录音角度范围内的音频信号，所述指定录音角度小于所述指定波束角度；

将所述音频信号作为目标声音。

4.根据权利要求1所述的方法，其特征在于，所述对所述目标声音进行突出，包括：

对所述目标声音进行增益处理。

5.根据权利要求1所述的方法，其特征在于，所述对所述目标声音进行突出，包括：

对所述麦克风采集的音频信号中的指定声音进行降噪处理，所述指定声音为所述音频信号中除所述目标声音以外的声音。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述电子设备关联有智能穿戴设备，所述智能穿戴设备设置有麦克风，所述从所述麦克风采集的音频信号中获取目标声音，包括：

从所述麦克风以及所述智能穿戴设备的麦克风采集的音频信号中获取目标声音。

7.根据权利要求1所述的方法，其特征在于，所述麦克风的数量至少包括两个，所述至少两个麦克风设置在不同的位置。

8.一种电子设备，其特征在于，所述电子设备包括麦克风、摄像头模组、显示屏以及处理器，所述摄像头模组与所述显示屏共面：

所述摄像头模组，用于采集图像；

所述麦克风，用于采集音频信号；

所述处理器，用于执行权利要求1-7任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-7任一所述的方法。

10.一种电子设备，其特征在于，包括：

摄像头模组，用于采集图像；

麦克风，用于采集音频信号；

电路，与所述摄像头模组以及所述麦克风连接，所述电路用于从所述摄像头模组采集的图像中确定目标对象，并从所述麦克风采集的音频信号中获取目标声音，所述目标声音为所述目标对象的声音，以及对所述目标声音进行突出。