CN113593608B

CN113593608B - 基于对象识别的美音方法、电子设备及存储介质

Info

Publication number: CN113593608B
Application number: CN202110726914.6A
Authority: CN
Inventors: 刘镇亿; 玄建永; 高海宽
Original assignee: Beijing Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-06-24
Anticipated expiration: 2041-06-29
Also published as: CN113593608A

Abstract

本申请涉及视频优化领域，提供了一种基于对象识别的美音方法、电子设备及存储介质。所述基于对象识别的美音方法包括：获取视频对应的图像流数据和音频流数据；识别所述图像流数据，确定图像对象；识别所述音频流数据，确定音频对象；根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则；按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据；将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。利用本申请实施例，可以提高视频中的音频美化的效率，从而提高视频的质量。

Description

基于对象识别的美音方法、电子设备及存储介质

技术领域

本申请涉及视频优化领域，尤其涉及一种基于对象识别的美音方法、电子设备及存储介质。

背景技术

随着短视频软件的兴起，录制高质量的视频对用户有很大的吸引。现有的视频处理方案主要集中于对音频背景的美化处理，从而提高视频的质量。比如，通过提供音频模板给用户，用户可以根据模板拍摄契合模板的视频，但是这类方案需要用户配合模板实现视频拍摄，对用户的限制度较高。或者根据视频内容信息，推荐匹配视频内容的背景音乐推荐给用户，供用户选择替换，但是这种方法受限于乐库，用户随意拍摄的视频未必能找到匹配的背景乐。目前现有的视频处理方案的处理效率不高，处理后得到的视频的质量也经常不尽如人意。

发明内容

鉴于以上内容，有必要提供一种基于对象识别的美音方法、电子设备及存储介质，提高视频中的音频美化的效率，从而提高视频的质量。

第一方面，本申请实施例提供了一种基于对象识别的美音方法，所述方法包括：获取视频对应的图像流数据和音频流数据；识别所述图像流数据，确定图像对象；识别所述音频流数据，确定音频对象；根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则；按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据；将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。通过上述技术方案，可以用于提高视频中的音频美化的效率，从而提高视频的质量。

在一种实现方式中，根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一图像对象不存在对应的音频对象，将所述图像对象对应的目标音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象虚拟处理。通过上述技术方案，对待处理音频对象进行对象虚拟处理，可以无中生有，给原本不存在对应的音频对象的图像对象添加新的音频对象。

在一种实现方式中，按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据包括：确定所述目标音频对象对应的目标音频；根据所述目标音频对音频流数据进行对象虚拟处理，得到处理后的音频数据。通过上述技术方案，对待处理音频对象进行对象虚拟处理，可以无中生有，给原本不存在对应的音频对象的图像对象添加新的音频对象，以使处理后的音频流数据中存在该图像对象对应的音频对象，提高了音频流数据的质量，从而提高了视频的质量。

在一种实现方式中，确定所述目标音频对象对应的目标音频，包括：识别所述待处理音频对象对应的图像对象，确定目标特征，并根据所述目标特征确定待处理音频对象对应的目标音频。通过上述技术方案，对音频对象对应的图像对象进行识别，确定目标特征，并根据目标特征确定待处理音频对象对应的目标音频，可以提高确定目标视频的准确率，从而提高音频美化的效率。

在一种实现方式中，确定所述目标音频对象对应的目标音频包括：若所述目标音频对象为乐器声，且所述音频流数据中存在为人声的音频对象，识别所述为人声的音频对象，确定目标歌曲；根据所述目标歌曲和所述乐器，确定所述待处理音频对象对应的目标音频。通过上述技术方案，在有人唱歌并有乐器出现的情况下，根据人声的内容确定目标歌曲，并将目标歌曲相关的乐器伴奏加入音频流数据，使得处理后的音频具有更丰富的内容，提高音频美化的效率。同时处理后的视频具有更丰富的内容，提高了视频的质量。

在一种实现方式中，确定所述目标音频对象对应的目标音频包括：若目标音频对象为人声，且所述音频流数据中存在为乐器声的音频对象，识别所述为乐器声的音频对象，确定目标歌曲；根据所述目标歌曲，确定所述待处理音频对象对应的目标音频。通过上述技术方案，在有乐器演奏的情况下，根据乐器演奏的歌曲确定清唱歌曲，并将清唱歌曲加入音频流数据，使得处理后的音频具有更丰富的内容，提高音频美化的效率。同时处理后的视频具有更丰富的内容，提高了视频的质量。

在一种实现方式中，识别所述为乐器声的音频对象，确定目标歌曲包括：确定所述图像流数据中是否存在所述为乐器声的音频对象对应的图像对象；若所述图像流数据中存在所述为乐器声的音频对象对应的图像对象，识别所述为乐器声的音频对象，确定目标歌曲。通过上述技术方案，进一步确定图像流数据中是否存在所述为乐器声的音频对象对应的图像对象，并在确定在图像流数据中存在所述为乐器声的音频对象对应的图像对象后，对所述为乐器声的音频对象进行识别，可以避免对用户录制过程中误录的乐器声进行处理，导致音频美化的准确率降低的情况发生，从而提高了音频美化的效率。

在一种实现方式中，根据所述目标歌曲，确定所述待处理音频对象对应的目标音频包括：识别所述待处理音频对象对应的图像对象，确定目标人物特征；根据所述目标歌曲和所述目标人物特征，确定所述待处理音频对象对应的目标音频。通过上述技术方案，对识别待处理音频对象对应的图像对象进行生物识别，确定目标人物特征，并根据目标人物特征确定目标音频，可以使得确定的目标音频更符合图像流数据，提高了音频美化的效率，从而提高了视频的质量。

在一种实现方式中，根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一音频对象不存在对应的图像对象，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象抑制处理。通过上述技术方案，将不存在对应图像对象的音频对象确定为干扰对象，对其进行抑制处理，可以避免音频中存在过多的干扰音，提高音频美化的效率，从而提高视频的质量。

在一种实现方式中，根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一音频对象存在对应的图像对象，判断所述音频对象是否是噪声对象；若所述音频对象是噪声对象，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象抑制处理。通过上述技术方案，对确定为噪声对象进行对象抑制处理，可以有效减少音频中的噪声，提高音频美化的效率，从而提高视频的质量。

在一种实现方式中，根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一音频对象存在对应的图像对象，获取所述音频对象对应的信噪比；若所述音频对象对应的信噪比低于第一信噪比阈值，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象虚拟处理；若所述音频对象对应的信噪比高于第二信噪比阈值，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象增强处理；其中，第一信噪比阈值小于第二信噪比阈值。通过上述技术方案，设置第一信噪比阈值和第二信噪比阈值，并根据第一信噪比阈值和第二信噪比阈值确定音频对象对应的音频质量，并对不同音频质量的音频对象进行不同的处理，可以提高对音频对象的处理效率，从而提高音频美化的效率。

在一种实现方式中，根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一音频对象存在对应的图像对象且所述音频对象为人声，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象美化处理。通过上述技术方案，对音频中的人声进行美化处理，可以有效提高音频的质量，从而提高视频的质量。

在一种实现方式中，所述方法还包括：将获取到的图像流数据存储至第一存储空间，将获取到的音频流数据存储至第二存储空间。通过上述技术方案，分开存储获取到的图像流数据和音频流数据方便后续分别对图像流数据和音频流数据进行处理，从而提高音频美化的效率。

在一种实现方式中，识别所述图像流数据，确定图像对象包括：获取所述图像流数据对应的图像帧；对所述图像帧进行特征提取，得到图像识别特征；将图像识别特征输入预先训练的识别模型，得到所述图像帧对应的对象标签；根据所述对象标签，确定图像对象。通过上述技术方案，对图像流数据对应的图像帧进行特征提取，并基于训练完成的识别模型对提取出的特征进行识别，可以提高确定图像流数据对应的图像对象的准确率。

在一种实现方式中，图像对象包括对象和对象对应的时间轴标注，所述根据所述对象标签，确定图像对象包括：根据所述对象标签，确定所述图像流数据对应的对象；确定所述对象对应的图像帧数；根据所述对象对应的图像帧数、所述图像流数据对应的总图像帧数和所述图像流数据对应的播放时长，对所述对象加入时间轴标注，得到图像对象。通过上述技术方案，给图像流数据中的对象加入时间轴标注，得到图像流数据对应的图像对象，可以使得到的图像对象的携带更多的数据信息，从而提高对音频美化的效率。

在一种实现方式中，识别所述音频流数据，确定所述音频流数据对应的图像对象包括：对所述音频流数据进行特征提取，得到音频识别特征；将音频识别特征输入预先训练的识别模型，得到所述音频流数据对应的对象标签；根据所述对象标签，确定音频对象。通过上述技术方案，对音频流数据进行特征提取，并基于训练完成的识别模型对提取出的特征进行识别，可以提高确定音频流数据对应的音频对象的准确率。

在一种实现方式中，对所述音频流数据进行特征提取，得到音频识别特征包括：基于多通道非负矩阵分解系统对所述音频流数据进行声源分离，得到多个分离音源；对所述多个分离音源进行特征提取，得到音频识别特征。通过上述技术方案，基于多通道非负矩阵分解系统对获取到的多个音频流数据进行声源分离，可以提高声源分离的效率，使得到的多个分离音源中保留各个音源中重要的音源特征，提高特征提取的准确率，从而提高了确定音频对象的准确率。

在一种实现方式中，所述方法还包括：根据待处理音频对象和所述待处理音频对象对应的处理规则，生成可处理内容，并显示所述可处理内容在目标设备上。通过上述技术方案，显示可处理内容，可以让用户清晰感知对音频的具体优化内容，提高用户的体验。

在一种实现方式中，所述按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据包括：根据所述待处理音频对象和所述待处理音频对象对应的处理规则，生成可处理内容，并显示所述可处理内容；基于用户对所述可处理内容的选择，对所述待处理音频对象进行处理，得到处理后的音频数据。通过上述技术方案，基于用户对所述可处理内容的选择，对所述待处理音频对象进行处理，可以提高对音频处理的准确率，提高用户体验。

在一种实现方式中，获取视频对应的图像流数据和音频流数据包括：对目标视频进行提取处理，得到目标视频对应的图像流数据和音频流数据。通过上述技术方案，对用户已拍摄的视频进行提取处理，得到视频对应的图像流数据和音频流数据，实现对视频中音频美化，提高了视频的质量。

同时，在上述实现方式中，按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据可以包括：根据所述待处理音频对象和所述待处理音频对象对应的处理规则，生成可处理内容，并显示所述可处理内容；基于用户对所述可处理内容的选择，对所述待处理音频对象进行处理，得到处理后的音频数据。通过上述技术方案，基于用户对所述可处理内容的选择，对所述待处理音频对象进行处理，可以提高对音频处理的准确率，提高用户体验。

第二方面，本申请实施例提供一种电子设备，所述电子设备包括存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于读取所述存储器中存储的所述程序指令，以实现如上述的基于对象识别的美音方法。

第三方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储了计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如上所述的基于对象识别的美音方法。

第四方面，本申请实施例提供一种包含指令的计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如上所述的基于对象识别的美音方法。

另外，第二方面、第三方面和第四方面所带来的技术效果可参见上述方法部分各涉及的方法相关的描述，此处不再赘述。

附图说明

图1为本申请实施例提供的一种基于对象识别的美音方法的场景示意图。

图2a和2b为本申请实施例提供的另一种基于对象识别的美音方法的场景示意图。

图3为本申请实施例提供的一种基于对象识别的美音方法的流程图。

图4为本申请实施例提供的一种基于识别模型对图像流数据进行识别的流程图。

图5为本申请实施例提供的一种基于识别模型对音频流数据进行识别的流程图。

图6为本申请实施例提供的另一种基于识别模型对音频流数据进行识别的流程图。

图7是图3中步骤S34和步骤S35的子流程图。

图8为本申请实施例提供的另一种基于对象识别的美音方法的流程图。

图9为本申请实施例提供的一种显示美音推荐列表的场景示意图。

图10为本申请实施例提供的又一种基于对象识别的美音方法的流程图。

图11为本申请实施例提供的再一种基于对象识别的美音方法的流程图。

图12为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，“示例性”、“或者”、“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性”、“或者”、“例如”等词旨在以具体方式呈现相关概念。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。应理解，本申请中除非另有说明，“/”表示或的意思。例如，A/B可以表示A或B。本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B三种情况。“至少一个”是指一个或者多个。“多个”是指两个或多于两个。例如，a、b或c中的至少一个，可以表示：a，b，c，a和b，a和c，b和c，a、b和c七种情况。

随着电子设备的发展，人们已经习惯通过电子设备上的录音、录像的功能来记录自己的生活。特别是短视频软件的兴起，人们对录制高质量的视频有着较大的需求。现有的视频处理方案主要集中于对音频背景的美化处理，通过对音频背景进行美化提高视频的质量。现在视频的音频处理方案分为两类，其中一类方案是提供音频模板给用户，用户可以选择自己要进行拍摄的模板，并根据选中的模板拍摄契合模板的视频，这类方案需要用户配合模板进行视频拍摄，对用户的限制度较高，不容易拍摄出完全匹配模板的视频，而且不会保留用户拍摄过程中真实的音频。另外一类方案则是根据用户录制的视频内容信息，推荐匹配视频内容的背景音乐推荐给用户，供用户选择，接着将用户选择的背景音乐替换掉用户录制过程中的音频，或者将用户选择的背景音乐和用户录制过程中的音频一起作为视频的音频，这类处理方案受限于乐库，用户随意拍摄的视频经常找不到匹配的背景乐。

现有的两种对音频背景进行美化方案，不能很好地根据用户拍摄的视频进行音频美化，导致视频中的音频美化的效率不高，从而导致美化后的视频质量不高，给用户的体验感较差。

为解决上述现有技术中视频中的音频背景美化效率不高的技术问题，本申请实施例提供一种基于对象识别的美音方法以提高视频中的音频美化的效率，从而提高视频的质量，给用户带来更好的体验。

参考图1所示，为本申请实施例提供的一种基于对象识别的美音方法的场景示意图。若用户选择点击图1中的一键美音或美音推荐，进入一键美音模式或美音推荐模式，通过基于对象识别的美音方法对视频的音频背景进行处理。

本申请实施例中，若用户点击一键美音，直接使用基于对象识别的美音方法对用户拍摄的视频进行处理，向用户显示处理后的视频；若用户点击美音推荐，使用对象识别的美音方法确定用户拍摄的视频对应的可处理内容，并向用户展示可处理内容，基于用户对可处理内容的选择对用户拍摄的视频进行处理，向用户显示处理后的视频。

应当理解的是，本文中所述的一键美音和美音推荐仅作为两个名字用于表示两种不同的基于对象识别的美音方法处理流程。例如，在其他实施例中，可以用一键优化和优化推荐这两个名字来表示两种不同的基于对象识别的美音方法处理流程。

在本申请的一些实施例中，用户可以通过如图2a至图2b中所示的路径，进入一键美音模式或美音推荐模式。若用户点击电子设备桌面中的照相应用，如图2a所示，进入照相应用，如2b所示。用户可以通过点击相机应用的拍摄模式中的一键美音或美音推荐，进入一键美音模式或美音推荐模式。例如，用户可通过点击图2b中的更多，获取到更多的拍摄模式。用户可以通过在更多的拍摄模式中选择一键美音或美音推荐，进入一键美音模式或美音推荐模式。

在本申请的一些实施例中，用户选择一键美音模式或美音推荐模式后，可以开始拍摄视频。根据用户进入的模式，使用对象识别的美音方法，对获取到的用户拍摄的视频数据进行处理，得到处理后的视频，并向用户显示处理后的视频。例如，用户选择一键美音模式后，开始进行拍摄。获取用户拍摄的视频数据，直接使用对象识别的美音方法对获取到的视频数据进行处理，向用户展示处理后的视频数据；又例如，用户选择美音推荐模式后，进行拍摄。获取用户拍摄的视频数据，使用对象识别的美音方法，确定获取到的视频数据对应的可处理内容，并向用户展示可处理内容，基于用户对可处理内容的选择对用户拍摄的视频数据进行处理，向用户显示处理后的视频。其中，视频数据中可以包括图像流数据和音频流数据。

参考图3所示，为本申请实施例提供的一种基于对象识别的美音方法的流程图。若用户选择一键美音模式，实现如图3所示的基于对象识别的美音方法。所述方法可应用于不同类型的电子设备中，该电子设备可以用来拍摄视频，电子设备可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digitalassistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence，AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备的具体类型不作特殊限制。该方法具体包括如下步骤。

步骤S31，获取视频对应的图像流数据和音频流数据。

若用户选择一键美音模式，获取视频对应的图像流数据和音频流数据，如获取用户拍摄的视频对应的图像流数据和音频流数据。例如，从电子设备的拍摄装置获取用户拍摄对应的图像流数据；从电子设备的麦克风装置获取用户拍摄对应的音频流数据，其中可以从电子设备的多个麦克风装置获取用户拍摄对应的音频数据。

在本申请的一些实施例中，可以分开存储获取到的图像流数据和音频流数据。例如，可以预设设置两个存储空间，分别用于存储获取到的图像流数据和音频流数据。通过分开存储获取到的图像流数据和音频流数据方便后续分别对图像流数据和音频流数据进行处理，从而提高音频美化的效率。

步骤S32，识别所述图像流数据，确定图像流数据图像流数据对应的图像对象。

在本申请的一些实施例中，可以基于深度神经网络模型识别技术对所述图像流数据进行识别，确定图像流数据对应的图像对象。

例如，图4所示，图4上部分为神经网络模型进行模型训练的一种流程示意图，首先进行样本采集标注，即进行图片的采集标注。在图片的采集标注过程中标注能发声的对象，如人物，大海，汽车等，同时在采集标注过程中，剔除不能发声的对象，如桌子，房子等。然后将标注完成的样本进行特征提取，得到提取的特征，将提取的特征输入神经网络模型中进行模型训练，得到训练完成的识别模型。其中，深度神经网络模型可以包括基于区域的卷积神经网络(Region-Convolutional Neural Networks，R-CNN)模型，目标检测模型YOLO(YouOnly Look Once)等。

图4下部分为基于训练完成的识别模型对所述图像流数据进行识别，确定图像流数据对应的图像对象的一种流程示意图。首先获取图像流文件中图像帧，接着对获取到的图像帧进行特征提取，得到提取的特征，最后将提取的特征输入至训练完成的识别模型，得到识别结果，输出特征对应的对象标签。根据对象标签，确定图像流数据对应的图像对象。例如，根据对象标签确定图像流数据对应的对象，并根据当前输入的图像帧数对所述对象加入时间轴标注，得到图像流数据对应的图像对象，其中图像对象包括对象和对象对应的时间轴标注。如图像对象-鸟包括对象-鸟和对象-鸟对应的时间标注4S-6S，4S-6S表示播放该图像流数据时对象-鸟在第4秒至第6秒出现。

通过对图像流数据对应的图像帧进行特征提取，并基于训练完成的识别模型对提取出的特征进行识别，可以提高确定图像流数据对应的图像对象的准确率。

在本申请的一些实施例中，可以根据图像流数据中对象对应的图像帧数、所述图像流数据对应的总图像帧数和所述图像流数据对应的播放时长对图像流数据中的对象加入时间轴标注。例如，根据当前输入的图像帧数，确定对图像流数据中的一对象出现在第26帧至第151帧，该图像流数据对应的总图像帧数为750帧，该图像流数据对应的播放时长为30S，该图像流数据的播放帧率为25帧/秒，根据上述信息，对该对象加入的时间轴标注为2S-6S，2S-6S表示该对象在该30S的图像流数据中的第2秒至第6秒出现。

通过给图像流数据中的对象加入时间轴标注，得到图像流数据对应的图像对象，可以使得到的图像对象的携带更多的数据信息，从而提高对音频美化的效率。

图像流数据对应的图像对象可以包括图像对象的名称和图像对象的出现时间。例如，一个播放时长为30S的图像流数据的图像对象，如表1所示。

序列	名称	出现时间
			图像对象1	钢琴	2S-30S
图像对象2	人	3S-25S
			图像对象3	鸟	4S-6S

表1

其中，2S-30S表示钢琴在该30S的图像流数据中的第2秒至第30秒出现，3S-25S表示人在该30S的图像流数据中的第3秒至第25秒出现，4S-6S表示鸟在该30S的图像流数据中的第4秒至第6秒出现。

步骤S33，识别所述音频流数据，确定音频流数据对应的音频对象。

示例性的，可以基于神经网络识别技术对获取到的音频流数据进行识别，确定音频流数据对应的音频对象。

例如，图5所示，图5上部分为神经网络模型进行模型训练的一种流程示意图，首先进行声源采集标注，即进行声音的采集标注。在声源采集标注过程中对不同的声音进行标注，如人声、钢琴声、海浪声等。然后将标注完成的声源进行特征提取，得到提取的特征，将提取的特征输入识别模型中进行神经网络训练，得到训练完成的识别模型。其中，神经网络训练可以包括卷积神经网络(Convolutional Neural Networks，CNN)训练和深度神经网络(Deep Neural Networks，DNN)等。

图5下部分为基于训练完成的识别模型对所述音频流数据进行识别，确定音频流数据对应的音频对象的一种流程示意图。首先将音频流数据进行特征提取，将提取到的特征输入训练完成的识别模型进行识别，得到识别结果，输出特征对应的对象标签。根据对象标签，确定图像流数据对应的图像对象。例如，根据对象标签确定音频流数据对应的对象，并根据音频流数据的时间标记对所述对象加入时间轴标注，得到音频流数据对应的音频对象。其中音频对象包括对象和对象对应的时间轴标注。如音频对象-鸟叫包括对象-鸟叫和对象-鸟叫对应的时间标注4S-7S，4S-7S表示播放该音频流数据时对象-鸟叫在第4秒至第7秒出现。

通过对音频流数据进行特征提取，并基于训练完成的识别模型对提取出的特征进行识别，可以提高确定音频流数据对应的音频对象的准确率。在本申请的一些实施例中，若通过电子设备中的多个麦克风装置获取到用户拍摄对应的多个图像流数据，可以基于声源分离技术和神经网络识别技术对所述多个音频流数据进行识别，确定所述多个音频流数据对应的音频对象。

在本申请的一些实施例中，可以通过独立成分分析(Independent ComponentAnalysis，ICA)对获取到的图像流数据音源进行声源分离，得到还原音源信号。对还原音源信号进行特征提取，将提取到的特征输入训练完成的识别模型进行识别，得到识别结果。

在本申请的一些实施例中，可以通过独立向量分析(Independent VectorAnalysis，IVA)对获取到的图像流数据音源进行声源分离，得到分离音源信号。对分离音源信号进行特征提取，将提取到的特征输入训练完成的识别模型进行识别，得到识别结果。

在本申请的一些实施例中，可以通过非负矩阵分解(Non-negative MatrixFactorization，IVA，NMF)对获取到的图像流数据音源进行声源分离，得到分离音源信号。对分离音源信号进行特征提取，将提取到的特征输入训练完成的识别模型进行识别，得到识别结果。

在本申请的一些实施例中，可以通过多通道非负矩阵分解(Multichannel Non-negative Matrix Factorization，MNMF)系统进行声源分离，得到多个分离音源，多通道非负矩阵分解系统下面简称MNMF系统。然后基于神经网络识别技术对所述多个分离音源进行识别，确定所述多个音频数据对应的音频对象。

例如，如图6所示，将获取到的多个音频流数据输入MNMF系统进行声源分离，得到多个分离音源。将每个分离音源分别进行特征提取，将提取到的特征输入训练完成的识别模型进行识别，得到识别结果，输出特征对应的对象标签。根据对象标签和当前输入的分离音源的时间标记，确定音频流数据对应的对象。例如，根据对象标签确定当前输入的分离音源中的音频对象，并根据当前输入的分离音源对应的时间标记，对当前输入的分离音源中的音频对象加入时间轴标注，得到音频流数据对应的音频对象。其中，输入MNMF系统的音频流数据数量与输出MNMF系统的分离音源数量相匹配。例如，输入MNMF系统的音频流数据数量为3，输出MNMF系统的分离音源数量也为3。

通过MNMF系统对获取到的多个音频流数据进行声源分离，可以提高声源分离的效率，使得到的多个分离音源中保留各个音源中重要的音源特征，提高特征提取的准确率，从而提高了确定音频对象的准确率。

音频流数据对应的音频对象可以包括音频对象的名称和音频对象对应的时间轴标注，如音频对象的出现时间。例如，一个30S的音频数据的音频对象，如表2所示。

序列	名称	出现时间
			音频对象1	钢琴声	1S-28S
音频对象2	人声	3S-25S
			音频对象3	鸟叫声	4S-7S

表2

其中，1S-30S表示钢琴声在该30S的音频数据中的第1秒至第28秒出现，3S-25S表示钢琴声在该30S的音频数据中的第3秒至第25秒出现，4S-7S表示鸟叫声在该30S的音频数据中的第4秒至第7秒出现。

如图6中用虚线框出的部分为识别模型进行模型训练的流程示意图，首先进行声源采集标注，即进行声音的采集标注。在声源采集标注过程中对不同的声音进行标注，如人声、钢琴声、海浪声等。然后将标注完成的声源进行特征提取，得到提取的特征，将提取的特征输入识别模型中进行神经网络训练，得到训练完成的识别模型。其中，神经网络训练可以包括卷积神经网络(Convolutional Neural Networks，CNN)训练和深度神经网络(DeepNeural Networks，DNN)等。

步骤S34，根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则。

将图像对象与音频对象进行匹配，确定每个图像对象对应的音频对象，根据匹配结果确定待处理音频对象和待处理音频对象对应的处理规则。例如，图像对象-钢琴与音频对象-钢琴声匹配，即图像对象-钢琴对应的音频对象为钢琴声；图像对象-人与音频对象-人声匹配，即图像对象-人对应的音频对象为人声；图像对象-鸟与音频对象-鸟叫匹配，即图像对象-鸟对应的音频对象为鸟叫。示例性的，图像对象与其匹配的音频对象对应的时间轴标注相匹配。例如，图像对象-鸟的时间轴标注为4S-6S，即鸟的图像在图像流数据中4S-6S处出现，与图像对象-鸟匹配的音频对象-鸟叫的时间轴标注也应该为4S-6S，即鸟叫的声音在音频流数据中4S-6S处出现。

处理规则可以包括对象虚拟、对象抑制、对象增强和对象抑制等。处理规则可根据用户的喜好进行自定义设置，再次不做过任何限定。

关于步骤S34实现方法的一些实施例可以参见下文中相关描述，如对图7的相关描述。

在本申请的一些实施例中，根据待处理音频对象和所述待处理音频对象对应的处理规则，生成可处理内容，并显示所述可处理内容在目标设备上。通过显示可处理内容，可以让用户清晰感知对音频的具体优化内容，提高用户的体验。

步骤S35，按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据。

步骤S36，将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。

下面对步骤S34、步骤S35的一些实施例进行描述。

在本申请的一些实施例中，所述根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一图像对象不存在对应的音频对象，将该图像对象对应的目标音频对象确定为待处理音频对象，并确定该图像对象对应的处理规则为对象虚拟处理。对象虚拟处理可以包括若音频流数据中不存在一图像对象对应的音频对象，确定该音频对象对应的目标音频，并将目标音频添加至该音频流数据，以使处理后的音频流数据中存在该图像对象对应的音频对象。

例如，若视频流数据中存在图像对象-鸟，而音频流数据中不存在图像对象-鸟对应的目标音频对象-鸟叫，将目标音频对象-鸟叫确定为待处理音频对象，并确定目标音频对象-鸟叫对应的处理规则为对象虚拟处理。若目标音频对象-鸟叫对应的目标音频为鸟叫声，将鸟叫声添加至该音频流数据，实现了无中生有，给原本不存在对应的音频对象的图像对象-鸟添加了新的音频对象，以使处理后的音频流数据中存在图像对象-鸟对应的音频对象。

对待处理音频对象进行对象虚拟处理，可以无中生有，给原本不存在对应的音频对象的图像对象添加新的音频对象，以使处理后的音频流数据中存在该图像对象对应的音频对象，提高了音频流数据的质量，从而提高了视频的质量。

在本申请的一些实施例中，所述按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据包括：获取所述待处理音频对象对应的目标音频，如获取目标音频对象对应的目标音频，并根据目标音频对所述音频流数据进行对象虚拟处理，得到处理后的音频数据。例如，确定图像对象在音频流数据中对应的音频位置，将目标音频插入至所述音频位置。

例如，若视频流数据中存在图像对象-鸟，而音频流数据中不存在图像对象-鸟对应的目标音频对象-鸟叫，将目标音频对象-鸟叫确定为待处理音频对象，并确定目标音频对象-鸟叫对应的处理规则为对象虚拟处理；确定图像对象-鸟在音频流数据中对应的音频位置，如图像对象-鸟在图像流数据中4S-6S的位置，确定图像对象-鸟在音频流数据中对应的音频位置为4S-6S的位置；获取图像对象-鸟对应的目标音频，如在乐库中获取鸟叫作为目标音频；将获取到的目标音频插入图像对象-鸟在音频流数据中对应的音频位置，以使处理后的音频流数据中存在该图像对象-鸟对应的音频对象-鸟叫。

在本申请的一些实施例中，所述确定所述待处理音频对象对应的目标音频包括：若待处理音频对象为乐器声，即若目标音频对象为乐器声，且所述音频流数据中存在为人声的音频对象，识别为人声的音频对象，确定目标歌曲；根据所述目标歌曲和所述乐器确定所述待处理音频对象对应的目标音频。

乐器声可以包括钢琴声、小提琴声和竖琴声等。可以对人声进行歌曲识别，确定人声所唱的歌曲，并将人声所唱的歌曲确定为目标歌曲。

例如，若待处理音频对象为钢琴声，即若目标音频对象为钢琴声，且所述音频流数据中存在人声，对所述人声进行歌曲识别，识别出人声所唱的歌曲为歌曲A，将歌曲A确定为目标歌曲；根据歌曲A和钢琴，在预设的乐库中查找歌曲A的钢琴伴奏，将歌曲A的钢琴伴奏确定为待处理音频对象对应的目标音频。

通过在有人唱歌并有乐器出现的情况下，根据人声的内容确定目标歌曲，并将目标歌曲相关的乐器伴奏加入音频流数据，使得处理后的音频具有更丰富的内容，提高音频美化的效率。同时处理后的视频具有更丰富的内容，提高了视频的质量。

在本申请的一些实施例中，识别为人声的音频对象，确定目标歌曲包括：确定图像流数据中是否存在所述为人声的音频对象对应的图像对象；若图像流数据中存在所述为人声的音频对象对应的图像对象，识别所述为人声的音频对象，确定目标歌曲。

若图像流数据中不存在所述为人声的音频对象对应的图像对象，则不对所述为人声的音频对象进行识别，不继续执行后续步骤。

例如，若待处理音频对象为钢琴声，即若目标音频对象为钢琴声，且音频流数据中存在人声，确定图像流数据中是否存在为人声的音频对象对应的图像对象，如确定图像流数据中是否存在为人的图像对象；若图像流数据中存在为人声的音频对象对应的图像对象，对人声进行歌曲识别；若图像流数据中不存在为人声的音频对象对应的图像对象，则不对人声进行歌曲识别，也不继续执行后续步骤。

通过进一步确定图像流数据中是否存在所述为人声的音频对象对应的图像对象，并在确定在图像流数据中存在所述人声的音频对象对应的图像对象后，对为人声的音频对象进行识别，可以避免对用户录制过程中误录的人声进行处理，导致音频美化的准确率降低的情况发生，从而提高了音频美化的效率。

在本申请的一些实施例中，所述确定所述待处理音频对象对应的目标音频包括：若待处理音频对象为人声，即若目标音频对象为人声，音频流数据中存在一音频对象为乐器声，识别所述乐器声，确定目标歌曲；根据所述目标歌曲，确定所述待处理音频对象对应的目标音频。

例如，若待处理音频对象为人声，即若目标音频对象为人声，且音频流数据中存在一音频对象为钢琴声，对钢琴声进行歌曲识别，识别出钢琴所弹奏的歌曲为歌曲A，将歌曲A确定为目标歌曲；根据歌曲A在预设的乐库中查找歌曲A的清唱(无伴奏演唱)，将歌曲A的清唱确定为待处理音频对象对应的目标音频。

通过在有乐器演奏的情况下，根据乐器演奏的歌曲确定清唱歌曲，并将清唱歌曲加入音频流数据，使得处理后的音频具有更丰富的内容，提高音频美化的效率。同时处理后的视频具有更丰富的内容，提高了视频的质量。

在本申请的一些实施例中，识别所述乐器声，确定目标歌曲包括：确定图像流数据中是否存在所述为乐器声的音频对象对应的图像对象；若图像流数据中存在所述为乐器声的音频对象对应的图像对象，识别所述为乐器声的音频对象，确定目标歌曲。

若图像流数据中不存在所述为乐器声的音频对象对应的图像对象，则不对所述为乐器声的音频对象进行识别，不继续执行后续步骤。

例如，若待处理音频对象为人声，即若目标音频对象为人声，且音频流数据中存在钢琴声，确定图像流数据中是否存在钢琴声对应的图像对象-钢琴，如确定图像流数据中是否存在为钢琴的图像对象，若图像流数据中存在钢琴声对应的图像对象-钢琴，对钢琴声进行歌曲识别；若图像流数据中不存在钢琴声对应的图像对象-钢琴，则不对钢琴声进行歌曲识别，也不继续执行后续步骤。

通过进一步确定图像流数据中是否存在所述为乐器声的音频对象对应的图像对象，并在确定在图像流数据中存在所述为乐器声的音频对象对应的图像对象后，对所述为乐器声的音频对象进行识别，可以避免对用户录制过程中误录的乐器声进行处理，导致音频美化的准确率降低的情况发生，从而提高了音频美化的效率。

在本申请的一些实施例中，所述根据所述目标歌曲，确定所述待处理音频对象对应的目标音频包括：识别待处理音频对象对应的图像对象，确定目标人物特征，根据所述目标歌曲和所述目标人物特征，确定所述待处理音频对象对应的目标音频。

可以对识别待处理音频对象对应的图像对象进行生物识别，确定目标人物特征，目标人物特征可以包括年龄、性别、风格、身份信息等。在预设的乐库中，查找与目标歌曲相同且符合目标人物特征的歌曲。

例如，目标歌曲为歌曲A，对识别待处理音频对象对应的图像对象进行生物识别，确定目标人物特征为女性，年龄为8岁，确定图像对象为女童，在预设的乐库中查询女童演唱歌曲A的清唱，并将女童演唱歌曲A的清唱确定为所述待处理音频对象对应的目标音频。

通过对识别待处理音频对象对应的图像对象进行生物识别，确定目标人物特征，并根据目标人物特征确定目标音频，可以使得确定的目标音频更符合图像流数据，提高了音频美化的效率，从而提高了视频的质量。

在本申请的一些实施例中，所述确定所述待处理音频对象对应的目标音频包括：识别待处理音频对象对应的图像对象，确定目标特征，并根据目标特征确定待处理音频对象对应的目标音频。可以基于图像识别技术，识别待处理音频对象对应的图像对象，确定目标特征。

目标特征可以包括种类、性别等。例如，基于图像识别技术，识别待处理音频对象对应的图像对象-鸟，确定图像对象-鸟为布谷鸟，将布谷鸟确定为目标特征，在预设的乐库中查找布谷鸟的叫声作为待处理音频对象对应的目标音频。又例如，基于图像识别技术，识别待处理音频对象对应的图像对象-人，确定图像对象-人为女性，将女声确定为目标特征，在预设的乐库中查找女声为特征的音频作为待处理音频对象对应的目标音频。

通过对音频对象对应的图像对象进行识别，确定目标特征，并根据目标特征确定待处理音频对象对应的目标音频，可以提高确定目标视频的准确率，从而提高音频美化的效率。

在本申请的一些实施例中，所述根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一音频对象不存在对应的图像对象，将该音频对象确定为待处理音频对象，并确定该音频对象对应的处理规则为对象抑制处理。对象抑制处理可以包括按照预设比例减小音频对象的幅值，还可以包括将音频对象的幅值减小至预设阈值下。例如，可以预设一个抑制比例，如将0～1之间的一个小数作为抑制比例，按照预设比例减小音频对象的幅值进行对象抑制处理。

例如，音频对象-汽车喇叭声不存在对应的图像对象-汽车，将音频对象-汽车喇叭声确定为待处理音频对象，并确定音频对象-汽车喇叭声对应的处理规则为对象抑制处理。对象抑制处理可以包括按照预设比例减小音频对象-汽车喇叭声的幅值，如将音频对象-汽车喇叭声的幅值乘以0.1得到减小后的音频对象-汽车喇叭声的幅值，还可以包括将音频对象-汽车喇叭声的幅值直接降低到预设阈值下。经过对象抑制处理后的音频对象-汽车喇叭声的声音低于处理前的音频对象-汽车喇叭声的声音，降低了音频对象-汽车喇叭声在整个音频流数据中的存在感，甚至在播放音频流数据时，听众不能感知到音频对象-汽车喇叭声。

通过将不存在对应图像对象的音频对象确定为干扰对象，对其进行抑制处理，可以避免音频中存在过多的干扰音，提高音频美化的效率，从而提高视频的质量。

在本申请的一些实施例中，所述根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一音频对象存在对应的图像对象，判断该音频对象是否是噪声对象；若该音频对象是噪声对象，将该音频对象确定为待处理音频对象，并确定该音频对象对应的处理规则为对象抑制处理。若该音频对象不是噪声对象，则不对该音频对象进行处理。

可以预先设置噪声数据库，通过预设的噪声数据库判断该音频对象是否为噪声对象。如如若噪声数据库中存储了该音频对象，确定该音频对象是否为噪声对象。例如，一音频对象为音频对象-汽车喇叭声，预先设置的噪声数据库存储了音频对象-汽车喇叭声，因此根据噪声数据库确定该音频对象为噪声对象。通过对确定为噪声对象进行对象抑制处理，可以有效减少音频中的噪声，提高音频美化的效率，从而提高视频的质量。

在本申请的一些实施例中，所述根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一音频对象存在对应的图像对象，获取该音频对象对应的信噪比；当该音频对象对应的信噪比低于第一信噪比阈值时，将该音频对象确定为待处理音频对象，并确定该音频对象对应的处理规则为对象虚拟处理；当该音频对象对应的信噪比高于第二信噪比阈值时，将该音频对象确定为待处理音频对象，并确定该音频对象对应的处理规则为对象增强处理。

其中，第一信噪比阈值小于第二信噪比阈值，第一噪比阈值和第二信噪比阈值的值可根据用户的需求或者实际的应用进行设置，在此不做任何限定。

示例性的，可以根据音频对象对应的能量与音频对象对应的音频片段的总能量的比值，确定音频对象对应的信噪比。例如，将根据音频对象对应的能量与音频对象对应的音频片段的总能量的比值，作为音频对象对应的信噪比。信噪比高的音频对象对应的音频质量好，在音频中能明显识别出音频对象的发声；信噪比低的音频对象对应的音频质量差，在音频中不能明显识别出音频对象的发声。

对象增强处理可以包括根据音频对象的类型，确定音频对象对应的目标频段，并对该目标频段进行音色优化。音色优化可以包括放大、修音等。频段是指声音的频率段，也可以说是声音的音域频段。

不同的类型的音频对象有着不同的频段。根据音频对象的类型，确定该音频对象对应的频段，对该频段进行音色优化。例如，钢琴和长笛有着不同的频段，钢琴对应的频段为27.5～4.86KHz，长笛对应的频段为250Hz～1KHz，若待处理音频对象为钢琴，对27.5～4.86KHz的频段进行处理；若待处理音频对象为长笛，对250Hz～1KHz的频段进行处理。

例如，若音频对象-海浪声对应的信噪比低于第一信噪比阈值，说明音频对象-海浪声对应的音频质量差，在音频流数据中不能明显识别出音频对象-海浪声。将音频对象-海浪声确定为待处理音频对象，并确定音频对象-海浪声对应的处理规则为对象虚拟处理。例如，对象虚拟处理可以包括使用预设乐库中的清晰的海浪声音频替换掉音频流数据中音频对象-海浪声对应的音频，以使对象虚拟处理后的音频流数据中有着清晰的海浪声。

通过设置第一信噪比阈值和第二信噪比阈值，并根据第一信噪比阈值和第二信噪比阈值确定音频对象对应的音频质量，并对不同音频质量的音频对象进行不同的处理，可以提高对音频对象的处理效率，从而提高音频美化的效率。

在本申请的一些实施例中，所述根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：若确定一音频对象存在对应的图像对象且该音频对象为人声，将该音频对象确定为待处理音频对象，确定待处理音频对象对应的处理规则为对象美化处理。

对象美化处理用于对待处理音频对象对应的音频进行美化，可以包括音色美化、修音美化等。

例如，音频对象-人声存在对应的图像对象-人，将音频对象-人声确定为待处理音频对象，确定音频对象-人声对应的处理规则为对象美化处理。对象美化处理可以包括对音频对象-人声进行音色美化，将音频对象-人声中的人声的音色进行美化，如调整人声的音色，使得音色美化后的音频对象-人声的音色为目标音色。对象美化处理还可以包括对音频对象-人声进行修音美化，如音高修正和节奏修正，使得修音美化后的音频对象-人声更好听。

通过对音频中的人声进行美化处理，可以有效提高音频的质量，从而提高视频的质量。

在本申请的一些实施例中，对象美化处理可以包括获取人声模板，并根据人声模板对该音频对象进行处理。

人声模板可以包括正太音模板，萝莉音模板，少女音模板，御姐音模板，大叔音模板和老年音模板等。可以基于用户的设置确定人声模板，或者可以根据用户的身份确定人声模板。

例如，可以基于word合成器的修音技术和人声模板，对该音频对象对应的音频数据进行处理。对象美化处理后的音频对象的音色可以和人声模板中的音色一致。

通过基于人声模板，对该音频对象对应的音频数据进行处理，可以对人声的音色进行改变，从而丰富音频的趣味性，使得处理后的视频质量更高。

在本申请的一些实施例中，对象美化处理可以包括识别待处理音频对象对应的人声，确定目标歌曲模板，并根据目标歌曲模板对该音频对象进行处理。例如，可以基于word合成器的修音技术和目标歌曲模板，对该音频对象对应的音频数据进行处理。

对待处理音频对象对应的人声进行歌曲识别，确定人声所唱的歌曲，根据人声所唱的歌曲确定目标歌曲模板。例如，可以将人声所唱的歌曲的原唱，确定为目标歌曲模板。可以根据人声的特征和人声所唱的歌曲，确定目标歌曲模板。人声的特征可以包括男声和女声等，例如，若人声的特征为女声，在人声所唱的歌曲的女声版歌曲中，确定目标歌曲模板。

通过基于目标歌曲模板，对该音频对象对应的音频数据进行处理，可以对人演唱不足的地方进行修正，提高音频的展示效果，从而提高视频的质量。

在本申请的一些实施例中，步骤S34、步骤S35的具体实施流程可以如图7所示。对确定的图像对象和音频对象进行对象分类，例如，将图像对象与音频对象进行匹配，确定每个图像对象对应的音频对象，根据匹配结果对图像对象和音频对象进行分类。可以预先设置图像对象和音频对象之间的匹配关系，如图像对象-钢琴与音频对象-钢琴声匹配，图像对象-人与音频对象-人声匹配和图像对象-鸟与音频对象-鸟叫匹配等，根据预设的匹配关系将图像对象与音频对象进行匹配。

如图7所示，根据匹配结果将确定的图像对象和音频对象分为三类，仅在图像存在的对象，即图像对象中存在该对象且音频对象中不存在该对象；仅在音频存在的对象，即音频对象中存在该对象且图像对象中不存在该对象；图像音频都存在的对象，即图像对象中存在该对象且音频对象中也存在该对象。对不同分类的对象进行不同的处理。

对仅在图像存在的对象的处理规则包括：判断对象的类型，根据对象的类型，确定对象对应的处理规则。

若对象为乐器，确定音频中是否存在干声，若音频中存在干声，确定该对象对应的处理规则为伴奏虚拟；若音频中不存在干声，不对该对象进行处理。伴奏虚拟可以包括对干声进行识别，确定目标歌曲；获取与所述乐器和目标歌曲匹配的伴奏音乐，并将所述伴奏音乐插入音频。其中，干声属于音频术语，一般指录音以后未经过任何空间性质的后期处理和加工的纯人声，也称为裸声。

例如，一图像对象为图像对象-钢琴，图像对象-钢琴不存在对应的音频对象，若音频中存在干声，确定图像对象-钢琴对应的处理规则为伴奏虚拟；对该干声进行歌曲识别，识别出干声所唱的歌曲为歌曲A，将歌曲A确定为目标歌曲；根据歌曲A和钢琴，在预设的乐库中查找歌曲A的钢琴伴奏，将歌曲A的钢琴伴奏确定为与所述乐器和目标歌曲匹配的伴奏音乐，并将歌曲A的钢琴伴奏插入音频，实现伴奏虚拟处理，处理后的音频中包括图像对象-钢琴对应的音频对象，即歌曲A的钢琴伴奏。

若图像对象为人物，确定音频中是否存在乐器音，若音频中存在乐器音，确定该图像对象对应的处理规则为干声虚拟；若音频中不存在乐器音，不对该对象进行处理。干声虚拟可以包括对乐器音进行识别，确定目标歌曲；获取与所述目标歌曲匹配的干声歌曲(人声清唱的歌曲)，并将所述干声歌曲插入音频。

例如，一图像对象为图像对象-人物，图像对象-人物不存在对应的音频对象，若音频中存在钢琴声，确定图像对象-人物对应的处理规则为干声虚拟，对钢琴声进行歌曲识别，识别出钢琴所弹奏的歌曲为歌曲A，将歌曲A确定为目标歌曲；根据歌曲A在预设的乐库中查找歌曲A的干声歌曲，将歌曲A的干声歌曲确定为与所述目标歌曲匹配的干声歌曲，并将歌曲A的干声歌曲插入音频，实现干声虚拟处理，处理后的音频中包括图像对象-人物对应的音频对象，即歌曲A的干声歌曲。

若对象为除乐器、人物外的其他对象，确定预设乐库中是否存在该对象对应的音频对象，即确定预设乐库中是否存在该对象对应的音频数据；若预设乐库中存在该对象对应的音频数据，确定该对象对应的处理规则为对象虚拟；若预设乐库中不存在该对象对应的音频数据，不对该对象进行处理。干声虚拟可以包括将预设乐库中该对象对应的音频数据插入音频，以使处理后的音频中存在该对象对应的音频对象。

例如，一图像对象为图像对象-鸟，图像对象-鸟不存在对应的音频对象，确定在预设乐库中是否存在图像对象-鸟对应的音频对象，如音频对象-鸟叫，若在预设乐库中存在图像对象-鸟对应的音频对象-鸟叫，将音频对象-鸟叫插入音频，实现对象虚拟处理，处理后的音频中包括图像对象-鸟对应的音频对象，即音频对象-鸟叫。

对仅在音频存在的对象的处理规则包括：对象抑制规则。将仅在音频存在的对象确定为噪声对象，对于噪声对象进行对象抑制处理。其中对确定为噪声对象的对象进行对象抑制处理的具体实现方法可以参见上述描述，在此不再赘述。

例如，一音频对象为音频对象-汽车喇叭声，音频对象-汽车喇叭声不存在对应的图像对象，将音频对象-汽车喇叭声确定为噪声对象，对音频对象-汽车喇叭声进行对象抑制处理。对象抑制处理可以包括减小音频对象-汽车喇叭声的幅值。通过减小音频对象-汽车喇叭声的幅值，降低了音频对象-汽车喇叭声在整个音频流数据中的存在感，甚至在播放音频流数据时，听众不能感知到音频对象-汽车喇叭声。

对图像音频都存在的对象包括：判断对象的类型，根据对象的类型，确定对象对应的处理规则。

若对象为干声，确定预设乐库中是否存在该干声对应的音频模板，若预设乐库中存在该干声对应的音频模板，确定该对象对应的处理规则为对象美化处理；若预设乐库中不存在该干声对应的音频模板，不对该对象进行处理。音频模板可以包括人声模板和歌曲模板等。人声模板、歌曲模板以及对象美化处理的相关描述可以参见上述描述，在此不再赘述。

例如，一音频对象为音频对象-干声，音频对象-干声存在对应的图像对象-人，确定预设乐库中是否存在音频对象-干声对应的音频模板，如人声模板。若预设乐库中存在音频对象-干声对应的人声模板，确定音频对象-人声对应的处理规则为对象美化处理。对象美化处理可以包括根据人声模板对音频对象-人声进行音色美化，如调整人声的音色，使得音色美化后的音频对象-人声的音色与人声模板中音色一致。若对象为噪声，确定该对象对应的处理规则为对象抑制处理。示例性的，可以预先设置为噪声的对象。对为噪声的对象进行对象抑制处理的具体实现方法可以参见上述描述，在此不再赘述。

例如，一音频对象为音频对象-汽车喇叭声，音频对象-汽车喇叭声存在对应的图像对象-汽车，且音频对象-汽车喇叭声为预设的噪声对象，确定对音频对象-汽车喇叭声进行对象抑制处理。对象抑制处理可以包括减小音频对象-汽车喇叭声的幅值。通过减小音频对象-汽车喇叭声的幅值，降低了音频对象-汽车喇叭声在整个音频流数据中的存在感，甚至在播放音频流数据时，听众不能感知到音频对象-汽车喇叭声。若对象为除干声、噪声外的其他对象，判断该对象是否是低信噪比，若该对象是低信噪比，确定预设乐库中是否存在该对象对应的音频数据，当预设乐库中存在该对象对应的音频数据时，确定该对象对应的处理规则为对象虚拟处理，当预设乐库中存在该对象对应的音频数据时，不对该对象进行处理；若该对象不是低信噪比，确定该对象对应的处理规则为对象增强处理。其中，判断对象是否为低信噪比，对该对象进行对象虚拟处理以及对该对象进行对象增强处理的具体实现方法可以参见上述描述，在此不再赘述。

例如，一音频对象为音频对象-海浪声，音频对象-海浪声存在对应的图像对象-大海。若音频对象-海浪声对应的信噪比是低信噪比，说明音频对象-海浪声对应的音频质量差，在音频流数据中不能明显识别出音频对象-海浪声。若预设的乐库中存在音频对象-海浪声对应的对象，确定音频对象-海浪声对应的处理规则为对象虚拟处理。对象虚拟处理可以包括使用预设乐库中的清晰的海浪声音频替换掉音频中音频对象-海浪声对应的音频，以使对象虚拟处理后的音频中有着清晰的海浪声。

例如，一音频对象为音频对象-长笛声，音频对象-长笛声存在对应的图像对象-长笛。若音频对象-长笛声对应的信噪比不是低信噪比，说明音频对象-长笛声对应的音频质量好，在音频流数据中能明显识别出音频对象-长笛声，确定音频对象-长笛声对应的处理规则为对象增强处理。对象增强处理可以包括根据音频对象的类型，确定音频对象对应的目标频段，并对该目标频段进行音色优化。如长笛对应的频段为250Hz～1KHz，对250Hz～1KHz的频段进行对象增强处理，以使对象增强处理后的音频中音频对象-长笛声对应的音频质量更好。将处理后的对象和未处理的对象进行混音，得到处理后的音频数据，并输出处理后的音频。例如，可以按照时间轴将处理后的对象和未处理的对象进行混音，得到处理后的音频数据。

参考图8所示，为本申请实施例提供的另一种基于对象识别的美音方法的流程图。若用户选择美音推荐模式，实现如图8所示的基于对象识别的美音方法。所述方法可应用于不同类型的电子设备中，该电子设备可以用来拍摄视频，电子设备可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personaldigital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtualreality，VR)设备、人工智能(artificial intelligence，AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备的具体类型不作特殊限制。该方法具体包括如下步骤。

步骤S41，获取视频对应的图像流数据和音频流数据。

步骤S42，识别所述图像流数据，确定图像流数据对应的图像对象。

步骤S43，识别所述音频流数据，确定音频流数据对应的音频对象。

步骤S44，根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则。

步骤S41至步骤S44的具体实现方法可以参见上述一种基于对象识别的美音方法的实施例中的相关描述，如对步骤S31至步骤S34的相关描述，在此不再赘述。

步骤S45，根据所述待处理音频对象和所述待处理音频对象对应的处理规则，生成可处理内容，并显示所述可处理内容。

可以将可处理内容显示在电子设备上，用户可以对可处理内容进行选择，以确定要进行美化的音频对象。

例如，根据所述待处理音频对象和所述待处理音频对象对应的处理规则，生成美音推荐列表，并将美音推荐列表显示在电子设备上，如图9所示。虚拟表示对象虚拟处理，抑制表示对象抑制处理，美化表示对象美化处理，对象虚拟处理、对象抑制处理和对象美化处理的具体实现方法可以参见上述一种基于对象识别的美音方法的实施例中的相关描述，在此不再赘述。

步骤S46，基于用户对所述可处理内容的选择，对所述待处理音频对象进行处理，得到处理后的音频数据。

例如，如图9所示，若用户对对象1和对象2选择为是，对对象3的选择为否，对对象1进行对象虚拟处理，对对象2进行对象抑制处理，对对象3不进行处理。

将处理后的对象和未处理的对象进行融合，得到处理后的音频数据，并输出处理后的音频。例如，可以按照时间轴将处理后的对象和未处理的对象进行混音，得到处理后的音频数据。

步骤S47，将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。

在本申请的一些实施例中，可以使用开源计算机程序FFmpeg将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。FFmpeg采用LGPL或GPL许可证，可以用来记录、转换数字音频、视频，并能将其转化为流，提供了录制、转换以及流化音视频的完整解决方案。基于用户对所述可处理内容的选择，对所述待处理音频对象进行处理，可以提高对音频处理的准确率，提高用户体验。

参考图10所示，为本申请实施例提供的又一种基于对象识别的美音方法的流程图。若用户对已拍摄的视频，选择一键美音模式，实现如图10所示的基于对象识别的美音方法。所述方法可应用于不同类型的电子设备中，本申请实施例对该电子设备的具体类型不作特殊限制。该方法具体包括如下步骤。

步骤S51，对目标视频进行提取处理，得到目标视频对应的图像流数据和音频流数据。

获取用户选择进行一键美音的视频，并将获取到的用户选择进行一键美音的视频作为目标视频。

其中，图像流数据和音频流数据包括对应的时间轴。

在本申请的一些实施例中，可以使用开源计算机程序FFmpeg的多输出模式方法以实现音画分离，得到目标视频对应的图像流数据和音频流数据。

步骤S52，识别所述图像流数据，确定图像流数据对应的图像对象。

步骤S53，识别所述音频流数据，确定音频流数据对应的音频对象。

步骤S54，根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则。

步骤S55，按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据。

步骤S56，将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。

步骤S52至步骤S56的具体实现方法可以参见上述一种基于对象识别的美音方法的实施例中的相关描述，如对步骤S32至步骤S36的相关描述，在此不再赘述。

通过对用户已拍摄的视频进行提取处理，得到视频对应的图像流数据和音频流数据，实现对视频中音频美化，提高了视频的质量。

参考图11所示，为本申请实施例提供的再一种基于对象识别的美音方法的流程图。若用户对已拍摄的视频，选择美音推荐模式，实现如图11所示的基于对象识别的美音方法。所述方法可应用于不同类型的电子设备中，本申请实施例对该电子设备的具体类型不作特殊限制。该方法具体包括如下步骤。

步骤S61，对目标视频进行提取处理，得到目标视频对应的图像流数据和音频流数据。

获取用户选择进行美音推荐的视频，并将获取到的用户选择进行美音推荐的视频作为目标视频。

步骤S62，识别所述图像流数据，确定图像流数据对应的图像对象。

步骤S63，识别所述音频流数据，确定音频流数据对应的音频对象。

步骤S64，根据图像对象和音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则。

步骤S65，根据所述待处理音频对象和所述待处理音频对象对应的处理规则，生成可处理内容，并显示所述可处理内容。

步骤S66，基于用户对所述可处理内容的选择，对所述待处理音频对象进行处理，得到处理后的音频数据。

步骤S67，将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。

步骤S61至步骤S67的具体实现方法可以参见上述实施例中的相关描述，在此不再赘述。

上述实施例中的基于对象识别的美音方法可以应用在电子设备100中，电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备100的具体类型不作特殊限制。如图12所示，图12为本申请实施例提供的一种电子设备100的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在本申请的一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在本申请的一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integratedcircuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在本申请的一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在本申请的一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在本申请的一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在本申请的一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在本申请的一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在本申请的一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在本申请的一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在本申请的一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在本申请的一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备100，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备100供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在本申请的一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在本申请的一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在本申请的一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在本申请的一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobilecommunications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband codedivision multiple access，WCDMA)，时分码分多址(time-division code divisionmultiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenithsatellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在本申请的一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在本申请的一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在本申请的一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。

随机存取存储器可以包括静态随机存储器(static random-access memory，SRAM)、动态随机存储器(dynamic random access memory，DRAM)、同步动态随机存储器(synchronous dynamic random access memory，SDRAM)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory，DDR SDRAM，例如第五代DDR SDRAM一般称为DDR5 SDRAM)等；非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。

快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等，按照存储单元电位阶数划分可以包括单阶存储单元(single-level cell，SLC)、多阶存储单元(multi-level cell，MLC)、三阶储存单元(triple-level cell，TLC)、四阶储存单元(quad-level cell，QLC)等，按照存储规范划分可以包括通用闪存存储(英文：universalflash storage，UFS)、嵌入式多媒体存储卡(embedded multi media Card，eMMC)等。

随机存取存储器可以由处理器110直接进行读写，可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令)，还可以用于存储用户及应用程序的数据等。

非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等，可以提前加载到随机存取存储器中，用于处理器110直接进行读写。

外部存储器接口120可以用于连接外部的非易失性存储器，实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部的非易失性存储器中。

外部存储器接口120或内部存储器121用于存储一个或多个计算机程序。一个或多个计算机程序被配置为被该处理器110执行。该一个或多个计算机程序包括多个指令，多个指令被处理器110执行时，可实现上述实施例中在电子设备100上执行的基于对象识别的美音方法，以实现电子设备100的美音功能。

其中，在一个实施例中，处理器110执行所述多个指令时，以实现如下步骤：

获取视频对应的图像流数据和音频流数据；识别所述图像流数据，确定图像对象；识别所述音频流数据，确定音频对象；根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则；按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据；将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在本申请的一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备100平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of theUSA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在本申请的一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在本申请的一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在本申请的一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在本申请的一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在本申请的一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备100姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在本申请的一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在本申请的一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在本申请的一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在本申请的一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多帧卡。所述多帧卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在本申请的一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储了计算机程序，计算机程序中包含计算机指令，当该计算机程序在电子设备100上运行时，使得电子设备100执行上述相关方法步骤实现上述实施例中的任意一种基于对象识别的美音方法。

本实施例还提供了一种计算机程序产品，包括存储在非易失性存储介质上的计算机可执行指令，当该计算机可执行指令在电子设备100上运行时，使得电子设备100执行上述相关步骤，以实现上述实施例中的任意一种基于对象识别的美音方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的任意一种基于对象识别的美音方法。

其中，本实施例提供的电子设备100、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种基于对象识别的美音方法，其特征在于，所述方法包括：

获取视频对应的图像流数据和音频流数据；

识别所述图像流数据，确定图像对象；

识别所述音频流数据，确定音频对象；

根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则，包括：若确定一图像对象不存在对应的音频对象，将所述图像对象对应的目标音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象虚拟处理，对象虚拟处理用于在音频流数据中不存在一图像对象对应的音频对象时，将所述音频对象对应的目标音频添加至所述音频流数据，令处理后的音频流数据中存在所述图像对象对应的音频对象；

按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据；

将所述图像流数据与所述处理后的音频数据进行拼接，得到处理后的视频数据。

2.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据包括：

确定所述目标音频对象对应的目标音频；根据所述目标音频对音频流数据进行对象虚拟处理，得到处理后的音频数据。

3.如权利要求2所述的基于对象识别的美音方法，其特征在于，所述确定所述目标音频对象对应的目标音频，包括：

识别所述待处理音频对象对应的图像对象，确定目标特征，并根据所述目标特征确定待处理音频对象对应的目标音频。

4.如权利要求2所述的基于对象识别的美音方法，其特征在于，所述确定所述目标音频对象对应的目标音频包括：

若所述目标音频对象为乐器声，且所述音频流数据中存在为人声的音频对象，识别所述为人声的音频对象，确定目标歌曲；根据所述目标歌曲和所述乐器，确定所述待处理音频对象对应的目标音频。

5.如权利要求2所述的基于对象识别的美音方法，其特征在于，所述确定所述目标音频对象对应的目标音频包括：

若目标音频对象为人声，且所述音频流数据中存在为乐器声的音频对象，识别所述为乐器声的音频对象，确定目标歌曲；根据所述目标歌曲，确定所述待处理音频对象对应的目标音频。

6.如权利要求5所述的基于对象识别的美音方法，其特征在于，所述识别所述为乐器声的音频对象，确定目标歌曲包括：

确定所述图像流数据中是否存在所述为乐器声的音频对象对应的图像对象；

若所述图像流数据中存在所述为乐器声的音频对象对应的图像对象，识别所述为乐器声的音频对象，确定目标歌曲。

7.如权利要求5所述的基于对象识别的美音方法，其特征在于，所述根据所述目标歌曲，确定所述待处理音频对象对应的目标音频包括：

识别所述待处理音频对象对应的图像对象，确定目标人物特征；

根据所述目标歌曲和所述目标人物特征，确定所述待处理音频对象对应的目标音频。

8.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：

若确定一音频对象不存在对应的图像对象，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象抑制处理，所述对象抑制处理包括按照预设比例减小音频对象的幅值。

9.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：

若确定一音频对象存在对应的图像对象，判断所述音频对象是否是噪声对象；

若所述音频对象是噪声对象，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象抑制处理。

10.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：

若确定一音频对象存在对应的图像对象，获取所述音频对象对应的信噪比；

若所述音频对象对应的信噪比低于第一信噪比阈值，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象虚拟处理；

若所述音频对象对应的信噪比高于第二信噪比阈值，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象增强处理；其中，所述第一信噪比阈值小于所述第二信噪比阈值，所述对象增强处理包括根据音频对象的类型确定所述音频对象对应的目标频段，对所述目标频段进行音色优化。

11.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述根据所述图像对象和所述音频对象，确定待处理音频对象和所述待处理音频对象对应的处理规则包括：

若确定一音频对象存在对应的图像对象且所述音频对象为人声，将所述音频对象确定为待处理音频对象，并确定所述待处理音频对象对应的处理规则为对象美化处理，所述对象美化处理用于对待处理音频对象对应的音频进行美化，所述美化包括音色美化和修音美化。

12.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述方法还包括：

将获取到的图像流数据存储至第一存储空间，将获取到的音频流数据存储至第二存储空间。

13.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述识别所述图像流数据，确定图像对象包括：

获取所述图像流数据对应的图像帧；

对所述图像帧进行特征提取，得到图像识别特征；

将图像识别特征输入预先训练的识别模型，得到所述图像帧对应的对象标签；

根据所述对象标签，确定图像对象。

14.如权利要求13所述的基于对象识别的美音方法，其特征在于，所述图像对象包括对象和对象对应的时间轴标注，所述根据所述对象标签，确定图像对象包括：

根据所述对象标签，确定所述图像流数据对应的对象；

确定所述对象对应的图像帧数；

根据所述对象对应的图像帧数、所述图像流数据对应的总图像帧数和所述图像流数据对应的播放时长，对所述对象加入时间轴标注，得到图像对象。

15.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述识别所述音频流数据，确定音频对象包括：

对所述音频流数据进行特征提取，得到音频识别特征；

将音频识别特征输入预先训练的识别模型，得到所述音频流数据对应的对象标签；

根据所述对象标签，确定音频对象。

16.如权利要求15所述的基于对象识别的美音方法，其特征在于，所述对所述音频流数据进行特征提取，得到音频识别特征包括：

基于多通道非负矩阵分解系统对所述音频流数据进行声源分离，得到多个分离音源；

对所述多个分离音源进行特征提取，得到音频识别特征。

17.如权利要求1所述的基于对象识别的美音方法，其特征在于，所述方法还包括：

根据待处理音频对象和所述待处理音频对象对应的处理规则，生成可处理内容，并显示所述可处理内容在目标设备上。

18.如权利要求1所述的基于对象识别的美音方法，所述按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据包括：

根据所述待处理音频对象和所述待处理音频对象对应的处理规则，生成可处理内容，并显示所述可处理内容；

基于用户对所述可处理内容的选择，对所述待处理音频对象进行处理，得到处理后的音频数据。

19.如权利要求1所述的基于对象识别的美音方法，所述获取视频对应的图像流数据和音频流数据包括：

对目标视频进行提取处理，得到目标视频对应的图像流数据和音频流数据。

20.如权利要求19所述的基于对象识别的美音方法，所述按照所述处理规则对所述待处理音频对象进行处理，得到处理后的音频数据包括：

21.一种电子设备，其特征在于，所述电子设备包括存储器和处理器：

其中，所述存储器，用于存储程序指令；

所述处理器，用于读取并执行所述存储器中存储的所述程序指令，当所述程序指令被所述处理器执行时，使得所述电子设备执行如权利要求1至20中任一项所述的基于对象识别的美音方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储了计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1至20中任一所述的基于对象识别的美音方法。