CN111370018A

CN111370018A - 音频数据的处理方法、电子设备及介质

Info

Publication number: CN111370018A
Application number: CN202010131305.1A
Authority: CN
Inventors: 郑国炳
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-03
Anticipated expiration: 2040-02-28
Also published as: CN117037835A; CN111370018B

Abstract

本发明实施例公开了一种音频数据的处理方法、电子设备及介质。其中，一种音频数据的处理包括：采集预设范围内的声音信号，得到第一音频数据；从第一音频数据中分离出包括第一目标发声对象的声音的第二音频数据和包括第二目标发声对象的声音的第三音频数据；基于预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。利用本发明实施例，能够按照用户的个性化需求，对音频数据进行处理，得到满足用户需求的音频数据，提高用户的使用体验。

Description

音频数据的处理方法、电子设备及介质

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种音频数据的处理方法、电子设备及介质。

背景技术

随着电子设备的不断发展，用户利用电子设备就可以随时将周围的声音记录下来。但是由于周围环境中会存在多种不同的声音，就会导致最终得到的音频文件包含有多种不同的声音。

目前，为了保证更好的拾音效果，一般会在拾音过程中进行消噪处理。即，通过算法将环境音完全消除，只保留目标人声。

但是，用户在不同的应用场景下，对于音频数据中需要保留的音频信息的需求均会不同。例如，用户在户外拾音时，可能仅是想要保留环境声，而并不想保留下人声。

因此，现有技术中的音频数据处理的方法无法根据用户的个性化需求，进行处理，导致数据的处理方式较为单一。

发明内容

本发明实施例提供一种音频数据的处理方法、电子设备及介质，能够按照用户的个性化需求，对音频数据进行处理，得到满足用户需求的音频数据，提高用户的使用体验。

第一方面，本发明实施例提供了一种音频数据的处理方法，应用于电子设备，包括：

采集预设范围内的声音信号，得到第一音频数据；

从所述第一音频数据中分离出包括第一目标发声对象的声音的第二音频数据和包括第二目标发声对象的声音的第三音频数据；

基于预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理，得到目标音频数据。

第二方面，本发明实施例提供了一种电子设备，包括：

采集模块，用于采集预设范围内的声音信号，得到第一音频数据；

分离模块，用于从所述第一音频数据中分离出包括第一目标发声对象的声音的第二音频数据和包括第二目标发声对象的声音的第三音频数据；

处理模块，用于基于预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理，得到目标音频数据。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序指令时实现如第一方面所述的音频数据的处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如第一方面所述的音频数据的处理方法的步骤。

在本发明实施例中，用户通过设置不同的预设增益，使得电子设备可以按照用户设置的不同预设增益，将具有不同发声对象的两个音频数据进行音频处理，最终得到对应不同增益的目标音频数据，进而使得最终得到的目标音频数据可以满足用户的个性化需求，从而提高用户的使用体验。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明一个实施例提供的音频数据的处理方法的流程示意图；

图2为本发明一个实施例提供的电子设备的显示界面示意图；

图3为本发明的另一个实施例提供的音频数据处理方法的流程示意图；

图4为本发明一个实施例提供的一种电子设备的结构示意图；

图5为实现本发明各个实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用户通过拾音即可记录下自己想要保存下来的目标声音。但是，由于拾音环境的不确定性，在拾音过程中，用户是无法确保周围环境仅存在目标声音的，因此，就经常会导致最终得到的音频文件中不仅包括有目标声音还存在其他声音。

因此，现有技术中一般会对拾音得到的音频文件进行音频处理，将环境声消除，仅保留目标声音。

但是，现有技术这种单一的音频处理方法，仅能满足用户对于目标声音的需求，却无法满足用户在其他应用场景中，需要重点播放除目标声音以外的其他声音的需求，使得用户的使用体验感较低。

为了解决上述的问题，本发明实施例提供了一种能够得到满足用户个性化需求的音频数据的处理方法、电子设备及介质。

图1为本发明一个实施例提供的音频数据的处理方法的流程示意图。如图1所示，该应用于电子设备的音频数据的处理方法包括：

S101，采集预设范围内的声音信号，得到第一音频数据。

可选的，在本发明的一些实施例中，预设范围内可以是拾音设备的声音采集范围，第一音频数据可以是包括有预设范围内的所有声音。

例如，用户在户外利用采集设备采集预设范围内的声音信号时，得到的第一音频数据中可以包括有：汽车声、动物的鸣叫声和人声。

可选的，在本发明的一些实施例中，还可以是利用位于不同位置的拾音设备，采集预设范围内的声音信号，得到第一音频数据。

例如，利用电子设备中的内置麦和与电子设备连接的耳机麦，采集预设范围内的声音信号，得到具有两路音频数据的第一音频数据。

在本发明实施例中，通过位于不同位置的拾音设备采集声音信号，可以充分利用不同位置的拾音设备对于同一目标声音强度的感知能力不同的特点，得到便于准确进行声音分离的第一音频数据。

S102，从第一音频数据中分离出包括第一目标发声对象的声音的第二音频数据和包括第二目标发声对象的声音的第三音频数据。

其中，发声对象可以是发出声音的对象，例如，环境中包含狗叫声、汽车声，则发声对象包括狗和汽车。

可选的，在本发明实施例中，如果第一音频数据中仅包括有一路音频数据，那么可以通过训练神经网络的方法，利用训练后的神经网络从第一音频数据中分离出第二音频数据和第三音频数据。

例如，若第一音频数据为包括有人声和狗叫声的一路音频数据，则可通过神经网络从第一音频数据中分离出包括第一目标发声对象的声音(人声)的第二音频数据以及包括第二目标发声对象的声音(狗叫声)的第三音频数据。

可选的，在本发明实施例中，如果第一音频数据中包括有两路音频数据，则不仅可以通过神经网络对第一音频数据进行分离，还可以利用现有技术中的消噪算法从第一音频数据中分离出第二音频数据和第三音频数据。

在本发明实施例中，通过分离位于不同位置的拾音设备采集得到的第一音频数据，可以充分利用不同位置的拾音设备采集到的同一个声音信号的强度不同的特点，更加准确的得到具有第一目标发声对象的声音的第二音频数据以及包括第二目标发声对象的声音的第三音频数据。

S103，基于预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。

可选的，在本发明的一些实施例中，预设方式可以是混音或设置为双声道模式等等音频处理方式。预设增益可以是包括第二音频数据对应的第一增益值和第三音频数据对应的第二增益值。

电子设备在获取到第二音频数据和第三音频数据后，就可以将二音频数据对应的第一增益值和第三音频数据对应的第二增益值，按照预设方式进行音频处理，最终得到目标音频数据。

其中，预设增益可以为非负数。增益值越小，则表示当前的声音强度越是小于原声音强度。例如，若预设增益中的第一增益值为0分贝(decibel，db)，则表示第二音频为原声音强度，预设增益中的第二增益值为-1000db，则表示第三音频数据低于原声音强度的1000db。

可选的，在本发明的一些实施例中，在得到目标音频文件之后，还可以按照用户的需求将目标音频文件进行保存，以便日后进行播放。例如，可以将目标音频文件保存为混音文件、左右声道立体声文件或双音源文件等等。

可选的，为了可以更好的满足用户的个性化需求，在本发明的一些实施例中，在S103之前，用户还可以自主确定预设增值。

下面通过一些实施例，详细介绍确定预设增益的方法。

可选的，在本发明的一些实施例中，如图2所示，图2为本发明一个实施例提供的电子设备的显示界面示意图。

如图2所示，电子设备的显示界面上显示有两个第一控件，分别为第一控件10和第一控件20。用户通过对第一控件10和第一控件20进行第二输入，就可调整预设增益。其中，第二输入可以为点击输入、也可以为滑动输入。

例如，用户通过调整第一控件10调整预设增益中第二音频数据对象的第一增益值，用户通过第一控件20调整预设增益中第三音频数据对象的第二增益值。

电子设备在接收到用户对第一控件10和/或第一控件20的第二输入后，即可响应于该第二输入，基于与第二输入相关联的预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。

作为一个示例，若用户通过对第一控件10和第一控件20的第二输入，将预设增益中第二音频数据对象的第一增益值调整为-500db，将预设增益中第三音频数据对象的第二增益值调整为0db，则电子设备就会响应于该第二输入，将低于原声音强度的-500db的第二音频数据和具有原声音强度的第三音频数据，按照预设方式进行音频处理，得到目标音频数据。

在本发明实施例中，通过在电子设备上配置有与预设增益匹配的第一控件，可以使用户可以按照自己的个性化需求随时调整预设增益，使得电子设备可以按照用户自主选择的预设增益进行音频处理，最终得到满足用户需求的目标音频数据，从而提高用户的使用体验。

为了可以使用户的操作更加方便快捷，还增设了许多拾音场景信息，使得用户通过选择目标场景信息，就可以自动匹配与目标场景信息相关联的预设增益。使得一些不具有专业调音技能的用户，通过选择目标场景就可以使电子设备按照较为有优选的预设增益进行音频处理，以得到音质较优的音频数据。

下面结合图3详细介绍增加场景信息的音频数据处理方法。

如图3所示，图3为本发明的另一个实施例提供的音频数据处理方法的流程示意图。该方法包括：

S301，采集预设范围内的声音信号，得到第一音频数据。

S302，从第一音频数据中分离出包括第一目标发声对象的声音的第二音频数据和包括第二目标发声对象的声音的第三音频数据。

其中，S301-S302与S101-S102为相同的步骤，在此不再赘述。

S303，接收用户选取目标场景信息的第一输入。

其中，目标场景信息可以为录像场景或对话场景等等。其中，录像场景还可以进一步划分为后置摄像头录像场景和前置摄像头录像场景。

S304，基于与目标场景信息相关联的预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。

其中，电子设备在接收到用户针对于目标场景信息的第一输入后，就可以进一步基于与目标场景信息相关联的预设增值，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。

下面分别以前置摄像头录像场景、后置摄像头录像场景和对话场景，详细介绍S304。

可选的，在本发明的一些实施例中，若电子设备接收到的是用户针对前置摄像头录像场景(目标场景信息)的第一输入。则鉴于一般用户在使用前置摄像头进行录像时，一般是想要记录下人声，所以在用户选择的目标场景信息为前置摄像头录像场景时，一般会将环境音消除，将人声保留。即，将环境音在预设增益中对应的增益值调整为最小值，将人声在预设增益中对应的增益值调整为0db。

可选的，在本发明的一些实施例中，若电子设备接收到的是用户针对后置摄像头录像场景(目标场景信息)的第一输入。则鉴于一般用户在使用后置摄像头进行录像时，一般是想要记录下环境声，所以在用户选择的目标场景信息为后置摄像头录像场景时，一般会将人声消除，将环境声保留。即，将人声在预设增益中对应的增益值调整为最小值，将环境声在预设增益中对应的增益值调整为0db。

可选的，在本发明的一些实施例中，若电子设备接收到的是用户针对对话场景(目标场景信息)的第一输入。则鉴于对话场景下极易出现两个人(第一目标发声对象和第二目标发声对象)同时说话的情况。

因此，为了在将第二音频数据和第三音频数据进行音频处理时不会发声重叠的情况，可以是将第二音频数据和第三音频数据按照与对话场景信息相关联的预设增益，将第二音频数据和第三音频数据设置为双声道模式。其中，与对话场景信息相关联的预设增益可以是只要满足第二音频数据对应的增益值和第三音频数据对应的增益值相等即可。

其中，将第二音频数据和第三音频数据设置为双声道模式，可以使得最终得到的目标音频数据为双声道模式，因此在后续播放该目标音频文件时就可以通过左声道和右声道播放目标音频数据，从而避免第二音频数据和第三音频数据播放过程中出现重叠的情况发生，进而得到音质更高的目标音频文件，提高用户的使用体验。

此外，为了在将第二音频数据和第三音频数据进行音频处理时不会发声重叠的情况，在本发明的一些实施例中，还可以是将第二音频数据和第三音频数据按照与对话场景信息相关联的预设增益进行延时混音。其中，与对话场景信息相关联的预设增益可以是只要满足第二音频数据对应的增益值和第三音频数据对应的增益值相等即可。

下面结合一些实施例，详细介绍将第二音频数据和第三音频数据进行延时混音的过程。

可选的，在本发明的一些实施例中，第二音频数据包括第一目标音频片段，第三音频数据包括第二目标音频片段，其中，第一目标音频片段和第二目标音频片段具有重叠的时间戳。例如，第二音频数据包括的时间戳为1s-10s，第三音频数据包括的时间戳为1s-10s。则第一目标音频片段包括的时间戳可以为1s-3s，第二目标音频片段包括的时间戳可以为2s-4s。故，第一目标音频片段和第二目标音频片段具有的重叠时间戳为2s-3s。

其次，电子设备需要获取到第一目标音频片段在目标时间戳下的第一数据量和第二目标音频片段下的第二数据量。

例如，第一目标音频片段在1s-3s中的每个时间戳下的数据量依次为：1字节(B)、1B、0B；第二目标音频片段在2s-4s中的每个时间戳下的数据量依次为：0B、1B、1B。

接下来，若以目标时间戳为2s为例，则第一目标音频片段在目标时间戳下的第一数据量为1B，第二目标音频片段在目标时间戳下的第二数据量同样为1B。即，第一数据量等于第二数据量。

则继续判断第一目标音频文件和第二目标音频文件在目标时间戳之后其数据量是否增加。

继续以第一目标音频片段在1s-3s中的每个时间戳下的数据量依次为：1字节(B)、1B、0B；第二目标音频片段在2s-4s中的每个时间戳下的数据量依次为：0B、1B、1B，目标时间戳为2s为例。

则在2s后，第一音频目标音频片段的数据量仍然为2B，与1s-2s内的数据量相同，则判定在目标时间戳之后第一音频目标音频片段的数据量未增加。则可将第二目标音频片段确定为第二目标音频数据。

在2s后，第二音频目标音频片段的数据量为2B，与1s-2s内的数据量1B有所增加，则判定在目标时间戳之后第一音频目标音频片段的数据量有所增加。则可将第一目标音频片段确定为第一目标音频数据。

接下来，就可以将第一目标音频数据拼接在第二目标音频数据之后，得到目标音频数据。

在本发明实施例中，通过对目标时间戳后音频数据的数据量是否增加进行判断，可以准确的获知该目标时间戳后是由哪个发声对象继续讲话，从而将继续讲话的发声对象对应的音频数据拼接在前者讲话的发声对象对应的音频数据之后，可以有效避免第二音频数据和第三音频数据播放过程中出现重叠的情况发生，进而得到音质更高的目标音频文件，提高用户的使用体验。

基于上述实施例提供的音频数据的处理方法的具体实现方式，相应地，本发明还提供了一种音频数据的处理装置的具体实现方式。请参见图4。

图4为本发明一个实施例提供的一种电子设备的结构示意图。如图4所示，该电子设备包括：

采集模块410，用于采集预设范围内的声音信号，得到第一音频数据；

分离模块420，用于从第一音频数据中分离出包括第一目标发声对象的声音的第二音频数据和包括第二目标发声对象的声音的第三音频数据；

处理模块430，用于基于预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。

可选的，在本发明的一些实施例中，采集模块410具体用于：

利用位于不同位置的拾音设备，采集预设范围内的声音信号，得到第一音频数据。

可选的，在本发明的一些实施例中，电子设备还包括：

接收模块，用于接收用户针对于目标场景信息的第一输入；

处理模块430，具体还用于基于与目标场景信息相关联的预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。

可选的，在本发明的一些实施例中，接收模块还用于：

接收用户对第一控件的第二输入；

处理模块430，具体还用于响应于第二输入，基于与第二输入相关联的预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。

可选的，在本发明的一些实施例中，在目标场景信息为对话场景的情况下，处理模块430，具体还用于：

基于与对话场景信息相关联的预设增益，将第二音频数据和第三音频数据设置为双声道模式。

可选的，在本发明的一些实施例中，第二音频数据包括第一目标音频片段，第三音频数据包括第二目标音频片段；其中，第一目标音频片段和第二目标音频片段具有重叠的时间戳；

在目标场景信息为对话场景的情况下，处理模块430还包括：

获取子模块，用于获取第一目标音频片段在目标时间戳下的第一数据量和第二目标音频片段在目标时间戳下的第二数据量；

确定子模块，用于在第一数据量等于第二数据量的情况下，在第一目标音频片段和第二目标音频片段中，确定第一目标音频数据和第二目标音频数据；

拼接模块，用于将第一目标音频数据拼接于第二音频目标数据之后；

其中，第一目标音频数据为在目标时间戳之后数据量增加的音频数据，第二目标音频数据为在目标时间戳之后数据量未增加的音频数据。

可选的，在本发明的一些实施例中，预设方式至少包括以下一项：混音处理和双声道模式处理。

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，输入单元604用于采集预设范围内的声音信号，得到第一音频数据；处理器610用于从第一音频数据中分离出包括第一目标发声对象的声音的第二音频数据和包括第二目标发声对象的声音的第三音频数据；基于预设增益，将第二音频数据和第三音频数据按照预设方式进行音频处理，得到目标音频数据。

应理解的是，本发明实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

电子设备600还包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在电子设备600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图5中，触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元608为外部装置与电子设备600连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器609可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元；优选的，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

电子设备600还可以包括给各个部件供电的电源611(比如电池)，优选的，电源611可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备600包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器610，存储器609，存储在存储器609上并可在所述处理器610上运行的计算机程序，该计算机程序被处理器610执行时实现上述音频数据的处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频数据的处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频数据的处理方法，应用于电子设备，其特征在于，包括：

采集预设范围内的声音信号，得到第一音频数据；

2.根据权利要求1所述的方法，其特征在于，所述采集预设范围内的声音信号，得到第一音频数据，包括：

利用位于不同位置的拾音设备，采集所述预设范围内的所述声音信号，得到所述第一音频数据。

3.根据权利要求1所述的方法，其特征在于，所述基于预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理之前，还包括：

接收用户选取目标场景信息的第一输入；

所述基于预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理，得到目标音频数据，包括：

基于与所述目标场景信息相关联的预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理，得到所述目标音频数据。

4.根据权利要求1所述的方法，其特征在于，所述基于预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理，得到目标音频数据之前，还包括：

接收用户对第一控件的第二输入；

响应于所述第二输入，基于与所述第二输入相关联的预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理，得到所述目标音频数据。

5.根据权利要求3所述的方法，其特征在于，在所述目标场景信息为对话场景的情况下，所述基于与所述目标场景信息相关联的预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理，包括：

基于与所述对话场景信息相关联的预设增益，将所述第二音频数据和所述第三音频数据设置为双声道模式。

6.根据权利要求3所述的方法，其特征在于，所述第二音频数据包括第一目标音频片段，所述第三音频数据包括第二目标音频片段；其中，所述第一目标音频片段和所述第二目标音频片段具有重叠的时间戳；

在所述目标场景信息为对话场景的情况下，所述基于所述预设增益，将所述第二音频数据和所述第三音频数据按照预设方式进行音频处理，包括：

获取所述第一目标音频片段在目标时间戳下的第一数据量和所述第二目标音频片段在所述目标时间戳下的第二数据量；

在所述第一数据量等于所述第二数据量的情况下，在所述第一目标音频片段和所述第二目标音频片段中，确定第一目标音频数据和第二目标音频数据；

将所述第一目标音频数据拼接于所述第二音频目标数据之后；

其中，所述第一目标音频数据为在所述目标时间戳之后数据量增加的音频数据，所述第二目标音频数据为在所述目标时间戳之后数据量未增加的音频数据。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述预设方式至少包括以下一项：混音处理和双声道模式处理。

8.一种电子设备，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序指令时实现如权利要求1至7中任一项所述的音频数据的处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音频数据的处理方法的步骤。