CN112542178B

CN112542178B - 音频数据处理方法及装置

Info

Publication number: CN112542178B
Application number: CN202011543301.0A
Authority: CN
Inventors: 岳滕旭
Original assignee: Vivo Mobile Communication Shenzhen Co Ltd
Current assignee: Vivo Mobile Communication Shenzhen Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-06-06
Anticipated expiration: 2040-12-21
Also published as: CN112542178A

Abstract

本申请公开了一种音频数据处理方法及装置，音频数据处理方法包括：通过M个电子设备分别获取N个第一对象的发声音量和内容信息，M为正整数，N为大于1的整数；在确定N个第一对象同时发声的情况下，根据N个第一对象的发声音量，确定N个第一对象中的目标对象；将目标对象对应的目标信息分别发送至M个电子设备，以使M个电子设备根据目标信息执行目标操作；其中，目标对象为N个第一对象中发声音量小于预设阈值的第一对象，目标信息包括内容信息。在本申请实施例中，可以避免出现在N个第一对象同时发声的过程中听众获取不到音频信息的情况。

Description

音频数据处理方法及装置

技术领域

本申请属于计算机领域，具体涉及一种音频数据处理方法及装置。

背景技术

随着科技的进步与发展，电子设备已经逐渐走进大众的生活，电子设备应用到很多场景中，包括多个对象发声的场景，比如开会场景、合唱场景或者多人聊天的场景。

在上述场景中，往往存在多个对象同时发声的情况。在此情况下，听众很可能获取不到一些对象发出的音频信息。

发明内容

本申请实施例的目的是提供一种音频数据处理方法及装置，能够解决在多个对象同时发声的情况下，听众获取不到一些对象发出的音频信息的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音频数据处理方法，应用于服务器，所述方法包括：

通过M个电子设备分别获取N个第一对象的发声音量和内容信息，M为正整数，N为大于1的整数；

在确定N个第一对象同时发声的情况下，根据N个第一对象的发声音量，确定N个第一对象中的目标对象；

将目标对象对应的目标信息分别发送至M个电子设备，以使M个电子设备根据目标信息执行目标操作；

其中，目标对象为N个第一对象中发声音量小于预设阈值的第一对象，目标信息包括内容信息。

第二方面，本申请实施例提供了一种音频数据处理装置，应用于服务器，装置包括：

获取模块，用于通过M个电子设备分别获取N个第一对象的发声音量和内容信息，M为正整数，N为大于1的整数；

第一确定模块，用于在确定N个第一对象同时发声的情况下，根据N个第一对象的发声音量，确定N个第一对象中的目标对象；

第一发送模块，用于将目标对象对应的目标信息分别发送至M个电子设备，以使M个电子设备根据目标信息执行目标操作；

第三方面，本申请实施例提供了一种服务器，包括处理器，存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现第一方面的音频数据处理方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面的方法。

在本申请实施例中，服务器通过M个电子设备分别获取N个第一对象的发声音量和内容信息，在N个第一对象同时发声的情况下，确定N个第一对象中的目标对象，将目标对象对应的目标信息分别发送至M个电子设备以使M个电子设备根据目标信息执行目标操作。由于目标信息包括目标对象发声的内容信息，由此，听众可以通过目标信息获取到目标对象的发声内容，避免错过目标对象发出的音频信息。

附图说明

图1是本申请提供的音频系统的一个实施例的结构示意图；

图2是本申请提供的音频系统的另一个实施例的结构示意图；

图3是本申请提供的音频系统的一个实施例的应用场景示意图；

图4是本申请提供的音频系统的一个实施例的界面示意图；

图5是本申请提供的音频系统的另一个实施例的应用场景示意图；

图6是本申请提供的用于服务器的音频数据处理方法的一个实施例的流程示意图；

图7是本申请提供的用于服务器的音频数据处理方法的另一个实施例的流程示意图；

图8是本申请提供的音频系统的又一个实施例的应用场景示意图；

图9是本申请提供的用于电子设备的音频数据处理方法的一个实施例的流程示意图；

图10是本申请提供的用于服务器的音频数据处理装置的一个实施例的结构示意图；

图11是本申请提供的用于电子设备的音频数据处理装置的一个实施例的结构示意图；

图12是本申请提供的服务器的一个实施例的结构示意图；

图13是本申请提供的电子设备的一个实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频数据处理方法、音频数据处理方法、装置及服务器进行详细地说明。

下面首先说明本申请实施例提供的一种音频系统。图1是本申请提供的音频系统的一个实施例的结构示意图。

如图1所示，音频系统包括电子设备102和服务器104，电子设备102具有拾音装置(比如麦克风)，通过拾音装置采集N个第一对象(比如对象为用户或者机器人)发出的声音，形成第一语音信息。然后，电子设备102将第一语音信息发送至服务器104。

服务器104获取到第一语音信息之后，根据第一语音信息获取N个第一对象的发声音量和内容信息。然后，在确定N个第一对象同时发声的情况下，服务器104根据各个第一对象的发声音量，确定N个第一对象中的目标对象。再然后，将目标对象对应的目标信息发送至电子设备102，目标对象对应的目标信息包括目标对象发声的内容信息。作为一个示例，目标对象对应的目标信息可以包括在N个第一对象同时发声时，目标对象发声的内容信息。

电子设备102接收到目标信息之后，可以根据目标信息执行目标操作。

作为一个示例，电子设备102可以显示目标信息，将内容信息以文字的方式显示出来。

作为另一个示例，电子设备102可以播放目标信息。在该示例中，电子设备102还可以调节播放目标信息的音量。

由于目标信息包括目标对象发声的内容信息，由此，听众可以通过目标信息获取到目标对象的发声内容，避免错过目标对象发出的音频信息。

图2是本申请提供的音频系统的另一个实施例的结构示意图。

如图2所示，音频系统包括M个电子设备102和服务器104，每个电子设备102具有拾音装置(比如麦克风)。M个电子设备102通过网络进入到目标群组中。

作为一个示例，目标群组可以为网络上的虚拟会议室对应的群组。如图3所示，多个对象进入到实体会议室中，并围绕会议桌坐下，但是，实体会议室中没有会议系统的硬件。在此情况下，每个对象可以使用各自的电子设备102进入到虚拟会议室的目标群组中。

在M个电子设备102通过网络进入到目标群组中之后，每个电子设备102可以显示如图4所示的界面，该界面包括已进入到目标群组中的对象。如果一个电子设备102对应一个第一对象，那么M个电子设备共对应N个第一对象，且M等于N。

在M个电子设备102通过网络进入到目标群组中之后，N个第一对象可以利用电子设备102进行开会、歌唱或者聊天等。然后，各个电子设备102的拾音装置采集对应对象发出的声音，形成第一语音信息。然后，各个电子设备102将第一语音信息发送至服务器104。在N个第一对象进行开会、歌唱或者聊天等过程中，有可能存在N个第一对象同时发声的情况。比如，如图5所示，对象1、对象2和对象6在会议上同时发言。

服务器104获取到各个电子设备102发送的第一语音信息之后，对各个电子设备102发送的第一语音信息进行合并，得到合并音频数据，然后将合并音频数据发送至各个电子设备102，以使各个电子设备102播放合并音频数据。

如果各个电子设备102位于一个比较大的房间的不同位置，那么各个电子设备102播放合并音频数据时，由于合并音频数据在不同位置同时进行播放，播放出的声音具有立体环绕的效果。

服务器104除了对各个电子设备102发送的第一语音信息进行合并之外，还根据各个电子设备102发送的第一语音信息确定是否存在N个第一对象同时发声。在确定存在N个第一对象同时发声的情况下，服务器104根据各个电子设备102发送的第一语音信息，在N个第一对象中确定发声音量低于预设阈值的目标对象，将目标对象对应的目标信息分别发送至M个电子设备102。

电子设备102接收到目标信息之后，可以根据目标信息执行目标操作。由于目标信息包括目标对象发声的内容信息，由此，听众可以通过目标信息获取到目标对象的发声内容，避免错过目标对象发出的音频信息。

上述的音频系统可以应用于多个第一对象发声的场景中，比如开会场景、合唱场景或者多人聊天的场景。

在开会场景或者多人聊天的场景下，如果有N个第一对象同时发声，则电子设备输出目标信息，听众可以通过目标信息获取到同时发声的对象的发声内容，避免听众在会议过程中或者聊天过程中错过一些信息。

在合唱场景下，为了分析各个歌手的歌声特点或者各个歌手的声调是否准确，可以采用上述的音频系统来实现。具体的，在多个歌手同时歌唱的情况下，电子设备可以分别播放同时歌唱的各个歌手的音频信息，以便于分析各个歌手歌声特点或者各个歌手的声调是否准确。

基于上述的音频系统，本申请实施例提供一种音频数据处理方法，音频数据处理方法应用于服务器。

图6是本申请提供的用于服务器的音频数据处理方法的一个实施例的流程示意图。如图6所示，音频数据处理方法200包括：

S202，通过M个电子设备分别获取N个第一对象的发声音量和内容信息，M为正整数，N为大于1的整数。

在S202中，可以先接收M个电子设备分别发送的M个第一语音信息，M个电子设备与M个第一语音信息一一对应，一个第一语音信息中具有至少一个对象的声音。在M为大于1的整数的情况下，M个电子设备可以是同一个群组中的电子设备。比如，M个电子设备可以是同一个会议群组中的电子设备或者同一个聊天群组中的电子设备。

然后，根据M个第一语音信息确定N个第一对象的发声音量和内容信息。

作为一个示例，在M＝1的情况下，可以根据第一语音信息中各个发声对象的声纹信息，确定N个第一对象的发声音量和内容信息。在M大于1的情况下，可以先将M个第一语音信息进行合并，得到合并的语音信息，然后，根据合并的语音信息确定N个第一对象的发声音量和内容信息。

下面以图5为例说明接收M个电子设备分别发送的M个第一语音信息。

如图5所示，对象1至对象6中各个对象的电子设备分别具有麦克风，通过电子设备的麦克风采集第一语音信息，一个电子设备采集一个第一语音信息。

在对象1、对象2和对象6同时发言的过程中，对象1的电子设备102不仅采集到对象1的声音，还采集到对象2和对象6的声音。因此，对象1的电子设备102采集的第一语音信息中具有对象1、对象2和对象6的声音。由于对象1、对象2和对象6分别与对象1的电子设备102之间的距离不同，因此，对象1的电子设备102采集的第一语音信息中对象1、对象2和对象6的声音音量不同。

同理，在对象1、对象2和对象6同时发言的过程中，各个对象的电子设备102采集的第一语音信息中均有对象1、对象2和对象6的声音。也就是说，M个电子设备102会采集同一个对象的音频数据。

音频数据处理方法200还包括：

S204，在确定N个第一对象同时发声的情况下，根据N个第一对象的发声音量，确定N个第一对象中的目标对象，目标对象为N个第一对象中发声音量小于预设阈值的第一对象。

在S204中，在得到N个第一对象的发声音量之后，从N个第一对象中确定发声音量小于预设阈值的目标对象。由此，实现了在同时发声的N个第一对象中，确定由于发声音量比较小而导致发声内容被掩盖的目标对象。

音频数据处理方法200还包括：

S206，将目标对象对应的目标信息分别发送至M个电子设备，以使M个电子设备根据目标信息执行目标操作，目标信息包括内容信息。

在S206中，先将目标对象对应的目标信息分别发送至M个电子设备，然后，在电子设备接收到目标信息的情况下，可以显示或播放目标信息。由于目标信息包括目标对象发声的内容信息，由此，听众可以通过目标信息获取到目标对象的发声内容，避免错过目标对象发出的音频信息。

由于M个电子设备有可能会采集同一第一对象的音频数据，为了更加准确地确定发声声音较小的目标对象，在本申请的一个或多个实施例中，S204可以包括：

对于每个第一对象分别执行如下操作：根据M个电子设备分别发送的M个第一语音信息，确定各个电子设备采集到的第一对象的音量；

根据各个电子设备采集到的第一对象的音量，确定第一对象的目标发声音量；

在得到各个第一对象的目标发声音量之后，将N个第一对象中目标发声音量小于预设阈值的第一对象确定为目标对象。

下面对如何确定第一对象的目标发声音量进行示例性说明。

作为一个示例，根据各个电子设备采集到的第一对象的音量，确定第一对象的目标发声音量，可以包括：将各个电子设备采集到第一对象的音量中的最大音量，确定为目标对象的目标发声音量。

作为另一个示例，根据各个电子设备采集到的第一对象的音量，确定第一对象的目标发声音量，可以包括：将各个电子设备采集到第一对象的音量的平均值，确定为目标对象的目标发声音量。

基于上述内容，下面对S204进行示例性说明。

作为一个示例，S204可以包括：

将M个电子设备获取到的每个第一对象的发声音量中的最大发声音量，确定为目标发声音量；

将目标发声音量小于预设阈值的第一对象确定为目标对象。

作为另一个示例，S204可以包括：

将M个电子设备获取到的每个第一对象的发声音量的平均音量，确定为目标发声音量；

将目标发声音量小于预设阈值的第一对象确定为目标对象。

在本申请实施例中，先根据各个电子设备采集到同一第一对象的音量，确定第一对象的目标发声音量。然后，根据各个第一对象的目标发声音量，可以比较准确地确定发声音量较小的目标对象。

下面以目标对象为图5中的对象1为例，说明如何确定对象1的发声音量。

在对象1发声的过程中，对象1至对象6的各个电子设备102均会采集到对象1的声音，只不过由于对象1与各个电子设备102之间的距离不同，因此，各个电子设备102采集到的第一语音信息中对象1的音量不同。在图5中对象1距离对象1的电子设备102最近，对象1距离对象6的电子设备102最远，因此，在对象1的电子设备102采集到的第一语音信息中，对象1的音量最大，在对象6的电子设备102采集到的第一语音信息中，对象1的最小。

可见，各个电子设备102均会采集到对象1的声音，且各个电子设备102采集到对象1的音量大小不同。在此情况下，将各个电子设备102采集到的对象1的音量中的最大音量确定为对象1的发声音量，或者，将各个电子设备102采集到的对象1的音量的平均值，确定为对象1的发声音量。

在本申请的一个或多个实施例中，内容信息包括音频信息或文本信息中的至少一个；S206可以包括：

在内容信息包括音频信息的情况下，将音频信息分别发送至M个电子设备，以使M个电子设备播放音频信息；

或者，在内容信息包括文本信息的情况下，将文本信息分别发送至M个电子设备，以使M个电子设备显示文本信息。

通过电子设备播放目标对象的发音内容的音频信息，或者显示目标对象的发音内容的文本信息，使得听众通过音频信息或者文本信息获取到目标对象的声内容。

在本申请的一个或多个实施例中，目标信息可以包括音量调节信息，如图7所示，S204之后，音频数据处理方法200A还可以包括：

S208，根据每个电子设备分别采集到的每个第一对象的发声音量的大小，分别确定每个电子设备与目标对象的距离；

S210，根据每个电子设备与目标对象的距离，分别确定每个电子设备对应的目标播放音量，目标播放音量的大小与电子设备与目标对象的距离正相关。

在一种可选地实施例中，S206可以包括：

在内容信息包括音频信息的情况下，将音量调节信息和音频信息分别发送至对应的N个电子设备，以使每个电子设备分别以对应的目标播放音量输出音频信息。

在本申请实施例中，服务器根据每个电子设备与目标对象的距离，确定各个电子设备对应的目标播放音量。其中，目标对象与电子设备之间的距离越远，说明电子设备对应的对象越有可能没听到目标对象的发声内容，因此，该电子设备的目标播放音量越大，以保证该电子设备播放目标对象对应的音频信息时，该电子设备对应的对象能够听到播放的内容，从而获取到在同时发声时目标对象的发声内容。

下面继续通过图5的示例说明如何确定每个电子设备对应的目标播放音量。

首先，根据采集音量与距离之间的第一预设对应关系，获取每个电子设备采集到的目标对象的音量分别对应的距离，该距离即为该电子设备与目标对象的距离。

假设采集音量与距离之间的第一预设对应关系可以如表1所示：

表1

采集音量	距离
		大于或等于50分贝	小于或等于0.5米
大于或等于30分贝，且小于50分贝	大于0.5米，且小于或等于1米
		小于30分贝	大于1米

在目标对象为图5中的对象1的情况下，各个电子设备可以采集到对象1的声音，根据上述表1的第一预设对象关系以及各个电子设备采集到的对象1的音量，可以确定对象1与各个电子设备之间的距离。

由于对象1的电子设备和对象2的电子设备采集到对象1的音量均大于50分贝，因此，可以确定对象1分别与对象1的电子设备以及对象2的电子设备之间的距离均小于或等于0.5米。

由于对象3的电子设备和对象4的电子设备采集到对象1的音量均大于30分贝，且小于50分贝，因此，可以确定对象1分别与对象3的电子设备以及对象4的电子设备之间的距离均大于0.5米，且小于或等于1米。

由于对象5的电子设备以及对象6的电子设备采集到对象1的音量均小于30分贝，因此，可以确定对象1分别与对象5的电子设备以及对象6的电子设备之间的距离大于1米。

然后，在得到每个电子设备与目标对象的距离之后，根据距离与播放音量之间的第二预设对应关系，获取每个电子设备与目标对象的距离分别对应的播放音量，该播放音量即为电子设备对应的目标播放音量。

假设距离与播放音量之间的第二预设对应关系可以如表2所示：

表2

距离	播放音量
		小于或等于0.5米	50分贝
大于0.5米，且小于或等于1米	60分贝
		大于1米	70分贝

根据上述表2的第二预设对象关系以及对象1与各个电子设备之间的目标距离，可以确定各个电子设备对应的播放音量。

其中，由于上述已经确定对象1分别与对象1的电子设备以及对象2的电子设备之间的距离均小于或等于0.5米，因此，对象1和对象2的电子设备对应的播放音量为50分贝。

上述已经确定对象1分别与对象3的电子设备以及对象4的电子设备之间的距离均大于0.5米，且小于或等于1米，因此，对象3和对象4的电子设备对应的播放音量为60分贝。

上述已经确定对象1分别与对象5的电子设备以及对象6的电子设备之间的距离大于1米，因此，对象5和对象6的电子设备对应的播放音量为70分贝。

图8是本申请提供的播放音量调节结果的一个实施例的示意图。如图8所示，对象1的电子设备和对象2的电子设备的播放音量是最低音量，对象3的电子设备和对象4的电子设备的播放音量是中等音量，对象5的电子设备和对象6的电子设备的播放音量是最高音量。

另外，本申请实施例是根据每个电子设备与目标对象的距离确定每个电子设备对应的目标播放音量，除此之外，还可以将每个电子设备对应的目标播放音量提高至统一的预定音量。

在本申请的一个或多个实施例中，S206可以包括：

在没有对象发声的情况下，在M个电子设备显示第一文字信息或者输出第一语音信息。

可以理解的，第一文字信息可以是“暂未有人说话”的提示信息，第一语音信息可以是“暂未有人说话”的提示信息。

下面对如何确定是否有对象发声进行示例性说明。

作为一个示例，服务器从电子设备最新发送的第一语音信息中获取最近一段时间段(比如最近2秒)内的音频数据，根据该音频数据中是否有声音来确定是否有对象发声。

作为另一个示例，服务器在接收到各个电子设备发送的用于指示结束发声的信息的情况下，确定没有对象发声。

在本申请实施例中，服务器在确定没有对象发声之后，说明各个电子设的对象有空闲时间来获取其他的内容，因此，将目标信息分别发送至M个电子设备，使得M个电子设备在听众有空闲的情况下执行目标操作，避免由于目标操作而干扰到听众获取音频信息。

本申请提供一种音频数据处理方法，音频数据处理方法应用于电子设备。该电子设备可以是上述图1或者图2中的电子设备102。

图9是本申请提供的用于电子设备的音频数据处理方法的一个实施例的流程示意图。如图9所示，音频数据处理方法300包括：

S302，将第一语音信息发送至服务器，以使服务器根据第一语音信息确定是否存在N个第一对象同时发声；

S304，接收服务器在确定N个第一对象同时发声的情况下发送的目标信息，目标信息包括目标对象对应的内容信息，目标对象为N个第一对象中发声音量小于预设阈值的第一对象；

S306，根据目标信息执行目标操作。

下面对上述的S302至S306分别进行说明。

在S302中，第一语音信息可以是由电子设备采集得到。第一语音信息中有至少一个对象的声音。作为一个实施例，服务器可以根据该电子设备发送的第一语音信息确定是否存在N个第一对象同时发声。作为另一个实施例，服务器可以根据该电子设备发送的第一语音信息以及其他电子设备发送的第一语音信息确定是否存在N个第一对象同时发声。

在S306中，可以显示目标信息，或者，播放目标信息。由于目标信息包括目标对象发声的内容信息，由此，听众可以通过目标信息获取到目标对象的发声内容，避免错过目标对象发出的音频信息。

在S306之前，在接收到目标信息之后，用户可以根据自己的需求，选择是否执行目标操作。比如，用户在未听清楚某个对象的音频信息的情况下，可以选择显示或播放目标信息。

在本申请的一个或多个实施例中，在目标信息的数量为多个的情况下，S306可以包括：

按照各个目标信息中对象的发声顺序，播放各个目标信息。

在本申请实施例中，按照各个对象的发声顺序，依次播放各个目标信息，由此，避免同时播放多个目标信息而导致用户无法获取到多个目标信息的内容。

在本申请的一个或多个实施例中，音频数据处理方法还可以包括：

在电子设备上登录的用户账号加入至目标群组中的情况下，开启电子设备的拾音装置以及音频播放装置。作为一个示例，拾音装置可以为麦克风，音频播放装置可以为扬声器。

与本申请提供的用于服务器的音频数据处理方法对应地，本申请还提供一种音频数据处理装置。图10是本申请提供的用于服务器的音频数据处理装置的一个实施例的结构示意图。如图10所示，音频数据处理装置400包括：

获取模块402，用于通过M个电子设备分别获取N个第一对象的发声音量和内容信息，M为正整数，N为大于1的整数；

第一确定模块404，用于在确定N个第一对象同时发声的情况下，根据N个第一对象的发声音量，确定N个第一对象中的目标对象；

第一发送模块406，用于将目标对象对应的目标信息分别发送至M个电子设备，以使M个电子设备根据目标信息执行目标操作；

在本申请的一个或多个实施例中，第一确定模块404可以包括：

第一确定单元，用于将M个电子设备获取到的每个第一对象的发声音量中的最大发声音量，确定为目标发声音量；

第二确定单元，用于将目标发声音量小于预设阈值的第一对象确定为目标对象。

第三确定单元，用于将M个电子设备获取到的每个第一对象的发声音量的平均音量，确定为目标发声音量；

第四确定单元，用于将目标发声音量小于预设阈值的第一对象确定为目标对象。

在本申请的一个或多个实施例中，内容信息包括音频信息或文本信息中的至少一个；第一发送模块406可以包括：

第一发送单元，用于在内容信息包括音频信息的情况下，将音频信息分别发送至M个电子设备，以使M个电子设备播放音频信息；

第二发送单元，用于在内容信息包括文本信息的情况下，将文本信息分别发送至M个电子设备，以使M个电子设备显示文本信息。

在本申请的一个或多个实施例中，目标信息包括音量调节信息，音频数据处理装置400还可以包括：

第二确定模块，用于根据每个电子设备分别采集到的每个第一对象的发声音量的大小，分别确定每个电子设备与目标对象的距离；

第三确定模块，用于根据每个电子设备与目标对象的距离，分别确定每个电子设备对应的目标播放音量，目标播放音量的大小与电子设备与目标对象的距离正相关。

第一发送模块406可以包括：

第三发送单元，用于在内容信息包括音频信息的情况下，将音量调节信息和音频信息分别发送至对应的N个电子设备，以使每个电子设备分别以对应的目标播放音量输出音频信息。

需要说明的是，上述实施例中以执行主体为音频数据处理装置400为例说明执行用于服务器的音频数据处理方法。但是，本申请实施例提供的音频数据处理方法的执行主体不限于音频数据处理装置400，也可以为该音频数据处理装置400中的用于执行加载音频数据处理方法的控制模块。

与本申请提供的用于电子设备的音频数据处理方法对应地，本申请还提供一种音频数据处理装置。图11是本申请提供的用于电子设备的音频数据处理装置的一个实施例的结构示意图。如图11所示，音频数据处理装置500包括：

第二发送模块502，用于将第一语音信息发送至服务器，以使服务器根据第一语音信息确定是否存在多个目标对象同时发声；

接收模块504，用于接收服务器在确定N个第一对象同时发声的情况下发送的目标信息，目标信息包括目标对象对应的内容信息，目标对象为N个第一对象中发声音量小于预设阈值的第一对象；

执行模块506，用于根据目标信息执行目标操作。需要说明的是，上述请实施例中以执行主体为音频数据处理装置500为例说明执行用于电子设备的音频数据处理方法300。但是，本申请实施例提供的音频数据处理方法的执行主体不限于音频数据处理装置500，也可以为该音频数据处理装置500中的用于执行加载音频数据处理方法的控制模块。

本申请实施例中的音频数据处理装置500可以是装置，也可以是装置中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频数据处理装置500可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频数据处理装置500能够实现图9的方法实施例中的各个过程，为避免重复，这里不再赘述。

本申请还提供一种服务器，包括处理器，存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现音频数据处理方法200的步骤。

图12是本申请提供的服务器的一个实施例的结构示意图。

如图12所示，服务器可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关容灾设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。

存储器可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行音频数据处理方法200所描述的操作。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的任意一种音频数据处理方法。

在一个示例中，服务器还可包括通信接口603和总线610。其中，如图12所示，处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

本申请还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在处理器上运行的程序或指令，该程序或指令被处理器执行时实现上述音频数据处理方法300实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图13是本申请提供的电子设备的一个实施例的结构示意图。

如图13所示，电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。

其中，输入单元704可以包括图形处理器7041和麦克风7042。显示单元706包括可以显示面板7061。用户输入单元707可以包括触控面板7071和其他输入设备7072。存储器709可以包括应用程序和操作系统。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图13中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

射频单元701用于将第一语音信息发送至服务器，以使服务器根据第一语音信息确定是否存在多个目标对象同时发声；

射频单元701还用于接收服务器在确定多个目标对象同时发声的情况下发送的目标信息，目标信息包括目标对象对应的内容信息，目标对象为N个第一对象中发声音量小于预设阈值的第一对象；

显示单元706、音频输出单元703或者处理器710用于根据目标信息执行目标操作。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频数据处理方法200或者音频数据处理方法300的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述音频数据处理方法200或者音频数据处理方法300实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频数据处理方法，应用于服务器，其特征在于，所述方法包括：

在确定所述N个第一对象同时发声的情况下，根据所述N个第一对象的发声音量，确定所述N个第一对象中的目标对象；

将所述目标对象对应的目标信息分别发送至M个电子设备，以使所述M个电子设备根据所述目标信息执行目标操作，以输出所述目标信息；

其中，所述目标对象为所述N个第一对象中发声音量小于预设阈值的第一对象，所述目标信息包括所述内容信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述N个第一对象的发声音量，确定所述N个第一对象中的目标对象，包括：

将M个电子设备获取到的每个所述第一对象的发声音量中的最大发声音量，确定为目标发声音量；

将所述目标发声音量小于所述预设阈值的第一对象确定为目标对象。

3.根据权利要求1所述的方法，其特征在于，所述根据所述N个第一对象的发声音量，确定所述N个第一对象中的目标对象，包括：

将M个电子设备获取到的每个所述第一对象的发声音量的平均音量，确定为目标发声音量；

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述内容信息包括音频信息或文本信息中的至少一个；

将所述目标对象对应的目标信息分别发送至M个电子设备，以使所述M个电子设备根据所述目标信息执行目标操作，包括：

在所述内容信息包括音频信息的情况下，将所述音频信息分别发送至所述M个电子设备，以使所述M个电子设备播放所述音频信息；

或者，在所述内容信息包括文本信息的情况下，将所述文本信息分别发送至所述M个电子设备，以使所述M个电子设备显示所述文本信息。

5.根据权利要求1至3中任意一项所述的方法，其特征在于，所述目标信息包括音量调节信息，

所述根据所述N个第一对象的发声音量，确定所述N个第一对象中的目标对象之后，所述方法还包括：

根据每个所述电子设备分别采集到的每个所述第一对象的发声音量的大小，分别确定每个所述电子设备与所述目标对象的距离；

根据每个所述电子设备与所述目标对象的距离，分别确定每个所述电子设备对应的目标播放音量，所述目标播放音量的大小与所述电子设备与所述目标对象的距离正相关；

所述将所述目标对象对应的目标信息分别发送至M个电子设备，以使所述M个电子设备根据所述目标信息执行目标操作，包括：

在所述内容信息包括音频信息的情况下，将所述音量调节信息和所述音频信息分别发送至对应的所述M个电子设备，以使每个所述电子设备分别以对应的所述目标播放音量输出所述音频信息。

6.一种音频数据处理装置，应用于服务器，其特征在于，所述装置包括：

第一确定模块，用于在确定所述N个第一对象同时发声的情况下，根据所述N个第一对象的发声音量，确定所述N个第一对象中的目标对象；

第一发送模块，用于将所述目标对象对应的目标信息分别发送至M个电子设备，以使所述M个电子设备根据所述目标信息执行目标操作，以输出所述目标信息；

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块包括：

第一确定单元，用于将M个电子设备获取到的每个所述第一对象的发声音量中的最大发声音量，确定为目标发声音量；

第二确定单元，用于将所述目标发声音量小于所述预设阈值的第一对象确定为目标对象。

8.根据权利要求6所述的装置，其特征在于，所述第一确定模块包括：

第三确定单元，用于将M个电子设备获取到的每个所述第一对象的发声音量的平均音量，确定为目标发声音量；

第四确定单元，用于将所述目标发声音量小于所述预设阈值的第一对象确定为目标对象。

9.根据权利要求6至8中任意一项所述的装置，其特征在于，所述内容信息包括音频信息或文本信息中的至少一个；

所述第一发送模块包括：

第一发送单元，用于在所述内容信息包括音频信息的情况下，将所述音频信息分别发送至所述M个电子设备，以使所述M个电子设备播放所述音频信息；

第二发送单元，用于在所述内容信息包括文本信息的情况下，将所述文本信息分别发送至所述M个电子设备，以使所述M个电子设备显示所述文本信息。

10.根据权利要求6至8中任意一项所述的装置，其特征在于，所述目标信息包括音量调节信息，所述装置还包括：

第二确定模块，用于根据每个所述电子设备分别采集到的每个所述第一对象的发声音量的大小，分别确定每个所述电子设备与所述目标对象的距离；

第三确定模块，用于根据每个所述电子设备与所述目标对象的距离，分别确定每个所述电子设备对应的目标播放音量，所述目标播放音量的大小与所述电子设备与所述目标对象的距离正相关；

所述第一发送模块包括：

第三发送单元，用于在所述内容信息包括音频信息的情况下，将所述音量调节信息和所述音频信息分别发送至对应的所述M个电子设备，以使每个所述电子设备分别以对应的所述目标播放音量输出所述音频信息。