CN115914457A

CN115914457A - 音频处理方法及装置

Info

Publication number: CN115914457A
Application number: CN202211338621.1A
Authority: CN
Inventors: 刘鹏; 高志稳
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-04-04

Abstract

本申请公开了一种音频处理方法及音频处理装置，属于通信技术领域。所述音频处理方法，包括：在播放多人通话空间音频的情况下，接收第一输入，其中，所述多人通话空间音频包括N个终端的通话音频流，所述第一输入用于从所述N个终端中选择第一目标终端进行点对点通话，N为大于1的整数；响应于所述第一输入，增强所述多人通话空间音频中所述第一目标终端对应的通话音频流。

Description

音频处理方法及装置

技术领域

本申请属于通信技术领域，具体涉及一种音频处理方法及装置。

背景技术

随着通信技术的发展，用户可以方便和快捷的在终端进行多人语音通话来代替面对面沟通。

在相关技术中，用户在多人通话过程中想要与特定对象进行点对点通话时，需要先结束多人通话，再与特定对象进行点对点通话的建立，步骤繁琐，且会丢失多人通话过程中的语音信息，用户体验差。

发明内容

本申请实施例的目的是提供一种音频处理方法，能够解决多人通话过程中点对点通话建立步骤繁琐，用户体验差的问题。

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：

在播放多人通话空间音频的情况下，接收第一输入，其中，所述多人通话空间音频包括N个终端的通话音频流，所述第一输入用于从所述N个终端中选择第一目标终端进行点对点通话，N为大于1的整数；

响应于所述第一输入，增强所述多人通话空间音频中所述第一目标终端对应的通话音频流。

第二方面，本申请实施例提供了一种音频处理装置的装置，该装置包括：

第一接收模块，用于在播放多人通话空间音频的情况下，接收第一输入，其中，所述多人通话空间音频包括N个终端的通话音频流，所述第一输入用于从所述N个终端中选择第一目标终端进行点对点通话，N为大于1的整数；

增强模块，用于响应于所述第一输入，增强所述多人通话空间音频中所述第一目标终端对应的通话音频流。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，能够在不退出多人语音通话场景的情况下，通过接收第一输入，实现多人通话过程中与第一目标终端对应的特定对象进行点对点通话，实现步骤简单，并通过对第一目标终端对应的通话音频流进行增强，实现多人语音通话场景中点对点通话的凸显，同时，由于在与第一目标终端对应的特定对象进行点对点通话时，无需退出多人语音通话场景，可以避免丢失多人语音通话过程中的语音信息，改善了用户的体验。

附图说明

图1是本申请实施例提供的音频处理方法的流程图之一；

图2是本申请实施例提供的多人语音通话的显示界面的示意图之一；

图3是本申请实施例提供的多人语音通话的显示界面的示意图之二；

图4是本申请实施例提供的语音通话系统的结构示意图；

图5是本申请实施例提供的本地终端发生方向偏移前后的对比示意图；

图6是本申请实施例提供的多人语音通话的显示界面的示意图之三；

图7是本申请实施例提供的音频处理装置的结构图；

图8是本申请实施例提供的电子设备的结构示意图之一；

图9是本申请实施例提供的电子设备的硬件示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法、音频处理装置及电子设备进行详细地说明。

图1是本申请实施例提供的音频处理方法的流程图之一，如图1所示，该音频处理方法包括：步骤110和步骤120。

步骤110，在播放多人通话空间音频的情况下，接收第一输入，其中，所述多人通话空间音频包括N个终端的通话音频流，所述第一输入用于从所述N个终端中选择第一目标终端进行点对点通话，N为大于1的整数；

本申请实施例中，本地终端接收用户的第一输入，其具体可以发生在多人语音通话场景中，本地终端在播放多人通话空间音频时，从多人通话空间音频中的N个通话音频流对应的终端，选择希望建立通信连接的第一目标终端，并与该第一目标终端单独进行通话。在该过程中，所述第一输入可以具体用于从N个通话音频流对应的终端中选择进行通话的第一目标终端。

本申请实施例中，所述第一目标终端可以具体包括一个或多个终端。该第一目标终端对应一个终端的情况下，本地终端与该终端单独进行点对点通话；该第一目标终端对应多个终端的情况下，本地终端与多个终端均单独进行点对多点通话。

这里需要说明的是，在本地终端与第一目标终端通话的过程中，本地终端与其它非第一目标终端之间的通信连接并未中断。

本申请实施例中，所述第一输入可以是：用户通过非触控方式进行的输入；或者用户通过触控方式进行的输入。

更具体地，用户通过非触控方式进行的输入，具体为：

用户的肢体动作输入，该肢体动作可以具体为手势动作，更具体为指向目标方位的手势动作。例如，用户在多人通话空间音频播放时，根据自己听到的声音方向选择目标方位。

在该实施方式中，接收第一输入，可以表现为，当用户处于不方便直接操作本地终端的屏幕时，用户可在屏幕前做出第一特定手势动作，该第一特定手势动作可以用户不同手势动作的组合，具体用户的滑动手势动作(如向右滑动手势动作、向左滑动手势动作等)和用户的确认手势动作。

例如，图2是本申请实施例提供的多人语音通话的显示界面的示意图之一，如图2所示，该显示界面为本地终端的显示界面，该显示界面显示本地终端获取的3个通话音频流的终端的标识(终端一22、终端二23和终端三24)，其中，终端一22、终端二23和终端三24的标识随机排列在显示界面的不同方位，如终端一22的标识在显示界面的左边区域、终端二23在显示界面的中间区域和终端三24的标识在显示界面的右边区域，且被选择的标识的显示效果与未被选择的标识的显示效果不同(如，对被选择的标识放大后显示，未被选择的标识不做放大后显示)。例如，图3是本申请实施例提供的多人语音通话的显示界面的示意图之二，如图3所示，本地终端接收用户的向右滑动手势动作，终端三24的标识在放大后显示，本地终端在预设时间内再次接收到用户的确认手势动作后，选择终端三24作为进行通话的第一目标终端。

在该实施方式中，接收第一输入，还可以表现为，当用户希望简化操作时，接收用户指向目标方位的第一输入。

用户通过触控方式进行的输入，具体为：

点击输入、滑动输入、按压输入、实体按键输入和字符输入等。

步骤120，响应于所述第一输入，增强所述多人通话空间音频中所述第一目标终端对应的通话音频流。

本申请实施例中，本地终端响应于所述第一输入，并增强所述第一目标终端对应的通话音频流。

本申请实施例中，增强第一目标终端的通话音频流可以具体指在第一目标终端同意与本地终端单独通话的情况下，增强第一目标终端的通话音频流的质量，同时，增强第一目标终端接收到的本地终端对应的通话音频流。这里需要说明的是，在多人语音通话场景中，本地终端接收到的其他非第一目标终端对应的通话音频流可以不增强。

本申请实施例中，增强所述第一目标终端的通话音频流也可以具体指在第一目标终端不同意与本地终端单独通话的情况下，增强第一目标终端的通话音频流的质量。同样地，在多人语音通话场景中，本地终端接收到的其他非第一目标终端对应的通话音频流并不会增强。

本申请实施例提供的音频处理方法，能够在不退出多人语音通话场景的情况下，通过接收第一输入，实现多人通话过程中与第一目标终端对应的特定对象进行点对点通话，实现步骤简单，并通过对第一目标终端对应的通话音频流进行增强，实现多人语音通话场景中点对点通话的凸显，同时，由于在与第一目标终端对应的特定对象进行点对点通话时，无需退出多人语音通话场景，可以避免丢失多人语音通话过程中的语音信息，改善了用户的体验。

在一些实施例中，所述增强第一目标终端对应的通话音频流，可以包括：

增大所述多人通话空间音频中所述第一目标终端对应的通话音频流的音量，减小所述多人通话空间音频中第二目标终端对应的通话音频流的音量，或不调整所述多人通话空间音频中所述第二目标终端对应的通话音频流的音量；

其中，所述第二目标终端为所述N个终端中除所述第一目标终端外的其他终端。

本申请实施例中，本地终端可以采用增大所述第一目标终端对应的通话音频流的音量，同时减小多人通话空间音频中第二目标终端对应的通话音频流的音量，实现对第一目标终端对应的通话音频流的增强。

本申请实施例中，本地终端也可以采用增大所述第一目标终端对应的通话音频流的音量，同时不调整多人通话空间音频中第二目标终端对应的通话音频流的音量，实现对第一目标终端对应的通话音频流的增强。

例如，在本地终端与第一目标终端单独通话的过程中，本地终端除了能够接收到增大音量后的第一目标终端的通话音频流外，也能够接收到不增大音量也不减小音量的第二目标终端对应的通话音频流。

又例如，在本地终端与第一目标终端单独通话的过程中，本地终端除了能够接收到增大音量后的第一目标终端的通话音频流外，也能够接收到减小音量后的第二目标终端对应的通话音频流。

本申请实施例中，该第二目标终端为N个终端中除第一目标终端外的其余终端。

在本申请的另一些实施例中，该音频处理方法可以具体包括：

终端中的红外摄像头、摄像头、陀螺仪传感器等检测本地终端对应的用户的肢体动作，并为肢体动作进行赋值，赋值后的每一肢体动作均对应一个终端，不同的肢体动作对应的不同的终端；

每一多方语音通话参与人员均有特定的位置，并与本地终端对应的用户形成特定的空间位置关系；当本地终端识别到用户特定的肢体动作后，该肢体动作对应的第一目标终端也可确定；

本地终端对应的用户确认是否需要沟通，例如，本地终端可以采用向第一目标终端发送通话请求的方式，确认需要与第一目标终端建立通话。

第一目标终端确认是否接通通话请求，当确认接通时，本地终端发送一段密钥到第一目标终端，基于该密钥对通话双方的通话音频流进行加密；

增强所述第一目标终端对应的通话音频流；例如对本地终端与第一目标通话终端双方的通话音频流进行语音增强，同时弱化多人语音通话场景其他终端的通话音频流，同时，本地终端与第一目标终端双方的语音信息通过加密方式传输，确保双方通话语音信息安全性。

本地终端和第一目标终端分别识别单独通话双人的肢体动作，确认是否继续进行加密通话，当确认结束时，即可结束当前双人单独通话，返回多人语音通话场景。

本申请实施例提供的音频处理方法，能够通过增大第一目标终端对应的通话音频流的音量，减小第二目标终端对应的通话音频流的音量，或者不调整第二目标终端对应的通话音频流的音量，实现多人语音通话场景中点对点通话参与方的通话音频流的凸显。

在一些实施例中，所述多人通话空间音频的生成方式，可以包括：

获取所述N个终端的通话音频流；

具体地，本地终端获取N个来自其它不同终端的通话音频流，本地终端与其它不同终端之间均建立通信连接，本地终端能够在通信连接持续的过程中持续接收到N个终端的通话音频流。

该本地终端具体可以是具备音频功能和通信功能的终端，例如手机、平板电脑、计算机、智能电视、VR设备或智能可穿戴设备或物联网(The Internet of Things，IOT)设备等，本申请对此不做限定。

本申请实施例中，通话音频流具体是其它终端持续发送的音频数据，更具体地，该通话音频流可以是其它参与通话的终端，通过音频采集设备采集的音频数据生成的音频流，也可以是其它参与通话的终端共享的本地音频数据生成的音频流。

本申请实施例中，本地终端具体可在语音通话中的多人语音通话场景(例如多人语音会议、多人群聊、多人视频通话等)与其它不同终端之间均建立通信连接。

举例来说，图4是本申请实施例提供的语音通话系统的结构示意图，具体来说，本地终端21与其他终端(终端一22、终端二23、终端三24)均建立通信连接，在多人语音通话过程中，一方面，本地终端21接收来自终端一22、终端二23和终端三24持续发送的通话音频流，另一方面，终端一22、终端二23和终端三24接收本地终端21持续发送的通话音频流。

为每个所述通话音频流配置一个空间方位信息，生成所述多人通话空间音频，每个所述通话音频流配置的所述空间方位信息均不同，所述空间方位信息用于表征所述通话音频流在所述多人通话空间音频中的模拟方向。本申请实施例中，每个通话音频流配置的空间方位信息均不相同，也就是说，多人通话空间音频中不同的通话音频流对应不同的空间方位信息。

本申请实施例中，为每个通话音频流配置一个空间方位信息可以具体是指本地终端在接收到N个终端对应的通话音频流时，采用随机分配的方式为每个终端对应的通话音频流配置一个空间方位，且为不同的终端对应的通话音频流配置的空间方位不同。

本申请实施例中，为每个通话音频流配置一个空间方位信息也可以具体是本地终端根据接收到N个终端对应的通话音频流的顺序，按照顺时针或逆时针依次为N个终端对应的通话音频流配置空间方位，且不同的终端对应的通话音频流的空间方位不同。

本申请实施例中所描述的多人通话空间音频在音频播放过程中可以产生空间音频效果，该空间音频效果是指具有空间感的音频播放效果。所谓的具有空间感的含义是指：可给用户营造一种多种声音从用户的不同方向传出的感觉。

本申请实施例中所描述的多人通话空间音频由N个通话音频流构建，其具体可以是为每个通话音频流配置一个能够在多人通话空间音频中模拟方向的空间方位信息。

本申请实施例中所描述的空间方位信息具体可以是指每个通话音频流在多人通话空间音频中的模拟方向。

在一些实施例中，该空间方位信息具体可以是指每个通话音频流在多人通话空间音频的模拟位置和模拟方向，以用户的听觉感受为主体模拟的位置和方向，例如，该通话音频流A的模拟方向为多人通话空间音频的左侧，其模拟位置为距离多人通话空间音频5米的位置，对应地，在多人通话空间音频播放时，用户在听觉上会感觉到通话音频流A在距离其5米的位置并从其左侧传来。

本申请实施例中所描述的在多人通话空间音频中的模拟方向具体可以是指用户在听到该多人通话空间音频时，以用户的听觉感受为主体模拟的方向，例如，该通话音频流A的模拟方向为多人通话空间音频的左侧，对应地，在多人通话空间音频播放时，用户在听觉上会感觉到通话音频流A在其左侧传来。

本申请实施例提供的音频处理方法，能够实现把多人语音通话中的每个通话音频流都映射到多人通话空间音频中的不同方位，从而模拟真实多人交流场景，使得每个通话音频流的声音在用户的听感上都具有不同的方向性，从而使得每个通话音频流的声音具有一定的区分度，即使同时有多个人讲话，用户也能够分清楚每个通话音频流产生的内容，改善了用户在多人通话过程中的体验感。

在一些实施例中，所述接收第一输入，可以包括：

在所述播放多人通话空间音频的情况下，接收用户指向目标方位的第一输入，所述目标方位与所述第一目标终端的空间方位信息相关联。

本申请实施例中，在多人通话空间音频播放时，本地终端接收用户指向目标方位的第一输入，该第一输入可以具体为用户指向目标方位的手势动作的输入，也可以具体为本地终端的方向偏移输入，其具体可以是在本地终端指向A方向的情况下，变化为指向B方向，此时将B方向作为目标方向，该目标方向即为用户指向目标方位的方向，详见图5，图5是本申请实施例提供的本地终端发生方向偏移前后的对比示意图。

本申请实施例中，所述目标方位可以具体为用户在多人通话空间音频播放时，根据自己听到的声音方向选择的方位，该方位的指向与希望单独进行通话的第一目标终端的空间方位的方向最接近。

本申请实施例中，本地终端可以通过摄像头(例如红外摄像头)对用户指向目标方位的手势动作进行识别，接收用户指向目标方位的第一输入。

本申请实施例中，本地终端也可以通过陀螺仪传感器对本地终端的方向偏移输入进行识别，接收用户指向目标方位的第一输入。

例如，图6是本申请实施例提供的多人语音通话的显示界面的示意图之三，如图6所示，该显示界面为本地终端21的显示界面，该显示界面显示本地终端21的标识以及与本地终端21通话的4个终端(终端一22、终端二23、终端三24和终端四25)的标识，其中，终端一22、终端二23、终端三24和终端四25的标识随机排列在显示界面的不同方位，如终端一22的标识在显示区域的左上区域、终端二23在显示区域的右上区域、终端三24的图像标识在显示区域的右下区域、终端三24的图像标识在显示区域的左下区域。本地终端接收用户指向目标方位的第一输入，并在该显示界面上显示一个指向目标方位的箭头，选择该箭头指向的方向的终端一22作为进行通话的第一目标终端。

本申请实施例提供的音频处理方法，能够在用户不方便直接触控屏幕的情况下，通过接收用户指向目标方位的第一输入，实现与希望进行单独通话的终端的选择，简化了用户的操作。

在一些实施例中，在所述增强所述多人通话空间音频中所述第一目标终端对应的通话音频流之前，所述方法，还可以包括：

在接收到所述第一目标终端发送的目标消息的情况下，向所述第一目标终端发送第一秘钥；

本申请实施例中，在增强多人通话空间音频中第一目标终端对应的通话音频流之前，本地终端向第一目标终端发送通话请求，并在接收到第一目标终端发送的目标消息时，向第一目标终端发送第一秘钥。

本申请实施例中，该目标信息可以用于表征是否同意与本地终端单独进行通话，具体地，该目标消息可以具体包括是否同意与本地终端单独进行通话的指示信息。

本申请实施例中，该第一秘钥可以具体用于对本地终端的通话音频流及第一目标终端的通话音频流进行加密。

根据所述第一秘钥与所述第一目标终端建立加密点对点通话。

本申请实施例中，本地终端基于该第一秘钥对本地终端的通话音频流进行加密后传输给第一目标终端，第一目标终端基于接收到的本地终端发送的第一秘钥对第一目标终端的通话音频流进行加密后传输给本地终端，实现本地终端与第一目标终端的加密点对点通话。

本申请实施例中，在该目标消息中包括同意与本地终端单独进行通话的指示信息的情况下，本地终端利用第一秘钥对本地终端的通话音频流进行加密后传输给第一目标终端，第一目标终端利用接收到的本地终端发送的第一秘钥对第一目标终端的通话音频流进行加密后传输给本地终端。第一目标终端根据该第一秘钥解密加密后的本地终端的通话音频流，本地终端根据该第一秘钥解密加密后的第一目标终端的通话音频流。

本申请实施例中，在该目标信息中包括拒绝与所述本地终端单独进行通话的指示信息的情况下，本地终端利用第一秘钥对本地终端的通话音频流进行加密后传输给第一目标终端，第一目标终端根据该第一秘钥解密加密后的本地终端的通话音频流。在此过程中，第一目标终端由于拒绝与本地终端进行点对点通话，因此，第一目标终端并不会对第一目标终端的通话音频流进行加密。

本申请实施例提供的音频处理方法，能够本地终端在接收到第一目标终端发送的目标消息的情况下，利用第一秘钥建立本地终端与第一目标终端点对点加密通话，实现多人语音通话场景中本地终端与第一目标终端点对点通话的私密性与安全性。

在一些实施例中，在所述播放多人通话空间音频的情况下，所述方法，还可以包括：

接收第二输入；

本申请实施例中，本地终端接收用户的第二输入，所述第二输入可以具体为用户用于指示暂停通话，暂停播放所述多人通话空间音频的输入。

例如，第二输入可以是：用户通过非触控方式进行的输入；或者用户通过触控方式进行的输入。

更具体地，用户通过非触控方式进行的输入，具体为：用户的第二特定肢体动作的第二输入。

用户通过触控方式进行的输入，具体为：

响应于所述第二输入，暂停播放所述多人通话空间音频。

本申请实施例中，本地终端响应于用户的第二输入暂停播放所述多人通话空间音频。

本申请实施例中，在暂停播放所述多人通话空间音频期间，本地终端可以继续持续的获取N个终端对应的通话音频流，也可以停止获取N个终端对应的通话音频流，N个终端可以继续持续获取本地终端的通话音频流，也可以停止获取本地终端的通话音频流。例如，本地终端的音频采集设备(如麦克风)关闭，停止采集音频数据。

本申请实施例中，在暂停播放所述多人通话空间音频期间，多人语音通话的显示界面的画面定格。

在另一些实施例中，当本地终端想要返回多人语音通话场景时，本地终端可以通过如下方式返回多人语音通话场景：

接收第三输入；

本申请实施例中，本地终端接收用户的第三输入，所述第三输入可以具体为用户指示继续播放所述多人通话空间音频的输入。

例如，第三输入可以是：用户通过连续的非触控方式进行的输入；用户通过触控方式进行的输入。

更具体地，用户通过连续的非触控方式进行的输入，具体为用户的第三特定肢体动作的输入。

用户通过触控方式进行的输入，具体为：

响应于所述第三输入，继续播放所述多人通话空间音频。

本申请实施例中，本地终端响应于用户的第三输入，继续播放多人通话空间音频。

本申请实施例中，在继续播放多人通话空间音频期间，本地终端继续持续的获取N个终端对应的通话音频流，N个终端继续持续的获取本地终端对应的通话音频流。例如，本地终端的音频采集设备(如麦克风)打开，继续采集音频数据。

本申请实施例中，在继续播放所述多人通话空间音频期间，多人语音通话的显示界面的画面正常显示。

在另一些实施例中，该音频处理方法可以具体包括：

终端/平板电脑/IOT设备中的红外摄像头、摄像头、陀螺仪传感器等检测用户的肢体动作将用户的第三特定肢体动作定义为第二输入，将用户的第四特定肢体动作定义为第三输入。

当终端识别到用户的第三特定肢体动作后，暂停播放多人通话空间音频。例如，在多人语音通话过程中，己方有人闯入、存在异音或需要处理其他紧急事务时，即可做第三特定的肢体动作，当终端识别到第三特定肢体动作时，私密性保护开启，暂停播放所述多人通话空间音频。同时，本地终端的音频采集设备(如麦克风关闭)不再采集音频数据，多人语音通话显示界面的画面定格。

结束隐私保护：终端识别用户肢体动作，确定是否返回多人语音通话场景。例如，终端识别到用户的第四特定肢体动作时，确认返回多人语音通话场景，私密性保护关闭，继续与各个终端的通话，并继续播放所述多人通话空间音频。在本地终端返回到多人语音通话场景后，多人语音通话显示界面的画面恢复正常。

本申请实施例提供的音频处理方法，在接收到用户的第二输入后，暂停与参与多人语音通话的各个终端的通话，参与多人语音通话的各个终端不会继续获取到本地终端的通话音频流，使得与多人语音通话无关的私人隐私得到保障，提高多人语音通话的私密性。

本申请实施例提供的音频处理方法，执行主体可以为音频处理装置。

本申请实施例中以音频处理装置执行音频处理的方法为例，说明本申请实施例提供的音频处理的装置。

本申请实施例还提供一种音频处理装置。

如图7所示，该音频处理装置包括：第一接收模块710和增强模块720。

第一接收模块710，用于在播放多人通话空间音频的情况下，接收第一输入，其中，所述多人通话空间音频包括N个终端的通话音频流，所述第一输入用于从所述N个终端中选择第一目标终端进行点对点通话，N为大于1的整数；

增强模块720，用于响应于所述第一输入，增强所述多人通话空间音频中所述第一目标终端对应的通话音频流。

在一些实施例中，该增强模块720，还可以用于：

在一些实施例中，该音频处理装置，还可以包括：

数据获取模块，用于获取所述N个终端的通话音频流；

数据生成模块，用于为每个所述通话音频流配置一个空间方位信息，生成所述多人通话空间音频，每个所述通话音频流配置的所述空间方位信息均不同，所述空间方位信息用于表征所述通话音频流在所述多人通话空间音频中的模拟方向。

在一些实施例中，所述第一接收模块，还可以用于：

接收用户指向目标方位的第一输入，所述目标方位与所述第一目标终端的空间方位信息相关联。

在一些实施例中，该音频处理装置，还可以包括：

发送模块，用于在接收到所述第一目标终端发送的目标消息的情况下，向所述第一目标终端发送第一秘钥；

加密通话模块，用于根据所述第一秘钥与所述第一目标终端建立加密点对点通话。

在一些实施例中，该音频处理装置，还可以包括：

第二接收模块，用于接收第二输入；

停止播放模块，用于响应于所述第二输入，暂停播放所述多人通话空间音频。

本申请实施例提供的音频处理装置，能够在不退出多人语音通话场景的情况下，通过接收第一输入，实现多人通话过程中与第一目标终端对应的特定对象进行点对点通话，实现步骤简单，并通过对第一目标终端对应的通话音频流进行增强，实现多人语音通话场景中点对点通话的凸显，同时，由于在与第一目标终端对应的特定对象进行点对点通话时，无需退出多人语音通话场景，可以避免丢失多人语音通话过程中的语音信息，改善了用户的体验。

本申请实施例中的音频处理装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频处理装置能够实现图1至图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图8所示，本申请实施例还提供一种电子设备800，包括处理器801和存储器802，存储器802上存储有可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现上述音频处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。

本领域技术人员可以理解，电子设备900还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输入单元904，用于在播放多人通话空间音频的情况下，接收第一输入，其中，所述多人通话空间音频包括N个终端的通话音频流，所述第一输入用于从所述N个终端中选择第一目标终端进行点对点通话，N为大于1的整数；

处理器910，用于响应于所述第一输入，增强所述多人通话空间音频中所述第一目标终端对应的通话音频流。

可选地，处理器910，还用于增大所述多人通话空间音频中所述第一目标终端对应的通话音频流的音量，减小所述多人通话空间音频中第二目标终端对应的通话音频流的音量，或不调整所述多人通话空间音频中所述第二目标终端对应的通话音频流的音量；

可选地，输入单元904，还用于获取所述N个终端的通话音频流；

为每个所述通话音频流配置一个空间方位信息，生成所述多人通话空间音频，每个所述通话音频流配置的所述空间方位信息均不同，所述空间方位信息用于表征所述通话音频流在所述多人通话空间音频中的模拟方向。

可选地，处理器910，还用于在所述播放多人通话空间音频的情况下，接收用户指向目标方位的第一输入，所述目标方位与所述第一目标终端的空间方位信息相关联。。

可选地，输入单元904，还用于在接收到所述第一目标终端发送的目标消息的情况下，向所述第一目标终端发送第一秘钥；

处理器910，还用于根据所述第一秘钥与所述第一目标终端建立加密点对点通话。

可选地，处理器910，还用于接收第二输入；

响应于所述第二输入，暂停播放所述多人通话空间音频。

需要说明的是，本实施例中上述电子设备900可以实现本申请实施例中方法实施例中的各个过程，以及达到相同的有益效果，为避免重复，此处不再赘述。

应理解的是，本申请实施例中，输入单元904可以包括图形处理器(GraphicsProcessing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072中的至少一种。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器909可以包括易失性存储器或非易失性存储器，或者，存储器909可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器909包括但不限于这些和任意其它适合类型的存储器。

处理器910可包括一个或多个处理单元；可选的，处理器910集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述增强第一目标终端对应的通话音频流，包括：

3.根据权利要求1所述的音频处理方法，其特征在于，所述多人通话空间音频的生成方式，包括：

获取所述N个终端的通话音频流；

4.根据权利要求1所述的音频处理方法，其特征在于，所述接收第一输入，包括：

5.根据权利要求1所述的音频处理方法，其特征在于，在所述增强所述多人通话空间音频中所述第一目标终端对应的通话音频流之前，所述方法，还包括：

6.根据权利要求1-5任一项所述的音频处理方法，其特征在于，在所述播放多人通话空间音频的情况下，所述方法，还包括：

接收第二输入；

响应于所述第二输入，暂停播放所述多人通话空间音频。

7.一种音频处理装置，其特征在于，包括：

8.根据权利要求7所述的音频处理装置，其特征在于，所述增强模块，还用于：

9.根据权利要求7所述的音频处理装置，其特征在于，所述装置，还包括：

数据获取模块，用于获取所述N个终端的通话音频流；

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的音频处理方法的步骤。