CN115550831A

CN115550831A - 通话音频的处理方法、装置、设备、介质及程序产品

Info

Publication number: CN115550831A
Application number: CN202210983451.6A
Authority: CN
Inventors: 马浩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-12-30

Abstract

本申请实施例公开了一种通话音频的处理方法、装置、设备、介质及程序产品，属于空间音频技术领域。该方法包括：第一终端通过至少两个麦克风实时采集用户通话时的人声，得到至少两路通话音频；基于至少两路通话音频生成空间音频数据，空间音频数据是指用户在空间中的实时位置信息的音频数据；将空间音频数据发送至第二终端。该方法实现了在实时视频通话过程中，一端终端播放来自另一端的通话音频时，对原通话音频所处空间场的还原。

Description

通话音频的处理方法、装置、设备、介质及程序产品

技术领域

本申请实施例涉及空间音频技术领域，特别涉及一种通话音频的处理方法、装置、设备、介质及程序产品。

背景技术

如今，实时视频通话技术在人们的生活与工作中被广泛地应用，比如其可以应用于在线医疗、视频会议、社交娱乐、在线教育、以及在线金融等各类场景。

在实时视频通话场景中，对于通话音频的处理，是由通话一方的终端通过麦克风采集用户的通话音频，对声音信号编码处理后，将编码得到的音频数据发送至通话另一方的终端上；通话另一方的终端在接收到上述音频数据之后，对音频数据解码得到用户的通话音频，通过扬声器对通话音频进行播放。

而通话音频一般只是传递通话时用户的言语表达的信息。

发明内容

本申请实施例提供了一种通话音频的处理方法、装置、设备、介质及程序产品。所述技术方案如下：

根据本申请的一方面内容，提供了一种通话音频的处理方法，所述方法由第一终端执行，所述第一终端的至少两个麦克风设置于不同位置上，所述方法包括：

通过所述至少两个麦克风实时采集用户通话时的人声，得到至少两路通话音频；

基于所述至少两路通话音频生成空间音频数据，所述空间音频数据是指包含用户在空间中的实时位置信息的音频数据；

将所述空间音频数据发送至第二终端，所述第二终端与所述第一终端是处于同一实时通话的用户设备。

根据本申请的另一方面内容，提供了一种通话音频的处理方法，所述方法由第二终端执行，所述第二终端的至少两个扬声器设置于不同位置上，所述方法包括：

接收第一终端发送的空间音频数据，所述空间音频数据包含用户在空间中的实时位置信息与所述用户的通话音频，所述通话音频是采集用户通话时的人声得到的，所述第一终端与所述第二终端是处于同一实时通话的用户设备；

基于所述空间音频数据，生成与所述至少两个扬声器对应的至少两声道的空间音频；

通过所述至少两个扬声器播放所述至少两声道的空间音频。

根据本申请的另一方面内容，提供了一种通话音频的处理装置，所述装置设置于第一终端中，所述第一终端的至少两个麦克风设置于不同位置上，所述装置包括：

采集模块，用于通过所述至少两个麦克风实时采集用户通话时的人声，得到至少两路通话音频；

生成模块，用于基于所述至少两路通话音频生成空间音频数据，所述空间音频数据是指包含用户在空间中的实时位置信息的音频数据；

发送模块，用于将所述空间音频数据发送至第二终端，所述第二终端与所述第一终端是处于同一实时通话的用户设备。

根据本申请的另一方面内容，提供了一种通话音频的处理装置，所述装置设置于第二终端中，所述第二终端的至少两个扬声器设置于不同位置上，所述装置包括：

接收模块，用于接收第一终端发送的空间音频数据，所述空间音频数据包含用户在空间中的实时位置信息与所述用户的通话音频，所述通话音频是采集用户通话时的人声得到的，所述第一终端与所述第二终端是处于同一实时通话的用户设备；

生成模块，用于基于所述空间音频数据，生成与所述至少两个扬声器对应的至少两声道的空间音频；

播放模块，用于通过所述至少两个扬声器播放所述至少两声道的空间音频。

根据本申请的另一方面内容，提供了一种终端，所述终端包括处理器、与所述处理器相连的存储器，所述存储器上存储有程序指令，所述处理器执行所述程序指令时实现如本申请各个方面提供的通话音频的处理方法。

根据本申请的另一方面内容，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令被处理器执行时实现如本申请各个方面提供的通话音频的处理方法。

根据本申请的另一方面内容，提供了一种计算机程序产品(或计算机程序)，所述计算机程序产品(或计算机程序)包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行上述通话音频的处理方法的各种可选实现方式中提供的方法。

根据本申请的另一个方面内容，提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片运行时，用于实现如本申请各个方面提供的通话音频的处理方法。

本申请实施例提供的技术方案带来的有益效果可以包括：

上述通话音频的处理方法中，由实时通话中的第一终端通过至少两个麦克风来采集用户通话时的人声，得到至少两路通话音频，其中至少两个麦克风设置在不同的已知位置上，因此第一终端可以基于上述至少两路通话音频确定出用户在空间的实时位置信息，从而生成包含用户的实时位置信息的空间音频数据，将这一空间音频数据发送至处于同一实时通话中的第二终端，由第二终端基于空间音频数据再现空间音频场，使得第二终端的用户可以感受到用户相对于第一终端的空间位置。

附图说明

为了更清楚地介绍本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一个示例性实施例提供的通信系统的示意图；

图2示出了本申请一个示例性实施例提供的音频通话场景的示意图；

图3示出了本申请一个示例性实施例提供的通话音频的处理方法的流程图；

图4示出了本申请另一个示例性实施例提供的通话音频的处理方法的流程图；

图5示出了本申请另一个示例性实施例提供的通话音频的处理方法的流程示意图；

图6示出了本申请另一个示例性实施例提供的通话音频的处理方法的流程图；

图7示出了本申请另一个示例性实施例提供的通话音频的处理方法的流程图；

图8示出了本申请另一个示例性实施例提供的通话音频的处理方法的流程图；

图9示出了本申请一个示例性实施例提供的通话音频的处理装置的框图；

图10示出了本申请另一个示例性实施例提供的通话音频的处理装置的框图；

图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

图1示出了本申请一个示例性实施例提供的通信系统的结构示意图。该通信系统包括第一终端110与第二终端120。

上述第一终端110与第二终端120均具备有线通信和/或无线通信的功能。可选地，第一终端110与第二终端120之间可以采用无线网络或者有线网络进行通信。示例性的，有线网络可以是城域网、局域网、光纤网等；无线网络可以是移动通信网络或者无线保真网络(Wireless Fidelity，WiFi)。

上述第一终端110与第二终端120均具备实时通话的功能。比如，上述实时通话功能包括语音通话和音视频通话中的至少一种。示例性的，第一终端110和第二终端120中均安装有操作系统。第一终端110和第二终端120中的操作系统可以相同或者不同。上述操作系统可以是安卓操作系统(Android Operating System，AndroidOS)、或鸿蒙系统(HarmonyOperating System，HarmonyOS)、或苹果操作系统(IPhone Operation System，IOS)。

第一终端110和第二终端120中均安装有支持实时通话的功能的应用程序。和/或，第一终端110和第二终端120中均安装有支持小程序运行的应用程序，该小程序具备实时通话的功能。和/或，第一终端110和第二终端120中的操作系统均支持快应用的运行，该快应用具备实时通话的功能。

上述第一终端110和第二终端120中的应用程序可以是相同版本的应用程序，或者是不同版本的应用程序。其中，相同版本的应用程序是指在同一操作系统上运行的同一发布版本的一款应用程序；不同版本的应用程序包括不同操作系统上运行的不同发布版本的一款应用程序、以及同一操作系统上运行的不同发布版本的一款应用程序。

示例性的，第一终端110包括麦克风111、处理器112、存储器113、通信组件114和扬声器115；存储器113中存储有至少一条指令，上述至少一条指令由处理器112执行以控制麦克风111来采集声音信号、控制通信组件114与第二终端120中的通信组件124之间进行有线通信或无线通信；以及控制扬声器115来播放声音信号。

第二终端120包括扬声器121、处理器122、存储器123、通信组件124和麦克风125。存储器123中存储有至少一条指令，上述至少一条指令由处理器122加载并执行以控制通信组件124与第一终端110中的通信组件114之间进行有线通信或无线通信、控制扬声器121来播放声音信号；以及控制麦克风125来采集声音信号。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端(包括用户终端)的各种功能和处理数据。

可选的，处理器可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器中，单独通过一块芯片进行实现。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音采集功能、声音播放功能、图像处理功能、信息交互功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储下面各个方法实施例中涉及到的数据等。

示例性的，通信组件可以包括以下至少一种：WiFi通信组件、移动(包括3G/4G/5G)通信组件。上述通信组件用于建立第一终端110与第二终端120之间的无线通信连接，并通过无线通信连接进行数据传输。

示例性的，上述通信系统中还包括服务器(图1中未示出)，第一终端110与服务器之间通过通信网络相连，第二终端120也与服务器之间通过通信网络连接，该通信网络可以是有线网络或者无线网络。示例性的，第一终端110和第二终端120之间可以通过服务器进行数据转发，比如第一终端110向服务器发送空间音频数据，由服务器将上述空间音频数据发送至第二终端120。示例性的，有线网络可以是城域网、局域网、光纤网等；无线网络可以是移动通信网络或者WiFi。

示例性的，第一终端110的不同位置上设置有至少两个麦克风，第二终端120的不同位置上设置有至少两个扬声器；在第一终端110与第二终端120之间建立有实时通话的情况下，第一终端110通过至少两个麦克风实时采集用户通话时的人声，得到至少两路通话音频；其中，第一终端110的至少两个麦克风的位置已知，这样，第一终端可以基于上述至少两路通话音频确定出用户在空间中相对于第一终端的实时位置，之后基于上述实时位置和上述至少两路通话音频生成空间音频数据，再将空间音频数据发送至第二终端120；第二终端120接收到空间音频数据之后，对空间音频数据进行处理，基于实时位置对至少两路通话音频进行渲染，生成与至少两个扬声器对应的至少两声道的空间音频，再通过至少两个扬声器播放至少两声道的空间音频。

示例性的，终端包括但不限于以下至少一种：智能终端、平板电脑、笔记本电脑、智能手表、电子阅读器、智能机器人以及车载设备。上述服务器可以包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。本领域技术人员可以知晓，上述通信系统中终端的数量可以更多或更少。比如，上述通信系统中终端可以仅为一个，或者为几十个或几百个，或者更多数量，本申请实施例对通信系统中终端的数量和设备类型不加以限定。

本申请提供的通话音频的处理方法，采用了空间音频进行实时通话，示例性的，其通话原理如图2所示，在第一终端与第二终端在实时通话过程中，以第一终端110为基点，第一用户围绕第一终端110运动，第一用户相对于第一终端110的位置发生变化；随着第一用户的运动，第一用户还通过第一终端110与使用第二终端120的第二用户进行实时通话，第一终端110通过至少两个麦克风分别采集第一用户的通话音频，得到至少两路通话音频；然后采用双麦克风声源定位的方式，基于至少两路通话音频进行声源定位，实际上是对第一用户的位置(包括第一用户的嘴部位置)定位，确定出第一用户相对于第一终端110的实时位置，并同时处理至少两路通话音频，将至少两路通话音频转换成至少两声道的音频信号；生成包含第一用户的实时位置信息与至少两声道的音频信号的空间音频数据，将空间音频数据发送至第二终端120；

如果第二终端120是处于外放模式，第二终端120基于上述实时位置信息对至少两声道的音频信号进行处理，生成与第二终端120的至少两个扬声器对应的至少两声道的空间音频，再通过至少两个扬声器对至少两声道的空间音频进行播放；如果是第二终端120处于耳机播放模式，第二终端120基于上述实时位置信息对至少两声道的音频信号进行处理，生成与耳机播放模式匹配的至少两声道的空间音频，再通过耳机对至少两声道的空间音频进行播放。其中，上述外放模式包括采用终端的内置扬声器进行音频播放的模式。

上述通话音频的处理方法的实现流程可以划分为三步，如图3所示：

第一步220，通话音频采集。

示例性的，第一终端110上设置有至少两个内置麦克风，至少两个内置麦克风均设置在第一终端110的长轴上，比如在图1中的第一终端110的长轴上，按照上下排列的顺序设置有三个内置麦克风。

第一终端110通过至少两个内置麦克风中的每个内置麦克风对用户通话时的人声进行实时采集，得到至少两路通话音频。示例性的，第一终端110通过每个内置麦克风采集实时通话时第一用户的语音，得到至少两路通话音频。

第二步240，音频空间处理。

第一终端110在采集得到至少两路通话音频之后，基于至少两路通话音频来计算第一用户在空间中的实时位置信息，比如第一用户的距离信息和方向信息。上述距离信息可以是指相对距离，比如第一用户相对于第一终端的距离。上述方向信息可以是指相对方向，示例性的，相对方向是指在第一终端所处位置上观察第一用户时第一终端所处的方向，比如相对方向是第一终端的西南方向；或者，上述方向信息可以是相对方位角，示例性的，相对方位角是指在第一终端所处位置上观察第一用户时第一用户所处的方位角，比如相对方向是第一终端的南偏东45度。示例性的，实时位置信息可以包括第一用户与麦克风之间的距离、以及第一用户与第一终端之间的距离中的至少一项；第一用户的方向信息可以包括第一用户相对于麦克风的方向信息、第一用户相对于第一终端的方向信息、第一用户相对于麦克风的方位角信息、以及第一用户相对于第一终端的方位角信息中的至少一项。

示例性的，由于采集用户的语音时，麦克风极可能采集到外部的环境噪音，在获得至少两路通话音频之后，第一终端首先剔除至少两路通话音频中除人声之外的环境噪音，得到包含纯净人声的至少两路通话音频；之后基于上述包含纯净人声的至少两路通话音频，生成空间音频。

示例性的，在采集到至少两路通话音频的情况下，第一终端110基于至少两路通话音频计算第一用户相对于第一终端110的实时位置信息，比如计算第一用户与第一终端110之间的距离、以及第一用户相对于第一终端110的方向，如第一用户在第一终端110的左前方3米的位置上。

示例性的，在采集到至少三路通话音频的情况下，第一终端110基于至少三路通话音频中的每两路通话音频确定一组空间位置信息，得到至少两组空间位置信息；基于至少两组空间位置信息生成第一用户的实时位置信息。比如，空间位置信息包括第一用户相对于第一终端110的位置信息和方向信息，对至少两组空间位置信息中的位置信息和方向信息分别求均值，得到一组空间位置信息作为第一用户的实时位置信息。

第一终端110还将至少两路通话音频转换生成至少两声道的音频信号。示例性的，第一终端110可以对N路通话音频处理生成N声道的音频信号，N为大于1的正整数；比如对两路通话音频降噪处理后，生成双声道的音频信号；又比如，将两路通话音频合成为单声道的音频信号后，对单声道的音频信号进行降噪处理，再从降噪后的单声道的音频信号中提取出双声道的音频信号。

或者，第一终端110可以将N路通话音频处理生成M声道的音频信号，M为大于N的正整数；比如对两路通话音频降噪处理后，生成双声道的音频信号；将双声道的音频信号合成为单声道的音频信号；将双声道的音频信号与单声道的音频信号合并，得到三声道的音频信号；又比如对上述单声道的音频信号按照频域进行划分后，剪裁出三声道的音频信号。

或者，第一终端110可以将N路通话音频处理生成P声道的音频信号，P为小于N的正整数；比如将三路通话音频降噪处理后，合成为单声道的音频信号；又比如将三路通话音频合成为单声道的音频信号后，对单声道的音频信号复制生成双声道的音频信号。

第一终端110可以采用合成、复制、以及剪切中的至少一种方式，将N路通话音频转换生成M声道的音频信号、或者N声道的音频信号、或者P声道的音频信号。

第一终端110在得到第一用户的实时位置信息和至少两声道的音频信号之后，组合生成空间音频数据。示例性的，每一个时刻上的音频信号对应一组实时位置信息，将第一用户的实时位置信息和至少两声道的音频信号按照时刻的对应关系，对齐生成空间音频数据。

后续，第一终端110将空间音频数据发送至第二终端120，第二终端与第一终端是处于同一实时通话的用户设备。示例性的，第一终端110对空间音频数据进行编码，将编码后的空间音频数据发送至第二终端120。

需要说明的是，第一用户的实时位置信息生成与至少两声道的音频信号生成的步骤可以是同时执行，也可以是顺序执行，本申请实施例中对上述二者的执行顺序不加以限定。

第三步260，音频空间还原。

第二终端120接收到空间音频数据之后，基于第一用户的实时位置信息对至少两声道的音频信号进行渲染，生成至少两声道的空间音频，之后对至少两声道的空间音频进行播放。

示例性的，空间音频数据中包含至少两声道的音频信号，在第二终端120的当前播放模式支持上述至少两声道的空间音频播放的情况下，第二终端120直接基于第一用户的实时位置信息对至少两声道的音频信号进行渲染，生成至少两声道的空间音频；在第二终端120的当前播放模式不支持上述至少两声道的空间音频播放的情况下，将至少两声道的音频信号转换生成K声道的音频信号，基于第一用户的实时位置信息对K声道的音频信号进行渲染，生成K声道的空间音频，K声道是当前播放模式下支持的声道数量，K为正整数。其中，终端的播放模式包括外放模式和外接设备播放模式中的至少一种；第二终端120在播放音频时，可以采用外放模式或外接设备播放模式，比如第二终端120采用至少两个内置扬声器播放至少两声道的空间音频；又比如第二终端120采用两个耳机扬声器播放至少两个声道的空间音频。其中，外接设备可以包括有线耳机、有线音箱、蓝牙耳机和蓝牙音箱中的至少一种。

在空间音频的生成过程中，以第一终端110为参考物，确定第一用户的实时位置信息；在空间音频的还原过程中，示例性的，第二终端120以自身所处位置以及所处方向为参考，基于第一用户的实时位置信息对至少两声道的音频信号进行渲染，生成至少两声道的空间音频，在至少两声道的空间音频中还原第一用户的实时位置信息。示例性的，第一用户朝向第一终端110的屏幕说话，第一用户在第一终端110的屏幕前方，还原生成的至少两声道的空间音频中第一用户在第二终端120的屏幕前方，也即将第二终端120看做第一终端110，还原第一用户在第一终端110的屏幕前方说话的音频场景。

综上所述，本实施例提供的通话音频的处理方法，上述通话音频的处理方法中，由实时通话中的第一终端通过至少两个麦克风来采集用户通话时的人声，得到至少两路通话音频，其中至少两个麦克风设置在不同的已知位置上，因此第一终端可以基于上述至少两路通话音频确定出用户在空间的实时位置信息，从而生成包含用户的实时位置信息的空间音频数据，将这一空间音频数据发送至处于同一实时通话中的第二终端，由第二终端基于空间音频数据再现空间音频场，使得第二终端的用户可以感受到用户相对于第一终端的空间位置。

图4示出了本申请一个示例性实施例提供的通话音频的处理方法的流程图，该方法可以应用于图1所示的第一终端中，该方法包括：

步骤320，通过至少两个麦克风实时采集用户通话时的人声，得到至少两路通话音频。

示例性的，上述至少两个麦克风为至少两个内置麦克风，至少两个内置麦克风设置于第一终端的不同位置上；比如手机终端上的内置麦克风1设置在屏幕上方，内置麦克风2设置在屏幕下方。

在已开启至少两个内置麦克风的录音功能的情况下，第一终端通过每个内置麦克风分别实时采集声源的通话音频，并对采集到的通话音频标记时间戳，以记录通话音频的采集时刻，得到至少两个内置麦克风采集到的至少两路通话音频。

步骤340，基于至少两路通话音频生成空间音频数据，空间音频数据是指包含用户在空间中的实时位置信息的音频数据。

示例性的，由于通话音频的采集环境中可能存在大量环境噪声，因此第一终端在采集得到至少两路通话音频后，首先对至少两路通话音频进行降噪处理，得到降噪后的至少两路通话音频，之后基于降噪后的至少两路通话音频生成空间音频数据。示例性的，上述环境噪声包括除人声之外的其他声音。

示例性的，在通话音频是用户间对话的情况下，为了使得通话音频中的人声更加清晰，还可以对通话音频中的人声进行增强处理，再去除增强后的至少两路通话音频中的噪声，得到降噪后的至少两路通话音频，基于降噪后的至少两路通话音频生成空间音频数据，且在人声增强处理之后，更容易分离出通话音频中的噪声，从而达到更好的去噪效果。

可选地，第一终端基于至少两路通话音频确定第一用户相对于第一终端的实时位置信息；以及将至少两路通话音频转换生成至少两声道的音频信号；基于实时位置信息与至少两声道的音频信号，生成空间音频数据。

可选地，至少两个麦克风为至少两个内置麦克风；在至少两个内置麦克风已开启录音功能的情况下，通过至少两个内置麦克风实时采集用户通话时的人声，得到至少两路通话音频。比如，在未连接有外置麦克风的情况下，仅采用内置麦克风采集人声。

示例性的，第一用户的实时位置信息包括第一用户相对于第一终端的距离信息和方向信息中的至少一项。上述距离信息可以是指相对距离；上述方向信息可以是指相对方向或者方位角。示例性的，第一用户的距离信息可以包括第一用户与麦克风之间的距离、以及第一用户与第一终端之间的距离中的至少一项；第一用户的方向信息可以包括第一用户相对于麦克风的方向信息、第一用户相对于第一终端的方向信息、第一用户相对于麦克风的方位角信息、以及第一用户相对于第一终端的方位角信息中的至少一项。

示例性的，在采集到至少三路通话音频的情况下，第一终端110还可以基于至少三路通话音频中的每两路通话音频确定一组空间位置信息，得到至少两组空间位置信息；基于至少两组空间位置信息生成第一用户的实时位置信息。比如，空间位置信息包括声源相对于第一终端的位置信息和方向信息，对至少两组空间位置信息中的位置信息和方向信息分别求均值，得到一组空间位置信息作为第一用户的实时位置信息。

示例性的，第一终端仅采用内置麦克风的位置来确定第一用户的实时位置信息。或者，第一终端采用内置麦克风和外置麦克风的位置来确定第一用户的实时位置，其中，可以基于外置麦克风的连接方式来确定外置麦克风与第一用户的发声部位的预设位置关系，然后基于内置麦克风的已知位置和预设位置关系，确定第一用户的实时位置信息；比如连接了有线耳机时，预设位置关系包括有线耳机上的麦克风与用户的发声部位之间的距离。

示例性的，第一终端可以对N路通话音频处理生成N声道的音频信号，N为大于1的正整数；或者，将N路通话音频处理生成M声道的音频信号，M为大于N的正整数；或者，将N路通话音频处理生成P声道的音频信号，P为小于N的正整数。

第一终端在生成实时位置信息与至少两声道的音频信号之后，生成包含至少两声道的音频信号与实时位置信息的空间音频数据。示例性的，第一终端将第一用户的实时位置信息和至少两声道的音频信号组合生成空间音频数据；比如可以按照时间戳的对应关系对第一用户的实时位置信息与至少两声道的音频信号进行组合。示例性的，至少两路通话音频中每100毫秒(ms)的音频片段对应计算出一组实时位置信息，将该100ms内的音频片段与该组实时位置信息对应组合。

步骤360，将空间音频数据发送至第二终端。

第一终端通过有线通信或者无线通信，将空间音频数据发送至第二终端。第二终端是与第一终端处于同一实时通话中的用户设备，比如第二终端是与第一终端进行语音通话或音视频通话的终端。可选地，第二终端包括至少一个，也即第二终端可以是一个或者两个及两个以上。

示例性的，第一终端对空间音频数据进行编码，将编码后的空间音频数据发送至第二终端。

综上所述，本实施例提供的通话音频的处理方法，由实时通话中的第一终端通过至少两个麦克风来采集第一用户的语音，得到至少两路通话音频，其中至少两个麦克风设置在该终端的不同位置上，因此该终端可以基于上述至少两路通话音频确定出第一用户的实时位置信息，从而生成包含第一用户的实时位置信息的空间音频数据，将这一空间音频数据发送至通话中的第二终端，由第二终端基于空间音频数据再现空间音频场，使得第二终端播放的空间音频还原出声源传播至第一终端时的音效，在第一用户使用第一终端与第二用户对话的情境下，使得使用第二终端的第二用户有与第一用户面对面对话的这种身临其境的感受。

在对用户语音的实时采集与传输场景中，第一用户的位置有时是连续变化的，有时是不连续变化的，第一终端可以在第一用户的位置发生变化时，向第二终端更新第一用户的位置信息，而在第一用户的位置不发生变化时，不向第二终端更新第一用户的位置信息。

因此，上述步骤340可以实现成为步骤342至步骤346，如图5所示，步骤如下：

步骤342，基于第一时刻上的至少两路通话音频，确定用户在第一时刻上相对于第一终端的第一实时位置信息；以及将至少两路通话音频转换成至少两声道的音频信号。

步骤344，响应于第一实时位置信息与第二实时位置信息不同，生成包含至少两声道的音频信号与第一实时位置信息的第一空间音频数据。

第一终端对比第一实时位置信息与第二实时位置信息，在第一实时位置信息与第二实时位置信息不同的情况下，生成包含至少两声道的音频信号与第一实时位置信息的第一空间音频数据。

其中，第二实时位置信息是用户在第二时刻上相对于第一终端的实时位置信息，第二时刻是第一时刻的上一时刻。

步骤346，响应于第一实时位置信息与第二实时位置信息相同，生成包含至少两声道的音频信号的第二空间音频数据。

其中，第二空间音频数据用于指示第二终端采用第二时刻上的第二实时位置信息渲染生成空间音频。

在另一些实施例中，第一实时位置信息与第二实时位置信息之间的位置变化大于变化阈值，这是无法忽视掉的位置变化，第一终端生成包含至少两声道的音频信号与第一实时位置信息的第一空间音频数据。示例性的，第一实时位置信息与第二实时位置信息之间的位置变化大于变化阈值，可以是相对距离的距离变化大于距离变化阈值，和/或，相对方向的方向变化大于方向变化阈值。

第一实时位置信息与第二实时位置信息之间的位置变化小于或等于变化阈值，这是可以忽视掉的位置变化，第一终端生成包含至少两声道的音频信号的第二空间音频数据。示例性的，第一实时位置信息与第二实时位置信息之间的位置变化小于或等于变化阈值，可以是相对距离的距离变化小于或等于距离变化阈值，且相对方向的方向变化小于或等于方向变化阈值。

综上所述，本实施例提供的通话音频的处理方法，当前时刻第一用户的实时位置信息发生变化，第一终端会向第二终端更新第一用户的实时位置信息，当前时刻第一用户的实时位置信息未发生变化，则不更新第二终端中的第一用户的实时位置信息，使第二终端仍采用上一时刻的实时位置信息，能够保证空间音频的还原，同时还能够减少了实时通话过程中的传输资源占用。

还存在一种情况，第一终端连接有至少一个外置麦克风，比如第一终端上连接了有线耳机，有线耳机上配置有一个麦克风，这一麦克风即是第一终端上连接的外置麦克风。一般情况下，第一终端在连接了外置麦克风的情况下，停用第一终端的内置麦克风，本申请实施例中第一终端则会同时启用内置麦克风与外置麦克风，如图6所示，是本申请一个示例性实施例提供的通话音频的处理方法的流程图，其对上述这一情况下的方法实现进行了说明，该方法可以应用于图1所示的第一终端中，该方法包括：

步骤400，通过至少两个内置麦克风实时采集用户通话时的人声，得到至少两路通话音频。

第一终端的至少两个内置麦克风设置于不同位置上；比如手机终端上的内置麦克风1设置在屏幕上方，内置麦克风2设置在屏幕下方。

在已开启至少两个内置麦克风的录音功能的情况下，第一终端通过每个内置麦克风分别实时采集实时通话时的用户语音，并对采集到的通话音频标记时间戳，以记录通话音频的采集时刻，得到至少两个内置麦克风采集到的至少两路通话音频。

步骤420，通过至少一个外置麦克风实时采集用户通话时的人声，得到至少一路通话音频，至少一路通话音频是与至少两路通话音频同一时刻采集得到的通话音频。

第一终端启用至少一个外置麦克风的录音功能，在通过内置麦克风采集通话音频的同时，还通过外置麦克风采集实时通话时的用户语音，得到至少一路通话音频。

步骤440，基于至少两路通话音频，确定用户在空间中相对于第一终端的实时位置信息。

可选地，第一用户的实时位置信息包括第一用户相对于第一终端的距离信息和方向信息中的至少一项。示例性的，上述距离信息可以是指相对距离；上述方向信息可以是指相对方向或者方位角。比如，第一用户的距离信息可以包括第一用户与麦克风之间的距离、以及第一用户与第一终端之间的距离中的至少一项；第一用户的方向信息可以包括第一用户相对于麦克风的方向信息、第一用户相对于第一终端的方向信息、第一用户相对于麦克风的方位角信息、以及第一用户相对于第一终端的方位角信息中的至少一项。

步骤460，基于至少一路通话音频与第一用户的实时位置信息，生成空间音频数据。

示例性的，第一终端将至少一路通话音频与第一用户的实时位置信息组合生成空间音频数据，其中，空间音频数据包含了至少一路通话音频与第一用户的实时位置信息。比如第一终端对外置麦克风采集的一路通话音频进行降噪处理，得到降噪后的单声道的通话音频，生成包含单声道的通话音频和实时位置信息的空间音频数据。

或者，第一终端基于至少一路通话音频转换生成至少两声道的音频信号，生成包含至少两声道的音频信号与实时位置信息的空间音频数据。比如第一终端对外置麦克风采集的一路通话音频进行降噪处理，得到单声道的通话音频，将单声道的通话音频进行复制或者按照频段进行剪切，生成双声道的音频信号；生成包含双声道的音频信号和实时位置信息的空间音频数据。

需要说明的是，在将至少一路通话音频转换生成至少两声道的音频信号的情况下，对于至少两声道的音频信号的生成，可以与步骤440同时执行，或者与步骤440顺序执行，之后再基于至少两声道的音频信号和实时位置信息，生成空间音频数据。

在一些实施例中，第一终端还可以基于至少两路通话音频与至少一路通话音频，来生成单声道的音频信号或者多声道的音频信号，多声道是指两个及以上的声道。比如，第一终端对至少两路通话音频与至少一路通话音频进行合成，生成单声道的音频信号；基于单声道的音频信号与空间信息，生成空间音频数据。又比如，第一终端将每路通话音频作为一个声道的音频信号，对至少两路通话音频与至少一路通话音频组合，生成至少三声道的音频信号；基于至少三声道的音频信号与空间信息，生成空间音频数据。又比如，第一终端对至少两路通话音频与至少一路通话音频进行合成，生成单声道的音频信号；按照预设的至少两个频段对单声道的音频信号进行剪切，生成至少两声道的音频信号；基于至少两声道的音频信号与空间信息，生成空间音频数据。

步骤480，将空间音频数据发送至第二终端。

第一终端通过有线通信或者无线通信，将空间音频数据发送至第二终端。第二终端是与第一终端处于同一实时通话中的用户设备，比如第二终端是与第一终端进行实时通话或实时视频通话的终端。可选地，第二终端包括至少一个，也即第二终端可以是一个或者两个及两个以上。

示例性的，手机终端上设置有两个内置麦克风，手机终端上连接有一副耳机，耳机上设置有一个外置麦克风，对通话音频的处理方法进行举例说明，可以包括如图7所示流程中的步骤，如下：

步骤41，开启耳机的录音功能。

步骤42，通过耳机上的外置麦克风采集通话音频。

步骤43，开启手机终端的录音功能。

步骤44，通过手机终端的至少两个内置麦克风采集两路通话音频；基于两路通话音频计算第一用户的实时位置信息；生成包含实时位置信息与两路通话音频的空间音频数据。

步骤45，对外置麦克风采集到的通话音频与内置麦克风采集到的两路通话音频、以及第一用户的实时位置信息进行信息叠加，生成空间音频数据。

步骤46，向第二终端发送空间音频数据。

在另一些实施例中，第一终端基于第一时刻上的至少两路通话音频，确定用户在第一时刻上相对于第一终端的第一实时位置信息；响应于第一实时位置信息与第二实时位置信息不同，生成包含至少一路通话音频与第一实时位置信息的第一空间音频数据；或者，响应于第一实时位置信息与第二实时位置信息不同，生成包含至少一路通话音频的第二空间音频数据。

或者，第一终端基于第一时刻上的至少两路通话音频，确定用户在第一时刻上相对于第一终端的第一实时位置信息，以及将至少一路通话音频转换成至少两声道的音频信号；响应于第一实时位置信息与第二实时位置信息不同，生成包含至少两声道的音频信号与第一实时位置信息的第一空间音频数据；或者，响应于第一实时位置信息与第二实时位置信息不同，生成包含至少两声道的音频信号的第二空间音频数据。

其中，第二实时位置信息是用户在第二时刻上相对于第一终端的实时位置信息，第二时刻是第一时刻的上一时刻；第二空间音频数据用于指示第二终端采用第二时刻上的第二实时位置信息渲染生成空间音频。

也即，在第一用户的实时位置信息发生变化时，向第二终端更新第一用户的实时位置信息；否则，不向第二终端更新第一用户的实时位置信息，以减少了实时通话过程中的传输资源占用。

综上所述，本实施例提供的通话音频的处理方法，由实时通话中的第一终端通过至少两个内置麦克风来采集声源的至少两路通话音频，其中至少两个内置麦克风设置在该的第一终端内的不同位置上，因此该第一终端可以基于上述至少两路通话音频确定出第一用户的实时位置信息；还通过外置麦克风采集至少一路通话音频，然后基于至少一路通话音频与实时位置信息，生成包含了实时位置信息的空间音频数据，将这一空间音频数据发送至实时通话中的第二终端，由第二终端基于空间音频数据再现空间音频场，使得第二终端播放的空间音频还原出人声传播至第一终端时的音效，在第一用户使用第一终端与第二用户对话的情境下，使得使用第二终端的第二用户有与第一用户面对面对话的这种身临其境的感受。

其次，由于外置麦克风通常是专门连接到终端上，以更靠近用户的发声部位，从而采用外置麦克风采集到的通话音频质量更优，因此采用外置麦克风采集的通话音频生成空间音频数据，能够提高空间音频的质量。

如上所示，在第一终端未连接外置麦克风的情况下，可以采用图4所示的实施例；在第一终端连接了外置麦克风的情况下，可以采用图5所示的实施例。

图8示出了本申请一个示例性实施例提供的通话音频的处理方法的流程图，该方法可以应用于图1所示的第二终端中，该方法包括：

步骤620，接收第一终端发送的空间音频数据，包含用户在空间中的实时位置信息与用户的通话音频，通话音频是采集用户通话时的人声得到的，第一终端与第二终端是处于同一实时通话的用户设备。

示例性的，第二终端通过有线网络或者无线网络，接收第一终端发送的空间音频数据。

步骤640，基于空间音频数据，生成与至少两个扬声器对应的至少两声道的空间音频。

可选地，空间音频数据包括第一用户的实时位置信息和至少两声道的音频信号；第二终端采用实时位置信息对至少两声道的音频信号进行渲染，生成至少两声道的空间音频。

可选地，空间音频数据包括第一用户的实时位置信息和至少一路通话音频；第二终端基于至少一路通话音频，生成与至少两个内置扬声器对应的至少两声道的音频信号；采用实时位置信息对至少两声道的音频信号对至少两声道的音频信号进行渲染，生成至少两声道的空间音频。

示例性的，第二终端响应于第一时刻的空间音频数据包含至少两声道的音频信号和第一实时位置信息，将第一用户的实时位置信息从第二实时位置信息更新为第一实时位置信息；采用第一实时位置信息对至少两声道的音频信号进行渲染，生成至少两声道的空间音频。响应于第一时刻的空间音频数据包含至少两声道的音频信号，获取第二实时位置信息；采用第二实时位置信息对至少两声道的音频信号进行渲染，生成至少两声道的空间音频。其中，第一实时位置信息是用户在第一时刻上相对于第一终端的实时位置信息；第二实时位置信息是用户在第二时刻上相对于第一终端的实时位置信息，第二时刻是第一时刻的上一时刻。

示例性的，第二终端响应于第一时刻的空间音频数据包含至少一路通话音频和第一实时位置信息，将第一用户的实时位置信息从第二实时位置信息更新为第一实时位置信息；以及基于至少一路通话音频生成至少两声道的音频信号；采用第一实时位置信息对至少两声道的音频信号进行渲染，生成至少两声道的空间音频。响应于第一时刻的空间音频数据包含至少一路通话音频，获取第二实时位置信息，以及基于至少一路通话音频生成至少两声道的音频信号；采用第二实时位置信息对至少两声道的音频信号进行渲染，生成至少两声道的空间音频。其中，第一实时位置信息是用户在第一时刻上相对于第一终端的实时位置信息；第二实时位置信息是用户在第二时刻上相对于第一终端的实时位置信息，第二时刻是第一时刻的上一时刻。

示例性的，第二终端获取音频播放的当前声道模式，确定空间音频数据中的音频信号的声道模式不符合上述当前声道模式，对音频信号进行转换处理，生成与当前声道数量匹配的多声道的音频信号，然后基于实时位置信息对多声道的音频信号进行渲染，生成多声道的空间音频；确定空间音频数据中的音频信号的声道模式符合上述当前声道模式，直接基于实时位置信息对各个声道的音频信号进行渲染，生成多声道的空间音频。

示例性的，当前声道模式是基于第二终端的内置扬声器的数量确定的；或者，当前声道模式是基于第二用户的选择设置确定的，且当前声道模式下的采用的声道数量小于或者等于第二终端的内置扬声器的数量。

步骤660，通过至少两个扬声器播放至少两声道的空间音频。

在一些实施例中，第二终端还可以通过外置扬声器来播放至少两声道的空间音频，比如耳机；此时的至少两声道的空间音频是基于耳机的声道模式生成的。

综上所述，本实施例提供的通话音频的处理方法，由实时通话中的第一终端通过至少两个麦克风来采集用户语音，得到至少两路通话音频，其中至少两个麦克风设置在该第一终端内的不同位置上，因此该第一终端可以基于上述至少两路通话音频确定出第一用户的实时位置信息，生成包含了实时位置信息的空间音频数据，将这一空间音频数据发送至实时通话中的第二终端，由第二终端基于空间音频数据再现空间音频场，使得第二终端播放的空间音频还原出人声传播至第一终端时的音效，在第一用户使用第一终端与第二用户对话的情境下，使得使用第二终端的第二用户有与第一用户面对面对话的这种身临其境的感受。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图9示出了本申请一个示例性实施例提供的通话音频的处理装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为第一终端的全部或一部分，第一终端的至少两个麦克风设置于不同位置上。该装置包括：

采集模块720，用于通过所述至少两个麦克风实时采集用户通话时的人声，得到至少两路通话音频；

生成模块740，用于基于所述至少两路通话音频生成空间音频数据，所述空间音频数据是指包含用户在空间中的实时位置信息的音频数据；

发送模块760，用于将所述空间音频数据发送至第二终端，所述第二终端与所述第一终端是处于同一实时通话的用户设备。

在一些实施例中，生成模块740，用于：

基于所述至少两路通话音频，确定所述用户在空间中相对于所述第一终端的所述实时位置信息；以及

将所述至少两路通话音频转换成至少两声道的音频信号；

基于所述实时位置信息与所述至少两声道的音频信号，生成所述空间音频数据。

在一些实施例中，生成模块740，用于：

基于第一时刻上的所述至少两路通话音频，确定所述用户在所述第一时刻上相对于所述第一终端的第一实时位置信息；以及

将所述至少两路通话音频转换成至少两声道的音频信号；

响应于所述第一实时位置信息与第二实时位置信息不同，生成包含所述至少两声道的音频信号与所述第一实时位置信息的第一空间音频数据；其中，所述第二实时位置信息是所述用户在第二时刻上相对于所述第一终端的实时位置信息，所述第二时刻是所述第一时刻的上一时刻。

在一些实施例中，生成模块740，用于：

将所述至少两路通话音频转换成至少两声道的音频信号；

响应于所述第一实时位置信息与所述第二实时位置信息相同，生成包含所述至少两声道的音频信号的第二空间音频数据，所述第二空间音频数据用于指示所述第二终端采用所述第二时刻上的所述第二实时位置信息渲染生成空间音频。

在一些实施例中，所述第一用户的实时位置信息包括所述用户相对于所述第一终端的距离信息与方向信息中至少一项。

在一些实施例中，所述至少两个麦克风为至少两个内置麦克风；

生成模块740，用于在所述至少两个内置麦克风已开启录音功能的情况下，通过所述至少两个内置麦克风实时采集用户通话时的人声，得到所述至少两路通话音频。

在一些实施例中，所述第一终端还连接有至少一个外置麦克风；

采集模块720，用于在所述至少一个外置麦克风与所述至少两个内置麦克风均已开启录音功能的情况下，通过所述至少一个外置麦克风实时采集用户通话时的人声，得到至少一路通话音频；以及通过所述至少两个内置麦克风实时采集用户通话时的人声，得到所述至少两路通话音频；其中，所述至少一路通话音频是与所述至少两路通话音频同一时刻采集得到的通话音频；

生成模块740，用于基于所述至少两路通话音频，确定所述用户在空间中相对于所述第一终端的所述实时位置信息；基于所述至少一路通话音频与所述实时位置信息，生成所述空间音频数据；

发送模块760，用于将所述空间音频数据发送至第二终端。

图10示出了本申请一个示例性实施例提供的通话音频的处理装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为第二终端的全部或一部分，第二终端的至少两个扬声器设置于不同位置上。该装置包括：

接收模块920，用于接收第一终端发送的空间音频数据，所述空间音频数据包含用户在空间中的实时位置信息与所述用户的通话音频，所述通话音频是采集用户通话时的人声得到的，所述第一终端与所述第二终端是处于同一实时通话的用户设备；

生成模块940，用于基于所述空间音频数据，生成与所述至少两个扬声器对应的至少两声道的空间音频；

播放模块960，用于通过所述至少两个扬声器播放所述至少两声道的空间音频。

在一些实施例中，所述空间音频数据包括所述第一用户的实时位置信息和至少两声道的音频信号；

生成模块940，用于采用所述实时位置信息对所述至少两声道的音频信号进行渲染，生成所述至少两声道的空间音频。

在一些实施例中，所述空间音频数据包括所述第一用户的实时位置信息和至少一路通话音频；

生成模块940，用于基于所述至少一路通话音频，生成与所述至少两个内置扬声器对应的至少两声道的音频信号；采用所述实时位置信息对所述至少两声道的音频信号进行渲染，生成所述至少两声道的空间音频。

在一些实施例中，所述第一用户的实时位置信息包括所述用户相对于所述第一终端的距离信息与方向信息中的至少一项。

图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是执行如本申请提供的通话音频的处理方法的设备。示例性的，该计算机设备可以是第一终端或第二终端。具体来讲：

计算机设备1000包括中央处理单元(CPU，Central Processing Unit)1001、包括随机存取存储器(RAM，Random Access Memory)1002和只读存储器(ROM，Read OnlyMemory)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行，以实现如上所述的通话音频的处理方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的通话音频的处理方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

需要说明的是：上述实施例提供的通话音频的处理装置在执行通话音频的处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的通话音频的处理装置与通话音频的处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的能够实现的示例性的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种通话音频的处理方法，其特征在于，所述方法由第一终端执行，所述第一终端的至少两个麦克风设置于不同位置上，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少两路通话音频生成空间音频数据，包括：

将所述至少两路通话音频转换成至少两声道的音频信号；

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少两路通话音频，确定所述用户在空间中相对于所述第一终端的所述实时位置信息，包括：

基于第一时刻上的所述至少两路通话音频，确定所述用户在所述第一时刻上相对于所述第一终端的第一实时位置信息；

所述基于所述实时位置信息与所述至少两声道的音频信号，生成所述空间音频数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述实时位置信息包括所述用户相对于所述第一终端的距离信息与方向信息中至少一项。

6.根据权利要求1至4任一所述的方法，其特征在于，所述至少两个麦克风为至少两个内置麦克风；

所述通过所述至少两个麦克风实时采集用户通话时的人声，得到至少两路通话音频，包括：

在所述至少两个内置麦克风已开启录音功能的情况下，通过所述至少两个内置麦克风实时采集用户通话时的人声，得到所述至少两路通话音频。

7.根据权利要求5所述的方法，其特征在于，所述第一终端还连接有至少一个外置麦克风；

所述方法还包括：

在所述至少一个外置麦克风与所述至少两个内置麦克风均已开启录音功能的情况下，通过所述至少一个外置麦克风实时采集用户通话时的人声，得到至少一路通话音频；以及

通过所述至少两个内置麦克风实时采集用户通话时的人声，得到所述至少两路通话音频；其中，所述至少一路通话音频是与所述至少两路通话音频同一时刻采集得到的通话音频；

基于所述至少两路通话音频，确定所述用户在空间中相对于所述第一终端的所述实时位置信息；

基于所述至少一路通话音频与所述实时位置信息，生成所述空间音频数据；

将所述空间音频数据发送至第二终端。

8.一种通话音频的处理方法，其特征在于，所述方法由第二终端执行，所述第二终端的至少两个扬声器设置于不同位置上，所述方法包括：

通过所述至少两个扬声器播放所述至少两声道的空间音频。

9.根据权利要求8所述的方法，其特征在于，所述空间音频数据包括所述实时位置信息和至少两声道的音频信号；

所述基于所述空间音频数据，生成与所述至少两个内置扬声器对应的至少两声道的空间音频，包括：

采用所述实时位置信息对所述至少两声道的音频信号进行渲染，生成所述至少两声道的空间音频。

10.根据权利要求8所述的方法，其特征在于，所述空间音频数据包括所述实时位置信息和至少一路通话音频；

基于所述至少一路通话音频，生成与所述至少两个内置扬声器对应的至少两声道的音频信号；

11.根据权利要求8至10任一所述的方法，其特征在于，所述实时位置信息包括所述用户相对于所述第一终端的距离信息与方向信息中的至少一项。

12.一种通话音频的处理装置，其特征在于，所述装置设置于第一终端中，所述第一终端的至少两个麦克风设置于不同位置上，所述装置包括：

13.一种通话音频的处理装置，其特征在于，所述装置设置于第二终端中，所述第二终端的至少两个扬声器设置于不同位置上，所述装置包括：

14.一种终端，其特征在于，所述终端包括处理器、与所述处理器相连的存储器，所述存储器上存储有程序指令，所述处理器执行所述程序指令时实现如权利要求1至7任一所述的通话音频的处理方法，或者，如权利要求8至11任一所述的通话音频的处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，所述程序指令被处理器执行时实现如权利要求1至7任一所述的通话音频的处理方法，或者，如权利要求8至11任一所述的通话音频的处理方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至7任一所述的通话音频的处理方法，或者，如权利要求8至11任一所述的通话音频的处理方法。