CN113973103B

CN113973103B - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN113973103B
Application number: CN202111250020.0A
Authority: CN
Inventors: 李楠; 张晨; 陈翔宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2024-03-12
Anticipated expiration: 2041-10-26
Also published as: CN113973103A

Abstract

本公开关于一种音频处理方法、装置、电子设备及存储介质，所述音频处理方法包括：接收用于从多个对象中选择至少一个对象的输入，其中，每个对象对应一路音频信号；根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，其中，所述多路音频信号包括与选择的所述至少一个对象对应的各路音频信号以及与未被选择的对象对应的各路音频信号；利用分配的权重对所述多路音频信号进行混音，得到混音后的音频。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及信号处理领域，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

实时通讯(RTC)近年来被广泛应用于在线课堂、在线报告厅等多人通话场景，在这些场景中，频繁存在多人同时说话的情况，如在线课堂中的学生齐声朗读场景，在线报告厅的自由讨论场景。此时，某些参会者有时需要特别关注某个或某几个人的说话内容，同时也不能错过其他人的信息。但是，目前针对类似这种需求多是通过主持人模式关闭不想关注的人的语音信号传输，仅保留想要关注的人的语音信号。然而，这样的处理方式在人数较多的情况下不仅需要大量操作，而且一般只对主持人开放此权限，另外，被关闭信号的人的语音完全无法传输，可能导致漏掉一些关键信息，造成沟通不畅，从而导致RTC音频体验较差。

发明内容

本公开提供一种音频处理方法、装置电子设备及存储介质，以至少解决相关技术中的上述RTC音频体验较差的问题。

根据本公开实施例的第一方面，提供了一种音频处理方法，所述音频处理方法包括：接收用于从多个对象中选择至少一个对象的输入，其中，每个对象对应一路音频信号；根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，其中，所述多路音频信号包括与选择的所述至少一个对象对应的各路音频信号以及与未被选择的对象对应的各路音频信号；利用分配的权重对所述多路音频信号进行混音，得到混音后的音频。

可选地，所述根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，包括：根据接收到的所述输入选择与所述至少一个对象对应的各路音频信号；根据选择的与所述至少一个对象对应的各路音频信号的第一总音频路数以及与未被选择的对象对应的各路音频信号的第二总音频路数分别为所述多路音频信号分配各自的权重。

可选地，所述根据选择的与所述至少一个对象对应的各路音频信号的第一总音频路数以及与未被选择的对象对应的各路音频信号的第二总音频路数分别为所述多路音频信号分配各自的权重，包括：确定预设关注度参数，其中，所述预设关注度参数与在混音后的音频中与所述至少一个对象对应的各路音频信号的总音量和与未被选择的对象对应的各路音频信号的总音量之间的预设的音量差有关；根据所述预设关注度参数、所述第一总音频路数以及所述第二总音频路数，确定与所述至少一个对象对应的各路音频信号的权重；将与未被选择的对象对应的各路音频信号的权重设置为1。

可选地，与所述至少一个对象对应的各路音频信号的权重被确定为所述第二总音频路数与所述第一总音频路数的比值与确定的所述预设关注度参数的乘积。

可选地，利用分配的权重对所述多路音频信号进行混音，得到混音后的音频，包括：通过利用分配的权重对所述多路音频信号进行加权求和来对所述多路音频信号进行混音，得到混音后的音频。

可选地，所述音频处理方法还包括：对得到的混音后的音频进行限幅处理。

可选地，所述音频处理方法还包括：在所述第一总音频路数以及所述第二总音频路数发生变化时，对混音后的音频进行平滑处理。

可选地，所述音频处理方法还包括：突出显示选择的对象，其中，所述对象包括指示产生各路音频信号的账号的标识。

根据本公开实施例的第二方面，提供了一种音频处理装置，所述音频处理装置包括：输入接收单元，被配置为接收用于从多个对象中选择至少一个对象的输入，其中，每个对象对应一路音频信号；权重分配单元，被配置为根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，其中，所述多路音频信号包括与选择的所述至少一个对象对应的各路音频信号以及与未被选择的对象对应的各路音频信号；混音单元，被配置为利用分配的权重对所述多路音频信号进行混音，得到混音后的音频。

可选地，所述音频处理装置还包括：限幅单元，被配置为对得到的混音后的音频进行限幅处理。

可选地，所述音频处理装置还包括：平滑处理单元，被配置为在所述第一总音频路数以及所述第二总音频路数发生变化时，对混音后的音频进行平滑处理。

可选地，所述音频处理装置还包括：显示单元，被配置为突出显示选择的对象，其中，所述对象包括指示产生各路音频信号的账号的标识。

根据本公开实施例的第三方面，提供了一种电子设备，其特征在于，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。

根据本公开实施例的第四方面，提供了一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如上所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：根据本公开实施例的音频处理方法，通过接收用于从多个对象中选择至少一个对象的输入(每个对象对应一路音频信号)，根据接收到的输入分别为与所述多个对象对应的多路音频信号分配各自的权重，并利用分配的权重对所述多路音频信号进行混音，使得不仅能够让用户方便地主动选择期望更多关注的音频信号，而且同时也能够保留与未被选择的对象对应的音频信号而不会漏掉关键信息，从而提高了多人实时通讯时的音频体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的示例实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开的示例性实施例可以应用于其中的示例性系统架构；

图2是本公开示例性实施例的音频处理方法的流程图；

图3是示出本公开示例性实施例的选择用户的方式的示意图；

图4是示出本公开示例性实施例的音频处理方法的示意图；

图5是示出本公开示例性实施例的音频处理装置的框图；

图6是根据本公开示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1示出了本公开的示例性实施例可以应用于其中的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息(例如视频数据上传请求、视频数据下载请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如音视频通信软件、音视频录制软件、即使通信软件、会议软件、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且能够进行音视频播放、录制、编辑等的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备101、102、103可以安装有图像采集装置(例如摄像头)，以采集视频数据。实践中，组成视频的最小视觉单位是帧(Frame)。每一帧是一幅静态的图像。将时间上连续的帧序列合成到一起便形成动态视频。此外，终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬声器)以播放声音，并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如，麦克风)以采集声音。另外，终端设备101、102、103之间可彼此进行语音通信或视频通信。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上所安装的多媒体应用提供支持的后台服务器。后台服务器可以对所接收到的音视频数据上传请求等数据进行解析、存储等处理，并且还可以接收终端设备101、102、103所发送的音视频数据下载请求，并将该音视频数据下载请求所指示的音视频数据反馈至终端设备101、102、103。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的音频处理方法通常由终端设备执行，但是也可由服务器执行，或者也可以由终端设备和服务器协作执行。相应地，音频处理装置可设置在终端设备中、服务器中或者设置在终端设备和服务器两者中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本公开对此并无限制。

图2是本公开示例性实施例的音频处理方法的流程图。参照图2，在步骤S210，接收从多个对象中选择至少一个对象的输入。这里，每个对象对应一路音频信号。作为示例，所述对象可以包括产生各路音频信号的账户的标识，但不限于此，例如，所述对象还可以包括各路音频信号的产生者的标识。标识例如可以是图标，但不限于此。例如，在多人通话的会议场景中，每个账号都可登录自己的账号来参与会议，此时，可以在用户界面上显示多个账号的各自的标识或每个参考着的头像。图3是示出本公开示例性实施例的选择对象的方式的示意图。例如，在多人会议场景中，在RTC系统启动后，用户会收到若干路音频，记作speech₁(t)，speech₂(t)，speech₃(t)，…，speech_N(t)，总共N路音频信号，即个参会人发送过来的语音，其中，t为时间标记。用户可随时通过用户界面上的选项选择期望关注的对象。由于每个对象对应一路音频信号，因此，通过选择对象可以选择期望关注的音频信号。例如，如图3所示，每个用户的用户界面上均可显示所有参会者的头像，用户可以通过点击至少一个参会者的头像的方式来选择至少一路音频信号。此外，尽管图2中未示出，但是可选地，图2所示的方法还可包括：突出显示选择的对象，例如，将选择的对象相比于未被选择的对象放大显示。需要说明的是，图3示出的仅是本公开示例性实施例的选择对象的一种方式，然而，本公开选择对象的方式不限于此，而是可根据需要使用任何一种能够选择对象的方式。

返回参照图2，在接收到用于从多个对象中选择至少一个对象的输入之后，在步骤S220，可根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，这里，所述多路音频信号包括与选择的所述至少一个对象对应的各路音频信号以及与未被选择的对象对应的各路音频信号。

图4是示出本公开示例性实施例的音频处理方法的示意图。根据本公开示例性实施例，如图4所示，在步骤S220，可首先根据接收到的所述输入选择与所述至少一个对象对应的各路音频信号(也可被称为“焦点选取”)，例如，多人会议中期望重点关注的一个或多个参会者的音频信号。

通过选择对象，所有音频被分为两个集合，即，与被选择的对象对应的各路音频信号的集合和与未被选择的对象对应的各路音频信号的集合(也可被称为普通集合)，分别记作：

FOCUS(t)＝{speech_x1(t)，speech_x2(t)，speech_x3(t)，......，speech_xA(t)|1≤x1≤N，1≤x2≤N，1≤x3≤N，......，1≤xA≤N}

FOCUS(t)即为t时刻被选择的各路音频信号的集合，该集合总共A路音频信号；

COMMON(t)＝{speech_y1(t)，speech_y2(t)，speech_y3(t)，......，speech_yB(t)|1≤y1≤N，1≤y2≤N，1≤y3≤N，......，1≤yB≤N}

COMMON(t)即为t时刻未被选择的各路音频信号的集合，该集合共B路音频信号，两个集合的总音频路数存在如下关系A+B＝N，其中，A是与被选择的对象对应的各路音频信号的总音频路数(在下文中，称为“第一总音频路数”)，B是与未被选择的对象对应的各路音频信号的总音频路数(在下文中称为“第二总音频路数”)。

然后，可根据选择的与所述至少一个对象对应的各路音频信号的第一总音频路数以及与未被选择的对象对应的各路音频信号的第二总音频路数分别为所述多路音频信号分配各自的权重。这种权重分配方式可以保证与被选择的对象对应的各路音频信号的总音量和与未被选择的对象对应的各路音频信号的总音量维持一个理论上平稳的比例。

具体地，例如，首先，可确定预设关注度参数，这里，所述预设关注度参数与在混音后的音频中与所述至少一个对象对应的各路音频信号的总音量和与未被选择的对象对应的各路音频信号的总音量之间的预设的音量差有关。这里，所述预设的音量差可以是在混音后的音频中所期望实现的与所述至少一个对象对应的各路音频信号的总音量和与未被选择的对象对应的各路音频信号的总音量之间的音量差。也就是说，该参数(在下文中，记为“focusloudness”)可以用于描述混音后FOCUS(t)集合总音量和COMMON(t)集合总音量的音量差，其可以是预设值，例如，其取值范围可以为2-4，但不限于此。例如，如果期望混音后FOCUS(t)集合总音量是COMMON(t)集合总音量的两倍，则可以将focusloudness确定为2，而如果期望混音后FOCUS(t)集合总音量是COMMON(t)集合总音量的四倍，则可以将focusloudness确定为4。

其次，根据所述预设关注度参数、所述第一总音频路数以及所述第二总音频路数，确定与所述至少一个对象对应的各路音频信号的权重。例如，与所述至少一个对象对应的各路音频信号的权重可以被确定为所述第二总音频路数与所述第一总音频路数的比值与确定的所述预设关注度参数的乘积。即，根据focusloudness、第一总音频路数A和第二总音频路数B将FOCUS(t)集合各路信号的权重focusweight(t)确定为：

以上这种确定各路音频信号的权重的方式，由于不仅考虑了预设关注度参数，而且考虑了与被选择的对象对应的各路音频信号的总音频路数以及与未被选择的对象对应的各路音频信号的总音频路数，因此可以更加合理地确定各路音频信号的权重，从而便于利用确定的权重对多路音频信号进行混音，得到期望的混音信号。

最后，可将与未被选择的对象对应的各路音频信号的权重设置为1，即，令COMMON(t)集合各路音频信号的权重commonweight(t)＝1。

在为多路音频信号分配各自的权重之后，在步骤S230，可利用分配的权重对所述多路音频信号进行混音，得到混音后的音频。

具体地，例如，可通过利用分配的权重对所述多路音频信号进行加权求和来对所述多路音频信号进行混音，得到混音后的音频。即，首先，可以将以上得到的权重分配结果和各路音频信号输入到乘法器模块，分别为每一路音频信号加权，得到加权后的音频，公式如下：

然后，可将以上得到的加权的音频信号输入到混音模块中，得到混音后的音频，该过程用公式表示如下：

speechmix(t

＝weightedspeech1+weightedspeech2+weightedspeech

+…+weightedspeechN

其中，speechmix(t)为t时刻各路音频信号混音后所得到的音频。

可选地，根据本公开示例性实施例，图2所示的方法还可包括：在所述第一总音频路数以及所述第二总音频路数发生变化时，对混音后的音频进行平滑处理。根据以上描述可知，第一总音频路数和第二总音频路数的变化会影响权重的分配，而权重分配的改变，将导致混音信号的变化。为了使这种改变导致的信号变化更加自然，可以对混音后的音频进行平滑处理。例如，可用变化前的权重和变化后的权重分别对混音后的各音频信号进行处理，然后，将用变化前的权重处理后的音频信号与逐渐递减的增益相乘，而将用变化后的权重处理后的音频信号与逐渐递增的增益相乘，最后再将相乘后的结果相加，从而实现平滑处理。然而，平滑处理不限于以上方式，还可采用本领域中其他平滑处理方式，本公开对此并未限制。通过在所述至少一个用户的数量以及所述未被选择的用户的数量发生变化时，对混音后的音频进行平滑处理，可以防止权重变化带来的信号突变而可能产生的杂音。

另外，可选地，根据本公开示例性实施例，尽管图2未示出，但是图2所示的音频处理方法还可包括：对得到的混音后的音频进行限幅处理，从而保证混音后的信号不发生截波失真。例如，如图4所示，将speechmix(t)输入到限幅器模块中，得到最终输出的音频信号，该模块通过限制幅度防止了由于权重加大带来的削波失真，这种权重组合和限幅器的配合使用可使得在被选择的用户无音频时，未被选择的其他用户的音频幅度不受影响，该过程用公式表示如下：

speechoutfinal(t)＝LIMITER(speechout(t)]

其中，speechoutfinal(t)为t时刻最终输出的音频，LIMITER[*]表示防止截波失真的处理。关于防止截波失真，可以采用本领域中已知的任何一种限幅方式，这里不做赘述。

以上，已经参照图2并结合图3和图4描述了根据本公开实施例的音频处理方法，根据上述音频处理方法，通过接收用于从多个对象中选择至少一个对象的输入(每个对象对应一路音频信号)，根据接收到的输入分别为与所述多个对象对应的多路音频信号分配各自的权重，并利用分配的权重对所述多路音频信号进行混音，使得不仅能够让用户方便地主动选择期望更多关注的音频信号(即，将选择的对象对应的音频信号突出)，而且同时也能够保留与未被选择的对象对应的音频信号而不会漏掉关键信息，从而提高了多人实时通讯时的音频体验。

图5是示出本公开示例性实施例的音频处理装置的框图。

参照图5，音频处理装置500可包括输入接收单元510、权重分配单元520和混音单元530。具体而言，输入接收单元510可接收用于从多个对象中选择至少一个对象的输入，其中，每个对象对应一路音频信号。权重分配单元520可根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，这里，所述多路音频信号可包括与选择的所述至少一个对象对应的各路音频信号以及与未被选择的对象对应的各路音频信号。混音单元530可利用分配的权重对所述多路音频信号进行混音，得到混音后的音频。

此外，尽管图5未示出，但是可选地，音频处理装置500还可包括：限幅单元。限幅单元可对得到的混音后的音频进行限幅处理。

另外，可选地，所述音频处理装置还可包括平滑处理单元(未示出)。平滑处理单元可在第一总音频路数以及第二总音频路数发生变化时，对混音后的音频进行平滑处理。这里，第一总音频路数是与所述至少一个对象对应的各路音频信号的总音频路数，第二总音频路数是与未被选择的对象对应的各路音频信号的总音频路数。

可选地，所述音频处理装置还可包括显示单元(未示出)。例如，显示单元可突出显示选择的对象。

由于图2所示的音频处理方法可由图5所示的音频处理装置500来执行，并且输入接收单元510、权重分配单元520和混音单元530可分别执行与图2中的步骤S210、步骤S220和步骤S230对应的操作，因此，关于图5中的各单元所执行的操作中涉及的任何相关细节均可参见关于图2至图4的相应描述，这里都不再赘述。

此外，需要说明的是，尽管以上在介绍音频处理装置500时将其划分为用于分别执行相应处理的单元，然而，本领域技术人员清楚的是，上述各单元执行的处理也可以在音频处理装置500不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外，音频处理装置500还可包括其他单元，例如，存储单元等。

图6是根据本公开示例性实施例的电子设备的框图。

参照图6，电子设备600可包括至少一个存储器601和至少一个处理器602，所述至少一个存储器存储计算机可执行指令，计算机可执行指令在被至少一个处理器执行时，促使至少一个处理器602执行根据本公开实施例的音频处理方法。

作为示例，电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码，其中，存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当所述指令由至少一个处理器执行时，促使所述至少一个处理器执行根据本公开示例性实施例的音频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的指令或计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序包括计算机指令，所述计算机指令被处理器执行时实现根据本公开示例性实施例的音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求限定。

Claims

1.一种音频处理方法，包括：

接收用于从多个对象中选择至少一个对象的输入，其中，每个对象对应一路音频信号；

根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，其中，所述多路音频信号包括与选择的所述至少一个对象对应的各路音频信号以及与未被选择的对象对应的各路音频信号；

利用分配的权重对所述多路音频信号进行混音，得到混音后的音频，

其中，所述根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，包括：

根据接收到的所述输入选择与所述至少一个对象对应的各路音频信号；

根据选择的与所述至少一个对象对应的各路音频信号的第一总音频路数以及与未被选择的对象对应的各路音频信号的第二总音频路数分别为所述多路音频信号分配各自的权重，

其中，所述根据选择的与所述至少一个对象对应的各路音频信号的第一总音频路数以及与未被选择的对象对应的各路音频信号的第二总音频路数分别为所述多路音频信号分配各自的权重，包括：

确定预设关注度参数，其中，所述预设关注度参数与在混音后的音频中与所述至少一个对象对应的各路音频信号的总音量和与未被选择的对象对应的各路音频信号的总音量之间的预设的音量差有关；

根据所述预设关注度参数、所述第一总音频路数以及所述第二总音频路数，确定与所述至少一个对象对应的各路音频信号的权重；

将与未被选择的对象对应的各路音频信号的权重设置为1。

2.如权利要求1所述的音频处理方法，其中，利用分配的权重对所述多路音频信号进行混音，得到混音后的音频，包括：

通过利用分配的权重对所述多路音频信号进行加权求和来对所述多路音频信号进行混音，得到混音后的音频。

3.如权利要求1所述的音频处理方法，还包括：

对得到的混音后的音频进行限幅处理。

4.如权利要求1所述的音频处理方法，还包括：在所述第一总音频路数以及所述第二总音频路数发生变化时，对混音后的音频进行平滑处理。

5.如权利要求1所述的音频处理方法，其中，所述音频处理方法还包括：突出显示选择的对象，其中，所述对象包括指示产生各路音频信号的账号的标识。

6.一种音频处理装置，包括：

输入接收单元，被配置为接收用于从多个对象中选择至少一个对象的输入，其中，每个对象对应一路音频信号；

权重分配单元，被配置为根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重，其中，所述多路音频信号包括与选择的所述至少一个对象对应的各路音频信号以及与未被选择的对象对应的各路音频信号；

混音单元，被配置为利用分配的权重对所述多路音频信号进行混音，得到混音后的音频，

将与未被选择的对象对应的各路音频信号的权重设置为1。

7.如权利要求6所述的音频处理装置，其中，利用分配的权重对所述多路音频信号进行混音，得到混音后的音频，包括：

8.如权利要求6所述的音频处理装置，还包括：

限幅单元，被配置为对得到的混音后的音频进行限幅处理。

9.如权利要求6所述的音频处理装置，还包括：平滑处理单元，被配置为在所述第一总音频路数以及所述第二总音频路数发生变化时，对混音后的音频进行平滑处理。

10.如权利要求6所述的音频处理装置，

其中，所述音频处理装置还包括：显示单元，被配置为突出显示选择的对象，其中，所述对象包括指示产生各路音频信号的账号的标识。

11.一种电子设备，其特征在于，包括:

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到5中的任一权利要求所述的音频处理方法。

12.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到5中的任一权利要求所述的音频处理方法。