CN112260982A

CN112260982A - 音频处理方法及设备

Info

Publication number: CN112260982A
Application number: CN201910663451.6A
Authority: CN
Inventors: 梁永军; 左俊; 谷柏峰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2021-01-22
Anticipated expiration: 2039-07-22
Also published as: CN112260982B

Abstract

本申请公开了音频处理方法及设备，涉及音频处理技术领域，有助于节省接收设备的成本。该方法应用于接收设备，该方法可以包括：接收采集设备发送的报文；其中，所述报文的头域部分包括指示信息，用于指示所述报文所对应的音频信号流的目标特征信息；所述目标特征信息包括音量值和音频内容类型中的至少一种；根据所述指示信息，确定是否解码所述报文。

Description

音频处理方法及设备

技术领域

本申请涉及音频处理技术领域，尤其涉及音频处理方法及设备。

背景技术

在音频通信中，需要根据音频信号流的信号特征执行各种业务。例如：多人会话场景中利用音频信号流音量大小进行音频播放的业务。又如：监控场景中利用音频内容特征(如：识别音频内容为求救声时)发出警示信号的业务。

现有音频通信技术中,多个音频采集设备采集音频信号流，并将采集得到的音频信号流编码为实时传输协议(real-time transport protocol,RTP)报文，然后发送给接收设备。接收设备解码接收到的全部RTP报文，生成多个音频信号流。后续，接收设备可以根据不同业务的需求，对该多路音频信号流进行不同的处理。例如：针对利用音频信号流音量大小进行音频播放的业务，接收设备可以按音量大小对解码得到的所有音频信号流进行降序排序，然后将排序后得到的序列中的前M个音频信号流进行混音并播放，并丢弃其他音频信号流。其中，M 是正整数。又如：针对利用音频信号流的内容发出警示信号的业务，接收设备可以在识别出音频信号流的内容包括求救声时发出警示信号，并在识别出音频信号流的内容没有包括求救声时丢弃该音频信号流。

上述方案中，接收设备需要对接收到的全部RTP报文进行解码，才能根据不同的业务的需求，获取解码得到的音频信号流的特征信息，从而执行不同的业务。这会增加接收设备成本。

发明内容

本申请的实施例提供音频处理方法及设备，用以减少接收设备的成本。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供一种音频处理方法，应用于接收设备，该方法包括：首先，接收采集设备发送的报文；其中，该报文的头域部分包括指示信息，具体的，如该报文的扩展头域包括指示信息，该指示信息用于指示该报文所对应的音频信号流的目标特征信息；该目标特征信息包括音量值和音频内容类型中的至少一种。其中，该报文所对应的音频信号流指该报文是由此音频信号流编码得到的。然后，根据该指示信息，确定是否解码该报文。其中，解码该报文具体指解码报文的负载部分，解码后生成音频信号流。这样，接收设备在读取报文的头域部分所包括的指示信息之后就可以判断是否对该报文进行解码，实现了按需解码，减少了接收设备的解码需求，从而节省了接收设备的成本。

在一种可能的设计中，根据该指示信息，确定是否解码该报文，包括：当该目标特征信息包括音量值时，该指示信息可以包括直接或间接表示报文所对应的音频信号流的音量值的信息，如果该指示信息所指示的音量值大于或等于阈值，则确定解码该报文；如果该指示信息所指示的音量值小于阈值，则确定不解码该报文。这样，接收设备就可以根据报文中指示信息指示的音量值来确定是否解码报文，实现了按需解码，减少了接收设备的解码需求，从而节省了接收设备的成本。

在一种可能的设计中，根据该指示信息，确定是否解码该报文，包括：当该目标特征信息包括音频内容类型时，该指示信息可以包括直接或间接表示报文所对应的音频信号流的音频内容类型的信息，如果该指示信息所指示的目标特征信息包括目标音频内容类型，则确定解码该报文；如果该指示信息所指示的目标特征信息不包括该目标音频内容类型，则确定不解码该报文。这样，接收设备就可以根据报文中指示信息指示的音频内容类型来确定是否解码报文，实现了按需解码，减少了接收设备的解码需求，从而节省了接收设备的成本。

在一种可能的设计中，该目标特征信息包括音量值；接收设备接收采集设备发送的报文，包括：接收N个采集设备发送的N个报文；其中，该N个采集设备与该N个报文一一对应；例如，采集设备1发送的报文为报文1，采集设备2发送的报文为报文2，以此类推，采集设备N发送的报文N。其中，N是大于或等于2的整数。根据该指示信息，确定是否解码该报文，包括：根据该N个报文包括的N个指示信息，从该N个报文中选择M个报文进行解码；其中，该M个报文中的每个报文包括的指示信息所指示的音量值均大于或等于未选择的报文的指示信息所指示的音量值；M是小于或等于N的整数；解码该M个报文。这样，接收设备就可以根据接收到的N个报文中的指示信息指示的音量值来选择需要解码的报文，实现了按需解码，减少了接收设备的解码需求，从而节省了接收设备的成本。

在一种可能的设计中，根据该指示信息，确定是否解码该报文，还包括：当该报文是静音帧时，不解码该报文。当该报文不是静音帧时，解码该报文。这样，接收设备就可以根据报文中指示信息指示的静音帧信息来确定是否解码报文，实现了按需解码，减少了接收设备的解码需求，从而节省了接收设备的成本。

在一种可能的设计中，报文可以是RTP报文。

在一种可能的设计中，该音频内容类型是基于音频信号流发生的场景所确定的。示例性的，音频信号流发生的场景可以包括：盗窃场景、抢劫场景和正常场景中的至少一种。

在一种可能的设计中，该音频内容类型是基于音频信号流所包含的预设词所确定的。示例性的，预设词可以包括：特定人名(如恐怖分子名)、弹药、抢劫、埋伏和枪支等能够反映危险场景的词中的至少一种。

第二方面，提供了一种音频处理方法，应用于采集设备，该方法包括：

首先，采集设备采集音频信号流；然后，采集设备对该音频信号流进行特征识别，得到该音频信号流的目标特征信息；该目标特征信息包括音量值和音频内容类型中的至少一种；然后，采集设备对该音频信号流进行编码，生成报文；其中，该报文的扩展头域中包括指示信息，该指示信息用于指示该目标特征信息；最后，采集设备将该报文发送给接收设备。这样，采集设备可以利用具有原始音频信号流的优势，对音频信号流进行特征识别，采集设备在编码时，头域部分包括用于指示该目标特征信息的指示信息，以便于接收设备根据指示信息判断是否解码，减少了接收设备的解码需求，节省了接收设备的成本。

在一种可能的设计中，报文包括RTP报文。

在一种可能的设计中，该采集设备需要识别的特征(如音量值和音频内容类型中的至少一种)是由用户或服务器配置的。

在一种可能的设计中，该音频内容类型是基于音频信号流发生的场景所确定的；或者，该音频内容类型是基于音频信号流所包含的预设词所确定的。

第三方面，提供了一种音频处理装置，该装置可用于执行上述第一方面或第一方面的任一种可能的设计提供的任一种方法。示例的，该装置可以是采集设备或芯片等。

在一种可能的设计中，可以根据上述第一方面或第一方面的任一种可能的设计提供的方法对该装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

在一种可能的设计中，该装置可以包括存储器和处理器。存储器用于存储计算机程序。处理器用于调用该计算机程序，以执行第一方面或第一方面的任一种可能的设计提供的方法。

第四方面，提供了一种音频处理装置，该装置可用于执行上述第二方面或第二方面的任一种可能的设计提供的任一种方法。示例的，该装置可以是接收设备或芯片等。

在一种可能的设计中，可以根据上述第二方面或第二方面的任一种可能的设计提供的方法对该装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

在一种可能的设计中，该装置可以包括存储器和处理器。存储器用于存储计算机程序。处理器用于调用该计算机程序，以执行第二方面或第二方面的任一种可能的设计提供的方法。

第五方面，提供了一种计算机可读存储介质，如计算机非瞬态的可读存储介质。其上储存有计算机程序(或指令)，当该计算机程序(或指令)在计算机上运行时，使得该计算机执行上述第一方面或第一方面的任一种可能的设计提供的任一种方法。

第六方面，提供了一种计算机可读存储介质，如计算机非瞬态的可读存储介质。其上储存有计算机程序(或指令)，当该计算机程序(或指令)在计算机上运行时，使得该计算机执行上述第二方面或第二方面的任一种可能的设计提供的任一种方法。

第七方面，提供了一种计算机程序产品，当其在计算机上运行时，使得第一方面或第一方面的任一种可能的设计提供的任一种方法被执行。

第八方面，提供了一种计算机程序产品，当其在计算机上运行时，使得第二方面或第二方面的任一种可能的设计提供的任一种方法被执行。

第九方面，提供了一种音频处理系统，包括：采集设备和接收设备，该采集设备可以是上述第四方面提供的任意一种音频处理装置，该接收设备可以是上述第三方面提供的任意一种音频处理装置。

可以理解的是，上述提供的任一种音频处理装置、计算机存储介质或计算机程序产品等均可以应用于上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请采集设备所生成的RTP报文的结构图；

图2A为本申请实施例提供的技术方案所适用的一种音频处理系统的架构示意图；

图2B为本申请实施例基于图2A提供的一种音频处理系统的架构示意图；

图3A为本申请实施例提供的技术方案所适用的另一种音频处理系统的架构示意图；

图3B为本申请实施例基于图3A提供的一种音频处理系统的架构示意图；

图4为可适用于本申请实施例的一种通信设备的结构示意图；

图5为本申请实施例提供的一种音频处理方法的交互示意图；

图6为本申请实施例提供的另一种音频处理方法的交互示意图；

图7为本申请实施例提供的又一种音频处理方法的交互示意图；

图8为本申请实施例提供的一种音频处理装置的结构示意图；

图9为本申请实施例提供的一种音频处理装置的结构示意图。

具体实施方式

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例中，“至少一个”是指一个或多个。“多个”是指两个或两个以上。

在本申请实施例中，“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

如图1所示，为可适用于本申请实施例的一种RTP报文的结构示意图。图1所示的RTP 报文包括头域部分和负载部分。其中，RTP报文头域部分用于承载与该RTP报文内容相关的参数，例如，该参数可以包括：RTP报文的序列号、采集该RTP报文时的时间戳、自定义内容以及同步源标识符(synchronization source,SSRC)等。RTP报文负载部分用于承载音频信号流数据。其中，音频信号流为单位时长内采集的音频信号。例如，单位时长可以是5ms、10ms、20ms或30ms等。

其中，RTP报文头域部分包括RTP报文固定头域。可选的，RTP报文头域部分还可以包括RTP报文扩展头域。RTP报文固定头域用于承载RTP协议中固定的与报文内容相关的参数，例如RTP报文的序列号、采集该RTP报文时的时间戳以及同步源标识符等。RTP固定头域还可以包括扩展标志位。扩展标志位用于承载指示该RTP报文是否包含扩展头域的信息。RTP 扩展头域中包括预留字段，用于承载自定义内容，例如本申请实施例中的第一指示信息、第二指示信息和/或第三指示信息。

如图2A所示，为可适用于本申请实施例的一种音频处理系统的架构示意图。图2A所示的音频处理系统包括多个终端设备101。图2A所示的音频处理系统可以应用于多人会话场景、监控场景等场景中。

对于每个终端设备101来说，均可以作为采集设备101-1，也可以作为接收设备101-2。

采集设备101-1，用于采集音频信号流，并对采集得到的音频信号流进行编码生成报文(如 RTP报文)，然后将该报文发送给该采集设备的接收设备101-2。其中，一个采集设备的接收设备是除该采集设备之外的终端设备。例如，在多人会话场景中，假设与会人员的个数为3，与会人员参与会话时所采用的终端设备分别标记为终端设备A、B、C，那么，以采集设备是终端设备A为例，该采集设备的接收设备可以是终端设备B、C。需要说明的是，下文中均是以对音频信号流进行编码得到的报文是RTP报文为例进行说明的。

接收设备101-2，用于接收该接收设备101-2的采集设备101-1所发送的RTP报文，并解码所接收到的RTP报文，得到音频信号流。

在一种实现方式中，一个接收设备的采集设备，可以是除该接收设备之外的终端设备。例如，在多人会话场景中，假设与会人员的个数为3，与会人员参与会话时所采用的终端设备分别标记为终端设备A、B、C，那么，以接收设备是终端设备B为例，该接收设备的采集设备可以是终端设备A、C。此例中的后续处理可以为：接收设备解码该接收设备的采集设备所发送的RTP报文，得到音频信号流，对解码得到的音频信号流进行混音。

可选的，接收设备还用于，根据解码得到的一个或多个音频信号流进行业务处理。例如，在多人会话场景中，接收设备可以对同一时间周期内所得到的多个音频信号流进行混音，并播放混音得到的音频信号流。又如，在监控场景中，接收设备可以基于每个音频信号流的内容发出警示信号。

在一个示例中，对于一个采集设备来说，接收设备可以以音频信号流集合(包括一个或多个音频信号流)为单位对该采集设备所采集的音频信号流进行业务处理。本申请实施例对一个音频信号流集合所包含的音频信号流的确定方式不进行限定，例如，可以基于一定时间的能量值的平均或其他的平滑方法来确定。例如，考虑到单个音频信号流的采集时长可能比较短，比如，5ms、10ms、20ms或30ms等，而人说话时一个字估计是100-200ms左右，因此，音频信号流集合通常包括多个音频信号流。下文中为了方便描述，均以音频信号流集合包括一个音频信号流为例进行说明。

从一个接收设备的角度来看，图2A所示的音频处理系统可以如图2B所示。图2B所示的系统可以包括一个接收设备101-2和与该接收设备101-2通信的多个采集设备101-1。该接收设备101-2可以是图2A中的任意一个终端设备101，采集设备101-1可以是图2A中的除该接收设备101-2之外的其他终端设备101。

可选的，基于图2A，音频处理系统还可以包括：服务器102。服务器102可以与每个终端设备101连接，如图3A所示。服务器102用于接收采集设备发送的RTP报文，并将所接收到的RTP报文转发给接收设备。

可选的，服务器102具有处理RTP报文的功能。例如：服务器接收多个采集设备发送的 RTP报文，并解码所接收到的RTP报文，得到多个音频信号流。服务器对多个音频信号流进行混音后，发送给接收设备。

在一种实现方式中，服务器102解码采集设备发送的RTP报文，得到音频信号流，对解码得到的音频信号流进行混音。再从混音中剔除接收设备作为采集设备发送的RTP报文解码后得到的音频信号流，然后，发送给接收设备101-2。

在另一种实现方式中，服务器102解码采集设备所发送的RTP报文，得到音频信号流，对解码得到的除接收设备作为采集设备采集得到的音频信号流之外的音频信号流进行混音，然后，发送给接收设备101-2。

从一个接收设备的角度来看，图3A所示的音频处理系统可以如图3B所示。图3B所示的系统可以包括：一个接收设备101-2、与该接收设备101-2通信的多个采集设备101-1，以及服务器102为例进行说明的。该接收设备101-2可以是图3A中的任意一个终端设备101，采集设备101-1可以是图3A中的除该接收设备101-2之外的其他终端设备101。

如图4所示，为可适用于本申请实施例的一种音频处理装置(包括上述采集设备101-1、接收设备101-2和服务器102)的结构示意图。该音频处理装置20用于执行本申请实施例提供的音频处理的方法，该音频处理装置20可以包括至少一个处理器201，通信线路202，存储器203以及至少一个通信接口204。

处理器201可以是一个通用中央处理器(centralprocessing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路202可包括一通路，在上述组件(如至少一个处理器201，通信线路202，存储器203以及至少一个通信接口204)之间传送信息。

通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如广域网(wide area network，WAN)，局域网(localarea networks，LAN)等。

存储器203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(randomaccess memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory， CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器203可以是独立存在，通过通信线路202与处理器201相连接。存储器203也可以和处理器201集成在一起。本申请实施例提供的存储器203通常可以具有非易失性。其中，存储器203用于存储执行本申请方案的计算机指令，并由处理器201来控制执行。处理器201用于执行存储器203中存储的计算机指令，从而实现本申请下述实施例提供的方法。

可选的，本申请实施例中的计算机指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，音频处理装置20可以包括多个处理器，这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，音频处理装置20还可以包括输出设备205和/或输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emittingdiode，LED) 显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接收用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

为使本申请技术方案的优点更加清楚，下面结合附图和实施例对本申请作详细说明。

实施例一

如图5所示，为本申请实施例提供的一种音频处理方法的流程示意图。示例性的，本实施例可以应用于图2B或图3B所示的系统架构，可以应用于多人会话场景。图5所示的方法可以包括以下步骤：

S101：采集设备采集音频信号流。

例如，本实施例中的采集设备可以是多人会话场景中的任意一个采集设备，接收设备可以是多人会话场景中的任意一个接收设备。

S102：采集设备确定第一指示信息，第一指示信息用于指示该音频信号流所对应的RTP 报文是否是静音帧。

该音频信号流所对应的RTP报文是指对该音频信号流进行编码后生成的RTP报文。可以理解的是，虽然在执行S103时，采集设备还没有对该音频信号进行编码得到该音频信号流所对应的RTP报文，但是，采集设备可以确定该采集设备采集到的音频信号流所对应的RTP报文是否为静音帧。其中，采集设备确定一个RTP报文是否是静音帧的方法可以参考现有技术如静音检测技术。例如，当采集设备没有插入麦克风、采集设备所处环境中的声音的音量值小于一个阈值、采集设备所插入的麦克风故障和采集设备静音等情况中的至少一种时，该采集设备采集到的音频信号流所对应的RTP报文是静音帧。

本申请实施例对第一指示信息包括何种信息来指示该音频信号流所对应的RTP报文是否是静音帧不进行限定。例如，当第一指示信息为“0”时，表示该RTP报文是静音帧；当第一指示信息为“1”时，表示该RTP报文不是静音帧。

S103：采集设备对该音频信号流进行音量值识别，得到该音频信号流的音量值。

S104：采集设备对该音频信号流进行编码，生成RTP报文。其中，该RTP报文的负载部分包括第一指示信息，该RTP报文的扩展头域包括第二指示信息，第二指示信息用于指示该音频信号流的音量值。

可选的，第二指示信息可以携带在该RTP报文的扩展头域的预定义的一个或多个比特位。第二指示信息可以包括直接或间接表示该音频信号流的音量值的信息。以下列举几种具体的实现方式：

在一种实现方式中，第二指示信息可以包括该音频信号流的音量值。例如，若在S102 中识别出该音频信号流的音量值为40分贝(dB)，则第二指示信息可以包括40dB。

在另一种实现方式中，第二指示信息可以包括该音频信号流的音量值是否大于或等于阈值的标识符。例如，采集设备和接收设备可以预先约定：使用标识符“1”表示大于或等于阈值的音量值，使用标识符“0”表示小于阈值的音量值。基于此，若在S102中识别出该音频信号流的音量值大于或等于阈值，则第二指示信息可以包括标识符“1”，以指示该音频信号流的音量值；若在S102中识别出该音频信号流的音量值小于阈值，则第二指示信息可以包括标识符“0”，以指示该音频信号流的音量值。

在另一实现方式中，第二指示信息可以包括该音频信号流的音量值所在的音量值范围的标识符。例如，采集设备和接收设备可以预先约定：使用标识符0、1、2、3分别表示音量值范围0db-20db、21db-40db、41db-60db和61db-80db。基于此，若在S102中识别出该音频信号流的音量值为30，则第二指示信息可以包括标识符“1”，以指示该音频信号流的音量值；若在S102中识别出该音频信号流的音量值为65，则第二指示信息可以包括标识符“3”，以指示该音频信号流的音量值。

S105：采集设备将该RTP报文发送给接收设备。

例如，结合图3B，采集设备可以先将该RTP报文发送给服务器，再由服务器将该RTP报文发送给接收设备。又如，结合图2B，采集设备可以直接将该RTP报文发送给接收设备。

S106：接收设备解析该RTP报文负载部分，以获得该RTP报文负载部分的第一指示信息。当第一指示信息指示该RTP报文不是静音帧时，执行S107；当第一指示信息指示该RTP报文是静音帧时，执行S109。

解析该RTP负载部分，可以理解为：读取该RTP负载部分的信息。

S106是可选步骤。如果不执行S106，则执行S105之后，直接执行S107。

S107：接收设备解析该RTP头域部分，以获得该RTP报文的扩展头域中的第二指示信息，并判断第二指示信息所指示的音量值是否大于或等于阈值。阈值是大于0的值。

若是，则执行S108。若否，则执行S109。

解析该RTP头域部分，可以理解为：读取该RTP头域部分的信息。

本申请实施例对阈值的具体取值以及取值方式不进行限定。比如，可以基于实际使用场景(如多人会话)设定阈值的具体取值。例如，阈值可以是人耳能够听到的最小音量的音量值。

需要说明的是，在具体实施过程中，S106与S107没有先后顺序的区分，可以先执行S107 再执行S106，或者先执行S106再执行S107，或者同时执行S106与S107。

S108：接收设备解码该RTP报文(具体是解码该RTP报文的负载部分)，得到音频信号流。该音频信号流可以认为是S101中所采集到的音频信号流。

执行S108之后则结束。后续，接收设备可以播放该音频信号流。

S109：接收设备丢弃该RTP报文。执行S109之后则结束。

本实施例中，由于采集设备对采集的音频信号流进行音量值的识别，并将指示该音量值的信息携带在该音频信号流所对应的RTP报文头域部分，使得接收设备不解码RTP报文的负载部分，能够按需解码，与现有技术中接收设备需要对接收到的所有RTP报文进行解码的技术方案相比，本实施例提供的技术方案有助于减少无效解码，节省接收设备的计算资源，从而降低接收设备的成本。

实施例二

如图6所示，为本申请实施例提供的另一种音频处理方法的流程示意图。示例性的，本实施例可以应用于图2B或3B所示的系统架构，可以应用于多人会话场景。本实施例中相关内容的解释可以参考上文。图6所示的方法可以包括以下步骤：

S201:N个采集设备采集到N个音频信号流。其中，每个采集设备采集到一个音频信号流。 N是大于或等于2的正整数。

例如，N个采集设备可以是多人会话场景中的任意N个采集设备。

对于该N个采集设备中的每个采集设备来说，执行以下步骤S202～S205：

S202～S205：可以参考上述S102～S105，当然不限于此。

该N个采集设备均执行S202～S205后，得到该N个音频信号流所对应的N个RTP报文。

S206：接收设备接收N个采集设备发送的N个RTP报文。对于每个RTP报文，执行以下步骤：接收设备解析该RTP报文负载部分，以获得该RTP报文中的第一指示信息，当第一指示信息指示该RTP报文不是静音帧时，将该RTP报文作为一个待处理RTP报文；当第一指示信息指示该RTP报文是静音帧时，丢弃该RTP报文。对该N个RTP报文均执行该步骤后，得到R个待处理RTP报文，并执行S207步骤，其中，N≥R,R是整数。

可选的，当R≥1时，执行S207。

S207：接收设备解析该R个待处理RTP报文中的每个待处理RTP报文的头部信息，以获得该待处理RTP报文的扩展头域中的第二指示信息；然后，根据该R个待处RTP理报文的第二指示信息从该R个待处理RTP报文中选择M个待处理RTP报文。其中，所选择的每个待处理RTP报文的第二指示信息所指示的音量值均大于或等于未选择的待处理RTP报文的第二指示信息所指示的音量值。R≥M，M是整数。

在一种实现方式中，接收设备可以按照该R个待处理RTP报文的第二指示信息所指示的音量值从大到小的顺序，对该R个待处理RTP报文进行排序，得到一个序列，并从该序列中选择前M个待处理RTP报文。

在另一种实现方式中，接收设备可以按照该R个待处理RTP报文的第二指示信息所指示的音量值从小到大的顺序，对该R个待处理RTP报文进行排序，得到一个序列，并从该序列中选择后M个待处理RTP报文。

需要说明的是，S206与S207也没有先后顺序的区分，可以先执行S207再执行S206，也可以先执行S206再执行S207。或者S206与S207同时执行。

S208:接收设备解码所选择的M个待处理RTP报文(具体是解码所选择的M个待处理RTP报文的负载部分)，得到M个音频信号流；并丢弃未选择的待处理RTP报文。

本申请实施例对S208中的解码步骤和丢弃步骤的先后顺序不进行限定。

执行S208之后则结束。后续，应用于多人会话场景时，接收设备可以对包含该M个音频信号流进行混音，并播放混音后得到的音频信号流。

本实施例中，由于采集设备对采集的音频信号流进行音量值的识别，并将用于指示识别得到的音量值的信息，携带在该音频信号流编码后得到的RTP报文头域部分，使得接收设备可以通过解析RTP报文头域部分，在确定该RTP报文对应的音频信号流的音量值属于选择的 RTP报文时，解码该RTP报文的负载部分，也就是说，可以按需解码RTP报文。与现有技术中接收设备需要解码接收到的所有RTP报文的技术方案相比，本实施例提供的技术方案有助于减少需要解码的RTP报文的数量，从而降低接收设备成本。

实施例三

如图7所示，为本申请实施例提供的一种音频处理方法的流程示意图。示例性的，本实施例可以应用于图2B或图3B所示的系统架构，可以应用于监控场景。本实施例中相关内容的解释可以参考上文。图7所示的方法可以包括以下步骤：

S301：采集设备采集音频信号流。

例如，本实施例中的采集设备可以是监控场景中的任意一个采集设备，接收设备可以是监控场景中的任意一个接收设备。

S302：采集设备对该音频信号流的音频内容类型进行识别，得到该音频信号流的音频内容类型。

在一种实现方式中，音频内容类型可以是基于音频信号流的发生场景所确定的，不同发生场景对应不同的音频内容类型。可选的，音频信号流的发生场景可以是自定义的，或者是服务器指示的。示例性的，音频信号流的发生场景可以包括：盗窃场景、抢劫场景和正常场景中的至少一种。例如，盗窃场景下的音频信号流可以是狗叫声、说话声和开门声等。抢劫场景下的音频信号流可以是求救声、尖叫声和打斗声等。正常场景下的音频信号流可以是机器轰鸣声、汽车鸣笛声和叫卖声等。

在另一种实现方式中，音频内容类型可以是基于音频信号流所包含的预设词确定的，不同预设词对应不同的音频内容类型。其中，采集设备可以基于音频信号流的语义内容确定该音频信号流所包含的预设词。可选的，预设词可以是自定义的，或者是服务器指示的。例如，预设词可以包括特定人名(如恐怖分子名)、弹药、抢劫、埋伏和枪支等能够反映危险场景的词中的至少一种。

S303：采集设备对该音频信号流进行编码，生成RTP报文。其中，该RTP报文的扩展头域包括第三指示信息，第三指示信息用于指示该音频信号流的音频内容类型。

第三指示信息可以是直接或间接表示该音频信号流的音频内容类型的信息。

例如，当音频信号流的音频内容类型是基于音频信号流的发生场景所确定的时，若采集设备采集到的音频信号流包括狗叫声、说话声和开门声中的至少一种，则第三指示信息可以为“00”，以指示该音频信号流的发生场景是盗窃场景。若采集设备采集到的音频信号流包括尖叫声、求救声和打斗声中的至少一种，则第三指示信息可以为“01”，以指示该音频信号流的发生场景是抢劫场景。若采集设备采集到的音频信号流仅包括机器轰鸣声、汽车鸣笛声和叫卖声中的至少一种，则第三指示信息可以为“10”，以指示该音频信号流的发生场景是正常场景。

再如，当音频信号流的音频内容类型是基于音频信号流所包含的预设词确定的时，若采集设备采集到的音频信号流的语义内容包含抢劫时，第三指示信息为“抢劫”，以指示该音频信号流的语义内容包含抢劫。

S304：采集设备将该RTP报文发送给接收设备。

例如，结合图2A，采集设备可以直接将该RTP报文发送给接收设备。

S305：接收设备解析该RTP报文头域部分，以获得该RTP报文头域部分的第三指示信息。当该第三指示信息指示目标音频内容类型时，执行S306。当该第三指示信息指示非目标音频内容类型时，执行S307。

该RTP报文对应的音频信号流指该RTP报文是由此音频信号流编码得到的。

S306：接收设备解码该RTP报文(具体是解码该RTP报文的负载部分)，得到音频信号流。该音频信号流可以认为是S301中所采集到的音频信号流。执行S306之后则结束。

后续：

在一种实现方式中，接收设备可以根据解码得到的音频信号流判断是否发出警示信息。例如，当接收设备解码得到的音频信号流中包含尖叫声时，发出警示信息；当接收设备解码得到的音频信号流中仅包含机器轰鸣声、汽车鸣笛声和叫卖声中的至少一种时，不发出警示信息。

在另一种实现方式中，接收设备可以根据第三指示信息判断是否发出警示信息。例如，当接收设备解析RTP报文中的第三指示信息用于指示“盗窃”时，发出警示信息；当接收设备解析RTP报文中的第三指示信息为“文中的用于指示正常场景时，不发出警示信息。

S307：接收设备丢弃该RTP报文。执行S307之后则结束。

本实施例中，由于采集设备对采集的音频信号流进行音频内容类型的识别，并将用于指示识别得到的音频内容类型的信息，携带在该音频信号流编码后得到的RTP报文头域部分，使得接收设备可以通过解析RTP报文头域部分，在确定该RTP报文对应的音频信号流的音频内容类型是目标音频内容类型时，解码该RTP报文的负载部分，也就是说，可以按需解码RTP 报文。与现有技术中接收设备需要解码接收到的所有RTP报文的技术方案相比，本实施例提供的技术方案有助于减少需要解码的RTP报文的数量，从而降低接收设备成本。

需要说明的是，在不冲突的情况下，上文中的任意多个实施例中的部分或全部特征可以结合，从而构成一个新的实施例。比如，实施例1和实施例3可以结合，如采集设备在识别音频信号流的音量值和音频内容类型，采集设备将识别得到的音量值和音频内容类型信息，携带在该音频信号流编码后得到的RTP报文头域部分，使得接收设备可以通过解析RTP报文头域部分，在确定该RTP报文对应的音频信号流的音频内容类型是目标音频内容类型和/或对应的音频信号流的音量值大于阈值时，解码该RTP报文的负载部分。

上述任一实施例中，采集设备需要识别的特征(如音频内容类型或者音量值)可以是由用户或服务器配置的。例如，当上述任一实施例应用于图3A或图3B所示的系统中时，采集设备需要识别的特征可以是服务器通过信令配置给采集设备的。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的方法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对终端设备(如采集设备或接收设备)进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图8所示，为本申请实施例提供的一种音频处理装置的结构示意图。该装置可以是采集设备70。该采集设备70可以用于执行上文中任意一个实施例(如图5～图7所示的任一实施例)中采集设备所执行的功能。采集设备70可以包括：发送模块701和处理模块702。其中，处理模块702，用于采集音频信号流；对该音频信号流进行特征识别，得到该音频信号流的目标特征信息；该目标特征信息包括音量值和音频内容类型中的至少一种；对该音频信号流进行编码，生成报文；其中，该报文的扩展头域中包括指示信息，该指示信息用于指示该目标特征信息。发送模块701，用于将该报文发送给接收设备。例如，结合图5，处理模块702可以用于执行S101-S104，发送模块701可以用于执行S105中的发送步骤。

可选地，报文可以是RTP报文。

可选地，需要识别的特征是由用户或服务器配置的。

可选地，该音频内容类型是基于音频信号流发生的场景所确定的。

在一个示例中，参见图4，上述发送模块701和处理模块702均可以由图4中的处理器 201调用存储器203中存储的计算机程序实现。

关于上述可选方式的具体描述参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种采集设备70的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

如图9所示，为本申请实施例提供的一种音频处理装置的结构示意图。该装置可以是接收设备80。该接收设备80可以用于执行上文中任意一个实施例(如图5～图7所示的任一实施例)中接收设备所执行的功能。接收设备80可以包括：接收模块801和处理模块802。

接收模块801，用于接收采集设备发送的报文；其中，该报文的头域部分包括指示信息，用于指示该报文所对应的音频信号流的目标特征信息；该目标特征信息包括音量值和音频内容类型中的至少一种。处理模块802，用于根据该指示信息，确定是否解码该报文。例如，结合图5，接收模块801可以用于执行S105中的接收步骤。处理模块802可以用于执行S106-S109。结合图6，接收模块801可以用于执行S205中的接收步骤。处理模块802可以用于执行S206-S208。结合图7，接收模块801可以用于执行S304中的接收步骤。处理模块 802可以用于执行S305-S307。

可选的，处理模块802具体用于：当该目标特征信息包括音量值时，如果该指示信息所指示的音量值大于或等于阈值，则确定解码该报文；如果该指示信息所指示的音量值小于该阈值，则确定不解码该报文。例如，结合图5，处理模块802具体用于执行S106-S109。

可选的，处理模块802具体用于：当该目标特征信息包括音频内容类型时，如果该指示信息所指示的目标特征信息包括目标音频内容类型，则确定解码该报文；如果该指示信息所指示的目标特征信息不包括该目标音频内容类型，则确定不解码该报文。例如，结合图7，处理模块802具体用于执行S305-S307。

可选的，当目标特征包括指示音量值的信息时，接收模块801具体用于：接收N个采集设备发送的N个报文；其中，该N个采集设备与该N个报文一一对应；该N是大于或等于2 的整数；处理模块802具体用于：根据该N个报文包括的N个该指示信息，从该N个报文中选择M个报文进行解码；其中，该M个报文中的每个报文包括的指示信息所指示的音量值均大于或等于未选择的报文的指示信息所指示的音量值；M是小于或等于N的整数；以及，解码该M个报文。

可选的，处理模块802具体用于当该报文不是静音帧时，根据该指示信息，确定是否解码该报文。例如，结合图6，处理模块802具体用于执行S206-S208。

可选的，处理模块802还用于，当该报文是静音帧时，不解码该报文。

可选的，报文包括RTP报文。

可选的，该音频内容类型是基于音频信号流发生的场景所确定的；或者，该音频内容类型是基于音频信号流所包含的预设词所确定的。

在一个示例中，参见图4，上述接收模块801、处理模块802均可以由图4中的处理器201调用存储器203中存储的计算机程序实现。

关于上述可选方式的具体描述参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种接收设备80的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

需要说明的是，上述各个单元对应执行的动作仅是具体举例，各个单元实际执行的动作参照上述基于图5、图6、图7所述的实施例的描述中提及的动作或步骤。

需要说明的是，上文中所描述的处理器可以通过硬件来实现也可以通过软件来实现。当通过硬件实现时，该处理器可以是逻辑电路、集成电路等。当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现。该存储器可以集成在处理器中，也可以位于处理器之外，独立存在。

本申请实施例还提供了一种音频处理系统，包括上文中提供的任一种采集设备70和上文中提供的任一种接收设备80。关于采集设备70和接收设备80所执行的步骤可以参考上文，此处不再赘述。

本申请实施例还提供了一种芯片。该芯片中集成了用于实现上述处理器的功能的电路和一个或者多个接口。可选的，该芯片支持的功能可以包括基于图5、图6或图7所述的实施例中的处理动作，此处不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可通过程序来指令相关的硬件完成。所述的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器，随机接入存储器等。上述处理单元或处理器可以是中央处理器，通用处理器、特定集成电路(application specificintegrated circuit，ASIC)、微处理器(digital signal processor，DSP)，现场可编程门阵列(field programmable gate array， FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本申请实施例还提供了一种包含指令的计算机程序产品，当该指令在计算机上运行时，使得计算机执行上述实施例中的任意一种方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solidstate disk，SSD))等。

应注意，本申请实施例提供的上述用于存储计算机指令或者计算机程序的器件，例如但不限于，上述存储器、计算机可读存储介质和通信芯片等，均具有非易失性(non-transitory)。

在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising) 一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。

Claims

1.一种音频处理方法，其特征在于，应用于接收设备，所述方法包括：

接收采集设备发送的报文；其中，所述报文的头域部分包括指示信息，用于指示所述报文所对应的音频信号流的目标特征信息；所述目标特征信息包括音量值和音频内容类型中的至少一种；

根据所述指示信息，确定是否解码所述报文。

2.根据权利要求1所述的方法，其特征在于，所述根据所述指示信息，确定是否解码所述报文，包括：

当所述目标特征信息包括音量值时，如果所述指示信息所指示的音量值大于或等于阈值，则确定解码所述报文；如果所述指示信息所指示的音量值小于所述阈值，则确定不解码所述报文；

或者，当所述目标特征信息包括音频内容类型时，如果所述指示信息所指示的目标特征信息包括目标音频内容类型，则确定解码所述报文；如果所述指示信息所指示的目标特征信息不包括所述目标音频内容类型，则确定不解码所述报文。

3.根据权利要求1所述的方法，其特征在于，所述目标特征信息包括音量值；所述接收采集设备发送的报文，包括：

接收N个采集设备发送的N个报文；其中，所述N个采集设备与所述N个报文一一对应；N是大于或等于2的整数；

所述根据所述指示信息，确定是否解码所述报文，包括：

根据所述N个报文包括的N个所述指示信息，从所述N个报文中选择M个报文进行解码；其中，所述M个报文中的每个报文包括的指示信息所指示的音量值均大于或等于未选择的报文的指示信息所指示的音量值；M是小于或等于N的整数；

解码所述M个报文。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述指示信息，确定是否解码所述报文，包括：

当所述报文不是静音帧时，根据所述指示信息，确定是否解码所述报文。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述报文是静音帧时，不解码所述报文。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述报文包括实时传输协议RTP报文。

7.根据权利要求1至6任一项所述的方法，其特征在于，

所述音频内容类型是基于音频信号流发生的场景所确定的；

或者，所述音频内容类型是基于音频信号流所包含的预设词所确定的。

8.一种音频处理方法，其特征在于，应用于采集设备，所述方法包括：

采集音频信号流；

对所述音频信号流进行特征识别，得到所述音频信号流的目标特征信息；所述目标特征信息包括音量值和音频内容类型中的至少一种；

对所述音频信号流进行编码，生成报文；其中，所述报文的扩展头域中包括指示信息，所述指示信息用于指示所述目标特征信息；

将所述报文发送给接收设备。

9.根据权利要求8所述的方法，其特征在于，所述报文包括实时传输协议RTP报文。

10.根据权利要求8或9所述的方法，其特征在于，所述采集设备需要识别的特征是由用户或服务器配置的。

11.根据权利要求8至10任一项所述的方法，其特征在于，

所述音频内容类型是基于音频信号流发生的场景所确定的；

12.一种音频处理装置，其特征在于，所述装置包括：

接收模块，用于接收采集设备发送的报文；其中，所述报文的头域部分包括指示信息，用于指示所述报文所对应的音频信号流的目标特征信息；所述目标特征信息包括音量值和音频内容类型中的至少一种；

处理模块，用于根据所述指示信息，确定是否解码所述报文。

13.根据权利要求12所述的装置，其特征在于，所述处理模块具体用于：

14.根据权利要求12所述的装置，其特征在于，所述目标特征信息包括音量值；

所述接收模块具体用于：接收N个采集设备发送的N个报文；其中，所述N个采集设备与所述N个报文一一对应；N是大于或等于2的整数；

所述处理模块具体用于：根据所述N个报文包括的N个所述指示信息，从所述N个报文中选择M个报文进行解码；其中，所述M个报文中的每个报文包括的指示信息所指示的音量值均大于或等于未选择的报文的指示信息所指示的音量值；M是小于或等于N的整数；以及，解码所述M个报文。

15.根据权利要求12至14任一项所述的装置，其特征在于，所述根据所述指示信息，确定是否解码所述报文，所述处理模块具体用于，当所述报文不是静音帧时，根据所述指示信息，确定是否解码所述报文。

16.根据权利要求15所述的装置，其特征在于，

所述处理模块还用于，当所述报文是静音帧时，不解码所述报文。

17.根据权利要求12至16任一项所述的装置，其特征在于，所述报文包括实时传输协议RTP报文。

18.根据权利要求12至17任一项所述的装置，其特征在于，

所述音频内容类型是基于音频信号流发生的场景所确定的；

19.一种音频处理装置，其特征在于，所述装置包括：

处理模块，用于采集音频信号流；对所述音频信号流进行特征识别，得到所述音频信号流的目标特征信息；所述目标特征信息包括音量值和音频内容类型中的至少一种；对所述音频信号流进行编码，生成报文；其中，所述报文的扩展头域中包括指示信息，所述指示信息用于指示所述目标特征信息；

发送模块，用于将所述报文发送给接收设备。

20.根据权利要求19所述的装置，其特征在于，所述报文包括实时传输协议RTP报文。

21.根据权利要求19或20所述的装置，其特征在于，需要识别的特征是由用户或服务器配置的。

22.根据权利要求19至21任一项所述的装置，其特征在于，

所述音频内容类型是基于音频信号流发生的场景所确定的；

23.一种音频处理装置，其特征在于，包括：存储器和处理器；所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行权利要求1至11任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1至11任一项所述的方法。