CN107276777A

CN107276777A - 会议系统的音频处理方法及装置

Info

Publication number: CN107276777A
Application number: CN201710624278.XA
Authority: CN
Inventors: 尚德建; 胡小鹏; 陈卫东
Original assignee: Shanghai Lingshi Communication Technology Development Co Ltd; SUZHOU KEYUAN SOFTWARE TECHNOLOGY DEVELOPMENT Co Ltd; Suzhou Keda Technology Co Ltd
Current assignee: Shanghai Lingshi Communication Technology Development Co Ltd; SUZHOU KEYUAN SOFTWARE TECHNOLOGY DEVELOPMENT Co Ltd; Suzhou Keda Technology Co Ltd
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2017-10-20
Anticipated expiration: 2037-07-27
Also published as: CN107276777B

Abstract

本发明公开了一种会议系统的音频处理方法及装置，其中方法包括如下步骤：接收终端侧发送的音频码流，音频码流的每一音频帧携带有对应的音频信息；对当前音频帧对应的音频信息进行解析，得到解析结果；判断解析结果中是否存在有效语音信息，其中，有效语音信息用于表示参会人员讲话发出的音频；当解析结果中存在有效语音信息时，对当前音频帧进行解码。本发明通过判断音频码流中是否包含有效语音信息，即是否包含有人声，从而能够对参会人员的所有讲话信息进行解码，能够避免将终端侧发送的音频码流全部解码，进而减小了媒体处理单元的资源消耗；能够避免将音量比较小且属于人声音音频码流丢弃，进而提高了会议系统的音频处理效果。

Description

会议系统的音频处理方法及装置

技术领域

本发明涉及通信技术领域，具体涉及一种会议系统的音频处理方法及装置。

背景技术

在信息化越来越发达的今天，视频会议系统(包括如QQ、MSN等即时通讯的多人视频对话)也越来越重要，其中，声音作为视频系统中的一个组成部分有着举足轻重的地位。

当下大多数会议系统都将所有与会终端的音频数据发送到一个媒体平台即媒体处理单元(Media Process Unit，简称为MPU)，由该媒体处理单元统一进行解码、混音、编码的处理。

在终端数量不多的情况下，该设计模式具有较好的工作性能。然而随着现在会议系统越来越大，接入的终端越来越多，从而导致流入中心媒体处理单元的待解码音频数据越来越多。因此，在进行数据解码的过程中，占用大量的系统核心处理器性能，使得整个系统的性能下降。例如，一个8方会议，音频解码的核心处理器占用比率只有8％；一个192方会议，音频解码的核心处理器占用比率达到300％。由此可见，随着与会终端数量的上升，即便与会终端中绝大多数都是不说话的，语音数据是静音杂音的终端，但是系统性能下降非常明显。

为解决上述技术问题，目前采用的技术是：在接收到音频码流之后通过音量值判断是否对相应的音频码流进行解码。如公开号CN101489091A的专利文献公开了，发送端获取语音数据码流及其对应的音量值；将语音数据码流及对应的音量值一起发送给接收端，其中所述的语音数据码流实质上是指接收端接收到的音频数据码流。在该方案中，接收端接收语音数据码流及其对应的音量值之后，判断音量值的大小，如果大于业务策略所需的音量在值，则对该音量值对应的语音数据码流进行解码。然而，该方案对于人声音量很小的终端则会产生问题，导致该类音频直接被丢弃，而不会进行相应的解码处理。例如电话的采集的人声音量通常都比较小，而采用上述技术方案在进行语音信息的处理过程中，会将电话的声音直接丢弃，从而导致其他终端都无法获取到电话的声音。

发明内容

因此，本发明要解决的技术问题在于现有技术中容易将包含有人声但音量比较小的终端发送过来的音频码流丢弃、不解码，从而提供一种会议系统的音频处理方法及装置。

根据第一方面，本发明实施例提供一种会议系统的音频处理方法，包括如下步骤：

接收终端侧发送的音频码流，所述音频码流的每一音频帧携带有对应的音频信息；

对当前音频帧对应的音频信息进行解析，得到解析结果；

判断所述解析结果中是否存在有效语音信息，其中，所述有效语音信息用于表示参会人员讲话发出的音频；

当所述解析结果中存在所述有效语音信息时，对所述当前音频帧进行解码。

可选地，当所述解析结果中不存在所述有效语音信息时，获取所述解析结果中用于表示所述当前音频帧能量的能量值；

判断所述能量值是否大于等于预设阈值；

当所述能量值大于等于所述预设阈值时，对所述当前音频帧进行解码。

可选地，当所述能量值小于所述预设阈值时，判断所述当前音频帧的前一音频帧是否解码；

当所述当前音频帧的前一音频帧已经解码，则对所述当前音频帧及后续连续n帧音频帧进行解码，其中，n为预设值。

可选地，对所述当前音频帧及后续连续n帧音频帧进行解码包括：

对所述当前音频帧进行解码，并且解码状态值加1；

判断所述解码状态值是否达到预设值；

当所述解码状态值未达到所述预设值时，则获取下一音频帧，将所述下一音频帧作为当前音频帧，返回对所述当前音频帧进行解码的步骤。

可选地，当所述解码状态值达到所述预设值时，则将当前音频帧丢弃，将所述解码状态值复位；获取下一音频帧，将下一音频帧作为当前音频帧，返回所述对当前音频帧对应的音频信息进行解析，得到解析结果的步骤。

根据第二方面，本发明提供一种会议系统的音频处理装置，包括：

接收单元，用于接收终端侧发送的音频码流，所述音频码流的每一音频帧携带有对应的音频信息；

解析单元，用于对当前音频帧对应的音频信息进行解析，得到解析结果；

第一判断单元，用于判断所述解析结果中是否存在有效语音信息，其中，所述有效语音信息用于表示参会人员讲话发出的音频；

第一解码单元，用于当所述解析结果中存在所述有效语音信息时，对所述当前音频帧进行解码。

可选地，该音频处理装置还包括：

获取单元，用于当所述解析结果中不存在所述有效语音信息时，获取所述解析结果中用于表示所述当前音频帧能量的能量值；

第二判断单元，用于判断所述能量值是否大于等于预设阈值；

第二解码单元，用于当所述能量值大于等于所述预设阈值时，对所述当前音频帧进行解码。

可选地，该音频处理装置还包括：

第三判断单元，用于当所述能量值小于所述预设阈值时，判断所述当前音频帧的前一音频帧是否解码；

第三解码单元，用于当所述当前音频帧的前一音频帧已经解码，则对所述当前音频帧及后续连续n帧音频帧进行解码，其中，n为预设值。

可选地，所述第三解码单元包括：

解码子单元，用于对所述当前音频帧进行解码，并且解码状态值加1；

判断子单元，用于判断所述解码状态值是否达到预设值；

获取子单元，用于当所述解码状态值未达到所述预设值时，则获取下一音频帧，将所述下一音频帧作为当前音频帧，返回对所述当前音频帧进行解码的步骤。

根据第三方面，本发明实施例提供一种媒体平台，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明第一方面任一项所述的音频处理方法。

本发明技术方案，具有如下优点：

1.本发明提供的会议系统的音频处理方法，包括如下步骤：接收终端侧发送的音频码流，音频码流的每一音频帧携带有对应的音频信息；对当前音频帧对应的音频信息进行解析，得到解析结果；判断解析结果中是否存在有效语音信息，其中，有效语音信息用于表示参会人员讲话发出的音频；当解析结果中存在有效语音信息时，对当前音频帧进行解码。本发明通过判断音频码流中是否包含有效语音信息，即是否包含有人声，从而能够对参会人员的所有讲话信息进行解码，一方面能够避免将终端侧发送的音频码流全部解码，进而减小了媒体处理单元的资源消耗；另一方面，能够避免将音量比较小且属于人声音的音频码流丢弃、不解码，进而提高了会议系统的音频处理效果。

2.本发明提供的音频处理方法，当所述解析结果中不存在所述有效语音信息时，获取所述解析结果中用于表示所述当前音频帧能量的能量值；判断所述能量值是否大于等于预设阈值；当所述能量值大于等于所述预设阈值时，对所述当前音频帧进行解码。本发明通过在判断出音频码流中不存在有效语音时，再次对不存在有效语音的音频码流进行能量值的判断，将能量值大于等于预设阈值的音频信息进行解码，从而能够避免在有效语音判断过程中出现误差，进而提高了会议系统音频处理的效果。

3.本发明提供的音频处理方法，当所述能量值小于所述预设阈值时，判断所述当前音频帧的前一音频帧是否解码；当所述当前音频帧的前一音频帧已经解码，则对所述当前音频帧及后续连续n帧音频帧进行解码，其中，n为预设值。通过对能量值小于预设阈值的音频信息进行连续解码的判断，一方面能够为音频码流的能量值判断提供一定的误差范围，另一方面连续的解码能够保证会议系统的音频的连贯性。

4.本发明提供的音频处理装置，包括：接收单元，用于接收终端侧发送的音频码流，所述音频码流的每一音频帧携带有对应的音频信息；解析单元，用于对当前音频帧对应的音频信息进行解析，得到解析结果；第一判断单元，用于判断所述解析结果中是否存在有效语音信息，其中，所述有效语音信息用于表示参会人员讲话发出的音频；第一解码单元，用于当所述解析结果中存在所述有效语音信息时，对所述当前音频帧进行解码。本发明提供的音频处理装置通过判断音频码流中是否包含有效语音信息，即是否包含有人声，从而能够对参会人员的所有讲话信息进行解码，一方面能够避免将终端侧发送的音频码流全部解码，进而减小了媒体处理单元的资源消耗；另一方面，能够避免将音量比较小且属于人声音的音频码流丢弃、不解码，进而提高了会议系统的音频处理效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的应用场景示意图；

图2为本发明实施例1中会议系统的音频处理方法的一个具体示例的方法流程图；

图3为本发明实施例2中会议系统的音频处理方法的一个具体示例的方法流程图；

图4为本发明实施例3中会议系统的音频处理方法的一个具体示例的方法流程图；

图5为本发明实施例3中会议系统的音频处理方法的一个具体示例的方法流程图；

图6为本发明实施例4中会议系统的音频处理装置的一个具体示例的结构框图；

图7为本发明实施例4中会议系统的音频处理装置的一个具体示例的结构框图；

图8为本发明实施例4中会议系统的音频处理装置的一个具体示例的结构框图；

图9为本发明实施例4中会议系统的音频处理装置的一个具体示例的结构框图；

图10为本发明实施例4中会议系统的音频处理装置的一个具体示例结构框图；

图11为本发明实施例5中媒体平台的一个具体示例的结构框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1示出了本发明实施例的应用场景示意图。会议系统包括终端侧和媒体平台，其中终端可以为多台。图1中示出了包括两个会议终端的情况，即会议系统包括媒体平台、第一终端和第二终端。其中，第一终端和第二终端可以是音频码流采集终端，例如智能手机、平板电脑等移动客户端，也可以是专用的音视频会议系统终端。

通常情况下，会议系统的工作过程如下，终端侧实时采集与会人员的音频信息，将其转换成音频帧封装后发送给媒体平台，媒体平台对所接收的音频帧进行音频处理后，发送给其他终端。

具体地，在本发明实施例中，终端侧实时采集参会人员的音频，对该音频信息进行采样、量化和编码转换为离散的数字音频码流。在将数字音频码流封装成数据帧进行发送时，是根据传输协议进行的。常用的音频传输协议有基于HTTP的流媒体传输协议，(HTTPLive Streaming)、实时消息传送协议(Real Time Messaging Protocol，简称为RTMP)以及实时传输协议(Real-time Transport Protocol，简称为RTP)等等。在本发明实施例中，根据RTP协议进行音频帧的封装。在该音频帧除了包括有音频数据的内容，在帧的RTP扩展头上增加有效状态值的变量标记bHasVioce，用于表示该音频帧中是否包含有效语音信息，以及能量值的变量标记byRMS，用于表示该音频帧的能量值。

其中，有效语音信息用于表示参会人员讲话发出的音频，本发明实施例中的有效语音信息是通过语音活动检测(Voice activity detection，简称为VAD)来识别的，具体地，对音频码流的频率进行采样，通过分析采样点中的频率信息来识别，由于人的有效发生频率基本不超过4KHz，因此，只需要检测4KHz以下频率中携带的能量值大小即可，从而能够简化计算过程，提高工作效率。若通过VAD识别出该音频码流中存在有效语音，则将bHasVioce设置为第一参数；若通过VAD识别出该音频码流中不存在有效语音，则将bHasVioce设置为第二参数；其中，第一参数、第二参数可以为任意字符或数字。作为一种可选的实施方式，本实施例中，第一参数设置为1，表示该音频帧中存在有效语音；第二参数设置为0，表示该音频帧中不存在有效语音。通过1、0分别表示第一参数和第二参数，从而能够简化音频帧的封装，为媒体平台的解码提供了便利。

此外，本发明实施例中对音频帧的音量进行采样，对采样值进行处理后，形成上述的变量byRMS的具体数值。作为一种可选的实施方式，对该音频码流的能量值进行均方根归一化处理，具体采用如下公式计算：

其中，byRMS为能量值，n为采样点的个数，a_i为能量的各采样值。

作为另一种可选的实施方式，对该音频帧的能量值进行对数归一化处理，具体采用如下公式计算：

其中，A为常数，byRMS为能量值，n为采样点的个数，a_i为能量的各采样值，m为采样深度。

本发明实施例中，将音频帧的能量值通过上述公式进行归一化处理，即将能量值的数值设置为(-∞，0)。作为一种可选的实施方式，将能量值的最小值归一化处理为-127，即能量值的数值为(-127，0)。由于音频能量值在-127以下时，人耳不能识别出该音频，因此，选用-127作为能量值的最小值能够简化计算过程，提高工作效率。

本发明实施例中，A可以为5、10或20等等，采样深度可以为8位、16位，也可以为24位，本发明实施例中采用的采样深度为16位，A＝20，既能保证采样精度，又能简化计算过程，提高工作效率。

本发明实施例中的终端侧，通过将有效语音状态值以及能量值的变量标记以及对应的数值封装至音频帧中。终端侧实时采集参会人员的音频，经过采样、量化编码后，形成由音频帧构成的音频码流，发送至媒体平台。

实施例1

本实施例提供一种会议系统的音频处理方法，应用于媒体平台的音频处理装置中，流程图如图2所示，包括如下步骤：

步骤S11，接收终端侧发送的音频码流，音频码流的每一音频帧携带有对应的音频信息；其中，该音频信息可以是封装在音频帧内的音频码流的属性信息，例如能量值、有效语音状态值等等。

步骤S12，对当前音频帧对应的音频信息进行解析，得到解析结果。

本实施例中，通过对当前音频帧所携带的音频信息进行解析，提取出当前音频帧帧头上的音频信息。

步骤S13，判断解析结果中是否存在有效语音信息，若是则进入步骤S14，否则执行其他操作。

本实施例中的有效语音信息是通过音频帧帧头上的有效状态值对应的变量标记bHasVioce进行标记的，作为本实施例的一种可选实施方式，当bHasVioce＝1时，表示该音频帧中存在有效语音；当bHasVioce＝0时，表示该音频帧中不存在有效语音。因此，在步骤S13中，只需判断解析结果中变量bHasVioce的数值，即可判断出该音频帧中是否存在有效语音。

此外，本实施例中的其他操作，可以是将不存在有效语音信息的音频帧丢弃，也可以是根据解析结果中的其他音频信息，例如能量值，对该音频帧进行解码。

步骤S14，对当前音频帧进行解码。

本实施例中，可以采用PCM解码、MP3解码、OGG解码以及MPC解码方式对当前音频帧进行解码。作为一种可选的实施方式，本实施例中采用PCM解码方式进行，能够保证解码过程具有很强的抗干扰性，而且可以很方便的利用计算机编程，不增加或少增加成本，实现该会议系统的各种智能化设计。

上述会议系统的音频处理方法，通过判断音频码流中是否包含有效语音信息，即是否包含有人声，从而能够对参会人员的所有讲话信息进行解码，一方面能够避免将终端侧发送的音频码流全部解码，进而减小了媒体处理单元的资源消耗；另一方面，能够避免将音量比较小且属于人声音的音频码流丢弃、不解码，进而提高了会议系统的音频处理效果。

实施例2

本实施例提供一种会议系统的音频处理方法，应用于媒体平台的音频处理装置中，流程图如图3所示，包括如下步骤：

步骤S21，接收终端侧发送的音频码流，音频码流的每一音频帧携带有对应的音频信息。与实施例1中的步骤S11相同，不再赘述。

步骤S22，对当前音频帧对应的音频信息进行解析，得到解析结果。与实施例1中的步骤S12相同，不再赘述。

步骤S23，判断解析结果中是否存在有效语音信息，若是则进入步骤S24，否则执行步骤S25。

步骤S24，对当前音频帧进行解码。与实施例1中的步骤S14相同，不再赘述。

步骤S25，获取解析结果中用于表示当前音频帧能量的能量值。

本实施例中，音频帧的能量值是通过在该音频帧帧头上的能量值的变量标记byRMS进行表示的。通过对能量值进行归一化处理，转换为(-127,0)之间的数值，即byRMS∈(-127,0)。

步骤S26，判断能量值是否大于等于预设阈值，若是则进入步骤S24，否则执行其他操作。

本实施例中，将上述步骤S25中所获取的当前音频帧能量的能量值与预设阈值进行比较。该预设阈值为[-55，-45]，作为本实施例的一种可选实施方式，预设阈值为-50，从而既能够较好地隔绝当前音频帧中噪音，又能够保证在终端侧误判为无效语音值的音频帧信号提取出，进而提高了音频处理的效果。因此，在步骤S26中，仅需判断音频帧帧头上的能量值的变量标记byRMS的具体数值是否大于等于-50，即可将能量值较小但属于有效语音的音频帧提取出来。

此外，本实施例中的其他操作，可以是将能量值小于预设阈值的音频帧丢弃，也可以是根据前一音频帧的解码状态，对该音频帧进行解码。

实施例3

本实施例提供一种会议系统的音频处理方法，应用于媒体平台的音频处理装置中，流程图如图4所示，包括如下步骤：

步骤S31，接收终端侧发送的音频码流，音频码流的每一音频帧携带有对应的音频信息。与实施例2中的步骤S21相同，不再赘述。

步骤S32，对当前音频帧对应的音频信息进行解析，得到解析结果。与实施例2中的步骤S22相同，不再赘述。

步骤S33，判断解析结果中是否存在有效语音信息，若是则进入步骤S34，否则执行步骤S35。与实施例2中的步骤S23相同，不再赘述。

步骤S34，对当前音频帧进行解码。与实施例2中的步骤S24相同，不再赘述。

步骤S35，获取解析结果中用于表示当前音频帧能量的能量值。与实施例2中的步骤S25相同，不再赘述。

步骤S36，判断能量值是否大于等于预设阈值，若是则进入步骤S34，否则执行步骤S37。

步骤S37，判断当前音频帧的前一音频帧是否解码，若是则进入步骤S38，否则执行步骤S39。

步骤S38，对当前音频帧及后续连续n帧音频帧进行解码，其中，n为预设值。

其中，预设值根据终端侧与媒体平台之间的音频传输协议进行设置的。本实施例中的音频传输协议采用RTP协议，每一帧RTP数据就对应着一帧音频数据。作为本实施例的一种可选实施方式，预设值为20，即本实施例中的音频处理方法可以对当前音频帧及后续连续20帧音频帧进行解码。上述20帧对应着一个时间概念，一般20帧的时间长度就能达到500ms。而人说话吐字间隔基本在100ms-300ms，只有持续的解码超过300ms才能保证该终端不会被频繁替换。因此，本实施例中的保证连续20帧音频帧解码的音频处理方法，从而能够保证音频质量与处理之前无差别。

作为本实施例的一种可选实施方式，如图5所示，步骤S38具体包括以下步骤：

步骤S381，对当前音频帧进行解码，并且解码状态值加1。

本实施例中，在对音频帧进行处理之前，解码状态值设置为0，在音频处理过程中，每执行一次解码操作，解码状态值加1。作为本实施例的一种可选实施方式，可以在步骤S381之前，对当前音频帧的能量值进行放大，然后在执行步骤S381，从而使得媒体平台输出的处理后音频帧的能量能够满足与会人员的需求。

步骤S382，判断所述解码状态值是否达到预设值，若是则进入步骤S383，否则执行步骤S384。

本实施例中解码状态值对应的预设值为20，即在上述步骤S382中，只需判断解码状态值是否达到20，即可判断出是否需要连续解码。

步骤S383，将当前音频帧丢弃，将解码状态值复位；获取下一音频帧，将下一音频帧作为当前音频帧，返回步骤S32。

在解码状态值大于20的情况下，表示已经完成连续20帧的音频帧的解码，连续解码完成。同时，当前音频帧不满足解码条件，即当前音频帧中不存在有效语音，且当前音频帧的能量值小于-50，表示当前音频帧中不存在声音，将当前音频帧丢弃，从而保证在大量与会终端存在时，该以媒体平台集中进行音频解码的会议系统的核心处理器占用率下降，进而提升会议接入能力，降低成本并保证音频质量与处理之前无差别。

本实施例中，将当前帧丢弃后，需要将解码状态值复位，即将解码状态值设置为0，为下一音频帧的解码做准备。同时，获取下一音频帧，并将该下一音频帧作为当前音频帧，返回对当前音频帧对应的音频信息进行解析，得到解析结果的步骤，即返回步骤S32。

步骤S384，获取下一音频帧，将下一音频帧作为当前音频帧，返回对当前音频帧进行解码的步骤S381。

在解码状态值小于或等于20的情况下，表示连续20帧的音频帧的解码尚未完成，可以继续进行连续解码操作。即，获取下一音频帧，将下一音频帧作为当前音频帧，返回对当前音频帧进行解码的步骤S381。

步骤S39，将当前音频帧丢弃，将解码状态值复位；获取下一音频帧，将下一音频帧作为当前音频帧，返回步骤S32。与实施例3中的步骤S383相同，不再赘述。

实施例4

本施例提供一种会议系统的音频处理装置，用于执行实施例1中的会议系统的音频处理方法。如图6所示，该音频处理装置包括：

接收单元41，用于接收终端侧发送的音频码流，该音频码流的每一音频帧携带有对应的音频信息；

解析单元42，用于对当前音频帧对应的音频信息进行解析，得到解析结果；

第一判断单元43，用于判断解析结果中是否存在有效语音信息，其中，所述有效语音信息用于表示参会人员讲话发出的音频；

第一解码单元44，用于当所述解析结果中存在所述有效语音信息时，对所述当前音频帧进行解码。

作为本实施例的一种可选实施方式，如图7所示，该音频处理装置还包括：

获取单元45，用于当所述解析结果中不存在所述有效语音信息时，获取所述解析结果中用于表示所述当前音频帧能量的能量值；

第二判断单元46，用于判断所述能量值是否大于等于预设阈值；

第二解码单元47，用于当所述能量值大于等于所述预设阈值时，对所述当前音频帧进行解码。

作为本实施例的一种可选实施方式，如图8所示，该音频处理装置还包括：

第三判断单元48，用于当所述能量值小于所述预设阈值时，判断所述当前音频帧的前一音频帧是否解码；

第三解码单元49，用于当所述当前音频帧的前一音频帧已经解码，则对所述当前音频帧及后续连续n帧音频帧进行解码，其中，n为预设值。如图9所示，该第三解码单元具体包括：

解码子单元491，用于对当前音频帧进行解码，并且解码状态值加1；

判断子单元492，用于判断解码状态值是否达到预设值；

获取子单元493，用于当解码状态值未达到预设值时，则获取下一音频帧，将下一音频帧作为当前音频帧，返回对当前音频帧进行解码的步骤。

作为本实施例的另一种可选实施方式，如图10所示，上述第三解码单元还包括：

复位子单元494，用于当解码状态值达到预设值时，则将当前音频帧丢弃，将解码状态值复位；获取下一音频帧，将下一音频帧作为当前音频帧，返回对当前音频帧对应的音频信息进行解析，得到解析结果的步骤。

本实施例提供的音频处理装置，通过判断音频码流中是否包含有效语音信息，即是否包含有人声，从而能够对参会人员的所有讲话信息进行解码，一方面能够避免将终端侧发送的音频码流全部解码，进而减小了媒体处理单元的资源消耗；另一方面，能够避免将音量比较小且属于人声音的音频码流丢弃、不解码，进而提高了会议系统的音频处理效果。

实施例5

图11是本发明实施例提供的媒体平台的硬件结构示意图，如图11所示，该设备包括一个或多个处理器51以及存储器52，图11中以一个处理器51为例。

媒体平台还可以包括：音频图像显示器(未示出)，用于显示音频的电平幅值图像。处理器51、存储器52和音频图像显示器可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器51可以为中央处理器(Central Processing Unit，CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的会议系统的音频处理方法对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述实施例中，会议系统的音频处理方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据回声消除的测试装置的使用所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至会议系统的音频处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器52中，当被所述一个或者多个处理器51执行时，执行实施例1中所述的会议系统的音频处理方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，具体可参见如图2所示的实施例中的相关描述。

实施例6

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行实施例1中所述的会议系统的音频处理方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一种计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种会议系统的音频处理方法，其特征在于，包括如下步骤：

对当前音频帧对应的音频信息进行解析，得到解析结果；

2.根据权利要求1所述的音频处理方法，其特征在于，

当所述解析结果中不存在所述有效语音信息时，获取所述解析结果中用于表示所述当前音频帧能量的能量值；

判断所述能量值是否大于等于预设阈值；

3.根据权利要求2所述的音频处理方法，其特征在于，

当所述能量值小于所述预设阈值时，判断所述当前音频帧的前一音频帧是否解码；

4.根据权利要求3所述的音频处理方法，其特征在于，对所述当前音频帧及后续连续n帧音频帧进行解码包括：

对所述当前音频帧进行解码，并且解码状态值加1；

判断所述解码状态值是否达到预设值；

5.根据权利要求4所述的音频处理方法，其特征在于，

当所述解码状态值达到所述预设值时，则将当前音频帧丢弃，将所述解码状态值复位；获取下一音频帧，将下一音频帧作为当前音频帧，返回所述对当前音频帧对应的音频信息进行解析，得到解析结果的步骤。

6.一种会议系统的音频处理装置，其特征在于，包括：

7.根据权利要求6所述的音频处理装置，其特征在于，还包括：

8.根据权利要求6所述的音频处理装置，其特征在于，

9.根据权利要求8所述的音频处理装置，其特征在于，所述第三解码单元包括：

判断子单元，用于判断所述解码状态值是否达到预设值；

10.一种媒体平台，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-5任一项所述的音频处理方法。