CN107276777A - 会议系统的音频处理方法及装置 - Google Patents
会议系统的音频处理方法及装置 Download PDFInfo
- Publication number
- CN107276777A CN107276777A CN201710624278.XA CN201710624278A CN107276777A CN 107276777 A CN107276777 A CN 107276777A CN 201710624278 A CN201710624278 A CN 201710624278A CN 107276777 A CN107276777 A CN 107276777A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio frame
- decoded
- frame
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000015654 memory Effects 0.000 claims description 22
- 108010001267 Protein Subunits Proteins 0.000 claims description 2
- 230000005055 memory storage Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005538 encapsulation Methods 0.000 description 3
- 206010021703 Indifference Diseases 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000331006 Euchaeta media Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008717 functional decline Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种会议系统的音频处理方法及装置,其中方法包括如下步骤:接收终端侧发送的音频码流,音频码流的每一音频帧携带有对应的音频信息;对当前音频帧对应的音频信息进行解析,得到解析结果;判断解析结果中是否存在有效语音信息,其中,有效语音信息用于表示参会人员讲话发出的音频;当解析结果中存在有效语音信息时,对当前音频帧进行解码。本发明通过判断音频码流中是否包含有效语音信息,即是否包含有人声,从而能够对参会人员的所有讲话信息进行解码,能够避免将终端侧发送的音频码流全部解码,进而减小了媒体处理单元的资源消耗;能够避免将音量比较小且属于人声音音频码流丢弃,进而提高了会议系统的音频处理效果。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种会议系统的音频处理方法及装置。
背景技术
在信息化越来越发达的今天,视频会议系统(包括如QQ、MSN等即时通讯的多人视频对话)也越来越重要,其中,声音作为视频系统中的一个组成部分有着举足轻重的地位。
当下大多数会议系统都将所有与会终端的音频数据发送到一个媒体平台即媒体处理单元(Media Process Unit,简称为MPU),由该媒体处理单元统一进行解码、混音、编码的处理。
在终端数量不多的情况下,该设计模式具有较好的工作性能。然而随着现在会议系统越来越大,接入的终端越来越多,从而导致流入中心媒体处理单元的待解码音频数据越来越多。因此,在进行数据解码的过程中,占用大量的系统核心处理器性能,使得整个系统的性能下降。例如,一个8方会议,音频解码的核心处理器占用比率只有8%;一个192方会议,音频解码的核心处理器占用比率达到300%。由此可见,随着与会终端数量的上升,即便与会终端中绝大多数都是不说话的,语音数据是静音杂音的终端,但是系统性能下降非常明显。
为解决上述技术问题,目前采用的技术是:在接收到音频码流之后通过音量值判断是否对相应的音频码流进行解码。如公开号CN101489091A的专利文献公开了,发送端获取语音数据码流及其对应的音量值;将语音数据码流及对应的音量值一起发送给接收端,其中所述的语音数据码流实质上是指接收端接收到的音频数据码流。在该方案中,接收端接收语音数据码流及其对应的音量值之后,判断音量值的大小,如果大于业务策略所需的音量在值,则对该音量值对应的语音数据码流进行解码。然而,该方案对于人声音量很小的终端则会产生问题,导致该类音频直接被丢弃,而不会进行相应的解码处理。例如电话的采集的人声音量通常都比较小,而采用上述技术方案在进行语音信息的处理过程中,会将电话的声音直接丢弃,从而导致其他终端都无法获取到电话的声音。
发明内容
因此,本发明要解决的技术问题在于现有技术中容易将包含有人声但音量比较小的终端发送过来的音频码流丢弃、不解码,从而提供一种会议系统的音频处理方法及装置。
根据第一方面,本发明实施例提供一种会议系统的音频处理方法,包括如下步骤:
接收终端侧发送的音频码流,所述音频码流的每一音频帧携带有对应的音频信息;
对当前音频帧对应的音频信息进行解析,得到解析结果;
判断所述解析结果中是否存在有效语音信息,其中,所述有效语音信息用于表示参会人员讲话发出的音频;
当所述解析结果中存在所述有效语音信息时,对所述当前音频帧进行解码。
可选地,当所述解析结果中不存在所述有效语音信息时,获取所述解析结果中用于表示所述当前音频帧能量的能量值;
判断所述能量值是否大于等于预设阈值;
当所述能量值大于等于所述预设阈值时,对所述当前音频帧进行解码。
可选地,当所述能量值小于所述预设阈值时,判断所述当前音频帧的前一音频帧是否解码;
当所述当前音频帧的前一音频帧已经解码,则对所述当前音频帧及后续连续n帧音频帧进行解码,其中,n为预设值。
可选地,对所述当前音频帧及后续连续n帧音频帧进行解码包括:
对所述当前音频帧进行解码,并且解码状态值加1;
判断所述解码状态值是否达到预设值;
当所述解码状态值未达到所述预设值时,则获取下一音频帧,将所述下一音频帧作为当前音频帧,返回对所述当前音频帧进行解码的步骤。
可选地,当所述解码状态值达到所述预设值时,则将当前音频帧丢弃,将所述解码状态值复位;获取下一音频帧,将下一音频帧作为当前音频帧,返回所述对当前音频帧对应的音频信息进行解析,得到解析结果的步骤。
根据第二方面,本发明提供一种会议系统的音频处理装置,包括:
接收单元,用于接收终端侧发送的音频码流,所述音频码流的每一音频帧携带有对应的音频信息;
解析单元,用于对当前音频帧对应的音频信息进行解析,得到解析结果;
第一判断单元,用于判断所述解析结果中是否存在有效语音信息,其中,所述有效语音信息用于表示参会人员讲话发出的音频;
第一解码单元,用于当所述解析结果中存在所述有效语音信息时,对所述当前音频帧进行解码。
可选地,该音频处理装置还包括:
获取单元,用于当所述解析结果中不存在所述有效语音信息时,获取所述解析结果中用于表示所述当前音频帧能量的能量值;
第二判断单元,用于判断所述能量值是否大于等于预设阈值;
第二解码单元,用于当所述能量值大于等于所述预设阈值时,对所述当前音频帧进行解码。
可选地,该音频处理装置还包括:
第三判断单元,用于当所述能量值小于所述预设阈值时,判断所述当前音频帧的前一音频帧是否解码;
第三解码单元,用于当所述当前音频帧的前一音频帧已经解码,则对所述当前音频帧及后续连续n帧音频帧进行解码,其中,n为预设值。
可选地,所述第三解码单元包括:
解码子单元,用于对所述当前音频帧进行解码,并且解码状态值加1;
判断子单元,用于判断所述解码状态值是否达到预设值;
获取子单元,用于当所述解码状态值未达到所述预设值时,则获取下一音频帧,将所述下一音频帧作为当前音频帧,返回对所述当前音频帧进行解码的步骤。
根据第三方面,本发明实施例提供一种媒体平台,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明第一方面任一项所述的音频处理方法。
本发明技术方案,具有如下优点:
1.本发明提供的会议系统的音频处理方法,包括如下步骤:接收终端侧发送的音频码流,音频码流的每一音频帧携带有对应的音频信息;对当前音频帧对应的音频信息进行解析,得到解析结果;判断解析结果中是否存在有效语音信息,其中,有效语音信息用于表示参会人员讲话发出的音频;当解析结果中存在有效语音信息时,对当前音频帧进行解码。本发明通过判断音频码流中是否包含有效语音信息,即是否包含有人声,从而能够对参会人员的所有讲话信息进行解码,一方面能够避免将终端侧发送的音频码流全部解码,进而减小了媒体处理单元的资源消耗;另一方面,能够避免将音量比较小且属于人声音的音频码流丢弃、不解码,进而提高了会议系统的音频处理效果。
2.本发明提供的音频处理方法,当所述解析结果中不存在所述有效语音信息时,获取所述解析结果中用于表示所述当前音频帧能量的能量值;判断所述能量值是否大于等于预设阈值;当所述能量值大于等于所述预设阈值时,对所述当前音频帧进行解码。本发明通过在判断出音频码流中不存在有效语音时,再次对不存在有效语音的音频码流进行能量值的判断,将能量值大于等于预设阈值的音频信息进行解码,从而能够避免在有效语音判断过程中出现误差,进而提高了会议系统音频处理的效果。
3.本发明提供的音频处理方法,当所述能量值小于所述预设阈值时,判断所述当前音频帧的前一音频帧是否解码;当所述当前音频帧的前一音频帧已经解码,则对所述当前音频帧及后续连续n帧音频帧进行解码,其中,n为预设值。通过对能量值小于预设阈值的音频信息进行连续解码的判断,一方面能够为音频码流的能量值判断提供一定的误差范围,另一方面连续的解码能够保证会议系统的音频的连贯性。
4.本发明提供的音频处理装置,包括:接收单元,用于接收终端侧发送的音频码流,所述音频码流的每一音频帧携带有对应的音频信息;解析单元,用于对当前音频帧对应的音频信息进行解析,得到解析结果;第一判断单元,用于判断所述解析结果中是否存在有效语音信息,其中,所述有效语音信息用于表示参会人员讲话发出的音频;第一解码单元,用于当所述解析结果中存在所述有效语音信息时,对所述当前音频帧进行解码。本发明提供的音频处理装置通过判断音频码流中是否包含有效语音信息,即是否包含有人声,从而能够对参会人员的所有讲话信息进行解码,一方面能够避免将终端侧发送的音频码流全部解码,进而减小了媒体处理单元的资源消耗;另一方面,能够避免将音量比较小且属于人声音的音频码流丢弃、不解码,进而提高了会议系统的音频处理效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的应用场景示意图;
图2为本发明实施例1中会议系统的音频处理方法的一个具体示例的方法流程图;
图3为本发明实施例2中会议系统的音频处理方法的一个具体示例的方法流程图;
图4为本发明实施例3中会议系统的音频处理方法的一个具体示例的方法流程图;
图5为本发明实施例3中会议系统的音频处理方法的一个具体示例的方法流程图;
图6为本发明实施例4中会议系统的音频处理装置的一个具体示例的结构框图;
图7为本发明实施例4中会议系统的音频处理装置的一个具体示例的结构框图;
图8为本发明实施例4中会议系统的音频处理装置的一个具体示例的结构框图;
图9为本发明实施例4中会议系统的音频处理装置的一个具体示例的结构框图;
图10为本发明实施例4中会议系统的音频处理装置的一个具体示例结构框图;
图11为本发明实施例5中媒体平台的一个具体示例的结构框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
图1示出了本发明实施例的应用场景示意图。会议系统包括终端侧和媒体平台,其中终端可以为多台。图1中示出了包括两个会议终端的情况,即会议系统包括媒体平台、第一终端和第二终端。其中,第一终端和第二终端可以是音频码流采集终端,例如智能手机、平板电脑等移动客户端,也可以是专用的音视频会议系统终端。
通常情况下,会议系统的工作过程如下,终端侧实时采集与会人员的音频信息,将其转换成音频帧封装后发送给媒体平台,媒体平台对所接收的音频帧进行音频处理后,发送给其他终端。
具体地,在本发明实施例中,终端侧实时采集参会人员的音频,对该音频信息进行采样、量化和编码转换为离散的数字音频码流。在将数字音频码流封装成数据帧进行发送时,是根据传输协议进行的。常用的音频传输协议有基于HTTP的流媒体传输协议,(HTTPLive Streaming)、实时消息传送协议(Real Time Messaging Protocol,简称为RTMP)以及实时传输协议(Real-time Transport Protocol,简称为RTP)等等。在本发明实施例中,根据RTP协议进行音频帧的封装。在该音频帧除了包括有音频数据的内容,在帧的RTP扩展头上增加有效状态值的变量标记bHasVioce,用于表示该音频帧中是否包含有效语音信息,以及能量值的变量标记byRMS,用于表示该音频帧的能量值。
其中,有效语音信息用于表示参会人员讲话发出的音频,本发明实施例中的有效语音信息是通过语音活动检测(Voice activity detection,简称为VAD)来识别的,具体地,对音频码流的频率进行采样,通过分析采样点中的频率信息来识别,由于人的有效发生频率基本不超过4KHz,因此,只需要检测4KHz以下频率中携带的能量值大小即可,从而能够简化计算过程,提高工作效率。若通过VAD识别出该音频码流中存在有效语音,则将bHasVioce设置为第一参数;若通过VAD识别出该音频码流中不存在有效语音,则将bHasVioce设置为第二参数;其中,第一参数、第二参数可以为任意字符或数字。作为一种可选的实施方式,本实施例中,第一参数设置为1,表示该音频帧中存在有效语音;第二参数设置为0,表示该音频帧中不存在有效语音。通过1、0分别表示第一参数和第二参数,从而能够简化音频帧的封装,为媒体平台的解码提供了便利。
此外,本发明实施例中对音频帧的音量进行采样,对采样值进行处理后,形成上述的变量byRMS的具体数值。作为一种可选的实施方式,对该音频码流的能量值进行均方根归一化处理,具体采用如下公式计算:
其中,byRMS为能量值,n为采样点的个数,ai为能量的各采样值。
作为另一种可选的实施方式,对该音频帧的能量值进行对数归一化处理,具体采用如下公式计算:
其中,A为常数,byRMS为能量值,n为采样点的个数,ai为能量的各采样值,m为采样深度。
本发明实施例中,将音频帧的能量值通过上述公式进行归一化处理,即将能量值的数值设置为(-∞,0)。作为一种可选的实施方式,将能量值的最小值归一化处理为-127,即能量值的数值为(-127,0)。由于音频能量值在-127以下时,人耳不能识别出该音频,因此,选用-127作为能量值的最小值能够简化计算过程,提高工作效率。
本发明实施例中,A可以为5、10或20等等,采样深度可以为8位、16位,也可以为24位,本发明实施例中采用的采样深度为16位,A=20,既能保证采样精度,又能简化计算过程,提高工作效率。
本发明实施例中的终端侧,通过将有效语音状态值以及能量值的变量标记以及对应的数值封装至音频帧中。终端侧实时采集参会人员的音频,经过采样、量化编码后,形成由音频帧构成的音频码流,发送至媒体平台。
实施例1
本实施例提供一种会议系统的音频处理方法,应用于媒体平台的音频处理装置中,流程图如图2所示,包括如下步骤:
步骤S11,接收终端侧发送的音频码流,音频码流的每一音频帧携带有对应的音频信息;其中,该音频信息可以是封装在音频帧内的音频码流的属性信息,例如能量值、有效语音状态值等等。
步骤S12,对当前音频帧对应的音频信息进行解析,得到解析结果。
本实施例中,通过对当前音频帧所携带的音频信息进行解析,提取出当前音频帧帧头上的音频信息。
步骤S13,判断解析结果中是否存在有效语音信息,若是则进入步骤S14,否则执行其他操作。
本实施例中的有效语音信息是通过音频帧帧头上的有效状态值对应的变量标记bHasVioce进行标记的,作为本实施例的一种可选实施方式,当bHasVioce=1时,表示该音频帧中存在有效语音;当bHasVioce=0时,表示该音频帧中不存在有效语音。因此,在步骤S13中,只需判断解析结果中变量bHasVioce的数值,即可判断出该音频帧中是否存在有效语音。
此外,本实施例中的其他操作,可以是将不存在有效语音信息的音频帧丢弃,也可以是根据解析结果中的其他音频信息,例如能量值,对该音频帧进行解码。
步骤S14,对当前音频帧进行解码。
本实施例中,可以采用PCM解码、MP3解码、OGG解码以及MPC解码方式对当前音频帧进行解码。作为一种可选的实施方式,本实施例中采用PCM解码方式进行,能够保证解码过程具有很强的抗干扰性,而且可以很方便的利用计算机编程,不增加或少增加成本,实现该会议系统的各种智能化设计。
上述会议系统的音频处理方法,通过判断音频码流中是否包含有效语音信息,即是否包含有人声,从而能够对参会人员的所有讲话信息进行解码,一方面能够避免将终端侧发送的音频码流全部解码,进而减小了媒体处理单元的资源消耗;另一方面,能够避免将音量比较小且属于人声音的音频码流丢弃、不解码,进而提高了会议系统的音频处理效果。
实施例2
本实施例提供一种会议系统的音频处理方法,应用于媒体平台的音频处理装置中,流程图如图3所示,包括如下步骤:
步骤S21,接收终端侧发送的音频码流,音频码流的每一音频帧携带有对应的音频信息。与实施例1中的步骤S11相同,不再赘述。
步骤S22,对当前音频帧对应的音频信息进行解析,得到解析结果。与实施例1中的步骤S12相同,不再赘述。
步骤S23,判断解析结果中是否存在有效语音信息,若是则进入步骤S24,否则执行步骤S25。
步骤S24,对当前音频帧进行解码。与实施例1中的步骤S14相同,不再赘述。
步骤S25,获取解析结果中用于表示当前音频帧能量的能量值。
本实施例中,音频帧的能量值是通过在该音频帧帧头上的能量值的变量标记byRMS进行表示的。通过对能量值进行归一化处理,转换为(-127,0)之间的数值,即byRMS∈(-127,0)。
步骤S26,判断能量值是否大于等于预设阈值,若是则进入步骤S24,否则执行其他操作。
本实施例中,将上述步骤S25中所获取的当前音频帧能量的能量值与预设阈值进行比较。该预设阈值为[-55,-45],作为本实施例的一种可选实施方式,预设阈值为-50,从而既能够较好地隔绝当前音频帧中噪音,又能够保证在终端侧误判为无效语音值的音频帧信号提取出,进而提高了音频处理的效果。因此,在步骤S26中,仅需判断音频帧帧头上的能量值的变量标记byRMS的具体数值是否大于等于-50,即可将能量值较小但属于有效语音的音频帧提取出来。
此外,本实施例中的其他操作,可以是将能量值小于预设阈值的音频帧丢弃,也可以是根据前一音频帧的解码状态,对该音频帧进行解码。
实施例3
本实施例提供一种会议系统的音频处理方法,应用于媒体平台的音频处理装置中,流程图如图4所示,包括如下步骤:
步骤S31,接收终端侧发送的音频码流,音频码流的每一音频帧携带有对应的音频信息。与实施例2中的步骤S21相同,不再赘述。
步骤S32,对当前音频帧对应的音频信息进行解析,得到解析结果。与实施例2中的步骤S22相同,不再赘述。
步骤S33,判断解析结果中是否存在有效语音信息,若是则进入步骤S34,否则执行步骤S35。与实施例2中的步骤S23相同,不再赘述。
步骤S34,对当前音频帧进行解码。与实施例2中的步骤S24相同,不再赘述。
步骤S35,获取解析结果中用于表示当前音频帧能量的能量值。与实施例2中的步骤S25相同,不再赘述。
步骤S36,判断能量值是否大于等于预设阈值,若是则进入步骤S34,否则执行步骤S37。
步骤S37,判断当前音频帧的前一音频帧是否解码,若是则进入步骤S38,否则执行步骤S39。
步骤S38,对当前音频帧及后续连续n帧音频帧进行解码,其中,n为预设值。
其中,预设值根据终端侧与媒体平台之间的音频传输协议进行设置的。本实施例中的音频传输协议采用RTP协议,每一帧RTP数据就对应着一帧音频数据。作为本实施例的一种可选实施方式,预设值为20,即本实施例中的音频处理方法可以对当前音频帧及后续连续20帧音频帧进行解码。上述20帧对应着一个时间概念,一般20帧的时间长度就能达到500ms。而人说话吐字间隔基本在100ms-300ms,只有持续的解码超过300ms才能保证该终端不会被频繁替换。因此,本实施例中的保证连续20帧音频帧解码的音频处理方法,从而能够保证音频质量与处理之前无差别。
作为本实施例的一种可选实施方式,如图5所示,步骤S38具体包括以下步骤:
步骤S381,对当前音频帧进行解码,并且解码状态值加1。
本实施例中,在对音频帧进行处理之前,解码状态值设置为0,在音频处理过程中,每执行一次解码操作,解码状态值加1。作为本实施例的一种可选实施方式,可以在步骤S381之前,对当前音频帧的能量值进行放大,然后在执行步骤S381,从而使得媒体平台输出的处理后音频帧的能量能够满足与会人员的需求。
步骤S382,判断所述解码状态值是否达到预设值,若是则进入步骤S383,否则执行步骤S384。
本实施例中解码状态值对应的预设值为20,即在上述步骤S382中,只需判断解码状态值是否达到20,即可判断出是否需要连续解码。
步骤S383,将当前音频帧丢弃,将解码状态值复位;获取下一音频帧,将下一音频帧作为当前音频帧,返回步骤S32。
在解码状态值大于20的情况下,表示已经完成连续20帧的音频帧的解码,连续解码完成。同时,当前音频帧不满足解码条件,即当前音频帧中不存在有效语音,且当前音频帧的能量值小于-50,表示当前音频帧中不存在声音,将当前音频帧丢弃,从而保证在大量与会终端存在时,该以媒体平台集中进行音频解码的会议系统的核心处理器占用率下降,进而提升会议接入能力,降低成本并保证音频质量与处理之前无差别。
本实施例中,将当前帧丢弃后,需要将解码状态值复位,即将解码状态值设置为0,为下一音频帧的解码做准备。同时,获取下一音频帧,并将该下一音频帧作为当前音频帧,返回对当前音频帧对应的音频信息进行解析,得到解析结果的步骤,即返回步骤S32。
步骤S384,获取下一音频帧,将下一音频帧作为当前音频帧,返回对当前音频帧进行解码的步骤S381。
在解码状态值小于或等于20的情况下,表示连续20帧的音频帧的解码尚未完成,可以继续进行连续解码操作。即,获取下一音频帧,将下一音频帧作为当前音频帧,返回对当前音频帧进行解码的步骤S381。
步骤S39,将当前音频帧丢弃,将解码状态值复位;获取下一音频帧,将下一音频帧作为当前音频帧,返回步骤S32。与实施例3中的步骤S383相同,不再赘述。
实施例4
本施例提供一种会议系统的音频处理装置,用于执行实施例1中的会议系统的音频处理方法。如图6所示,该音频处理装置包括:
接收单元41,用于接收终端侧发送的音频码流,该音频码流的每一音频帧携带有对应的音频信息;
解析单元42,用于对当前音频帧对应的音频信息进行解析,得到解析结果;
第一判断单元43,用于判断解析结果中是否存在有效语音信息,其中,所述有效语音信息用于表示参会人员讲话发出的音频;
第一解码单元44,用于当所述解析结果中存在所述有效语音信息时,对所述当前音频帧进行解码。
作为本实施例的一种可选实施方式,如图7所示,该音频处理装置还包括:
获取单元45,用于当所述解析结果中不存在所述有效语音信息时,获取所述解析结果中用于表示所述当前音频帧能量的能量值;
第二判断单元46,用于判断所述能量值是否大于等于预设阈值;
第二解码单元47,用于当所述能量值大于等于所述预设阈值时,对所述当前音频帧进行解码。
作为本实施例的一种可选实施方式,如图8所示,该音频处理装置还包括:
第三判断单元48,用于当所述能量值小于所述预设阈值时,判断所述当前音频帧的前一音频帧是否解码;
第三解码单元49,用于当所述当前音频帧的前一音频帧已经解码,则对所述当前音频帧及后续连续n帧音频帧进行解码,其中,n为预设值。如图9所示,该第三解码单元具体包括:
解码子单元491,用于对当前音频帧进行解码,并且解码状态值加1;
判断子单元492,用于判断解码状态值是否达到预设值;
获取子单元493,用于当解码状态值未达到预设值时,则获取下一音频帧,将下一音频帧作为当前音频帧,返回对当前音频帧进行解码的步骤。
作为本实施例的另一种可选实施方式,如图10所示,上述第三解码单元还包括:
复位子单元494,用于当解码状态值达到预设值时,则将当前音频帧丢弃,将解码状态值复位;获取下一音频帧,将下一音频帧作为当前音频帧,返回对当前音频帧对应的音频信息进行解析,得到解析结果的步骤。
本实施例提供的音频处理装置,通过判断音频码流中是否包含有效语音信息,即是否包含有人声,从而能够对参会人员的所有讲话信息进行解码,一方面能够避免将终端侧发送的音频码流全部解码,进而减小了媒体处理单元的资源消耗;另一方面,能够避免将音量比较小且属于人声音的音频码流丢弃、不解码,进而提高了会议系统的音频处理效果。
实施例5
图11是本发明实施例提供的媒体平台的硬件结构示意图,如图11所示,该设备包括一个或多个处理器51以及存储器52,图11中以一个处理器51为例。
媒体平台还可以包括:音频图像显示器(未示出),用于显示音频的电平幅值图像。处理器51、存储器52和音频图像显示器可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的会议系统的音频处理方法对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述实施例中,会议系统的音频处理方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据回声消除的测试装置的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至会议系统的音频处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述一个或者多个处理器51执行时,执行实施例1中所述的会议系统的音频处理方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图2所示的实施例中的相关描述。
实施例6
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行实施例1中所述的会议系统的音频处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一种计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种会议系统的音频处理方法,其特征在于,包括如下步骤:
接收终端侧发送的音频码流,所述音频码流的每一音频帧携带有对应的音频信息;
对当前音频帧对应的音频信息进行解析,得到解析结果;
判断所述解析结果中是否存在有效语音信息,其中,所述有效语音信息用于表示参会人员讲话发出的音频;
当所述解析结果中存在所述有效语音信息时,对所述当前音频帧进行解码。
2.根据权利要求1所述的音频处理方法,其特征在于,
当所述解析结果中不存在所述有效语音信息时,获取所述解析结果中用于表示所述当前音频帧能量的能量值;
判断所述能量值是否大于等于预设阈值;
当所述能量值大于等于所述预设阈值时,对所述当前音频帧进行解码。
3.根据权利要求2所述的音频处理方法,其特征在于,
当所述能量值小于所述预设阈值时,判断所述当前音频帧的前一音频帧是否解码;
当所述当前音频帧的前一音频帧已经解码,则对所述当前音频帧及后续连续n帧音频帧进行解码,其中,n为预设值。
4.根据权利要求3所述的音频处理方法,其特征在于,对所述当前音频帧及后续连续n帧音频帧进行解码包括:
对所述当前音频帧进行解码,并且解码状态值加1;
判断所述解码状态值是否达到预设值;
当所述解码状态值未达到所述预设值时,则获取下一音频帧,将所述下一音频帧作为当前音频帧,返回对所述当前音频帧进行解码的步骤。
5.根据权利要求4所述的音频处理方法,其特征在于,
当所述解码状态值达到所述预设值时,则将当前音频帧丢弃,将所述解码状态值复位;获取下一音频帧,将下一音频帧作为当前音频帧,返回所述对当前音频帧对应的音频信息进行解析,得到解析结果的步骤。
6.一种会议系统的音频处理装置,其特征在于,包括:
接收单元,用于接收终端侧发送的音频码流,所述音频码流的每一音频帧携带有对应的音频信息;
解析单元,用于对当前音频帧对应的音频信息进行解析,得到解析结果;
第一判断单元,用于判断所述解析结果中是否存在有效语音信息,其中,所述有效语音信息用于表示参会人员讲话发出的音频;
第一解码单元,用于当所述解析结果中存在所述有效语音信息时,对所述当前音频帧进行解码。
7.根据权利要求6所述的音频处理装置,其特征在于,还包括:
获取单元,用于当所述解析结果中不存在所述有效语音信息时,获取所述解析结果中用于表示所述当前音频帧能量的能量值;
第二判断单元,用于判断所述能量值是否大于等于预设阈值;
第二解码单元,用于当所述能量值大于等于所述预设阈值时,对所述当前音频帧进行解码。
8.根据权利要求6所述的音频处理装置,其特征在于,
第三判断单元,用于当所述能量值小于所述预设阈值时,判断所述当前音频帧的前一音频帧是否解码;
第三解码单元,用于当所述当前音频帧的前一音频帧已经解码,则对所述当前音频帧及后续连续n帧音频帧进行解码,其中,n为预设值。
9.根据权利要求8所述的音频处理装置,其特征在于,所述第三解码单元包括:
解码子单元,用于对所述当前音频帧进行解码,并且解码状态值加1;
判断子单元,用于判断所述解码状态值是否达到预设值;
获取子单元,用于当所述解码状态值未达到所述预设值时,则获取下一音频帧,将所述下一音频帧作为当前音频帧,返回对所述当前音频帧进行解码的步骤。
10.一种媒体平台,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-5任一项所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710624278.XA CN107276777B (zh) | 2017-07-27 | 2017-07-27 | 会议系统的音频处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710624278.XA CN107276777B (zh) | 2017-07-27 | 2017-07-27 | 会议系统的音频处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107276777A true CN107276777A (zh) | 2017-10-20 |
CN107276777B CN107276777B (zh) | 2020-05-29 |
Family
ID=60078239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710624278.XA Active CN107276777B (zh) | 2017-07-27 | 2017-07-27 | 会议系统的音频处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107276777B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818797A (zh) * | 2017-12-07 | 2018-03-20 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN107967921A (zh) * | 2017-12-04 | 2018-04-27 | 苏州科达科技股份有限公司 | 会议系统的音量调节方法及装置 |
CN108766448A (zh) * | 2018-06-19 | 2018-11-06 | 苏州科达科技股份有限公司 | 混音测试系统、方法、装置及存储介质 |
CN110070878A (zh) * | 2019-03-26 | 2019-07-30 | 苏州科达科技股份有限公司 | 音频码流的解码方法及电子设备 |
CN110300001A (zh) * | 2019-05-21 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN111770413A (zh) * | 2020-06-30 | 2020-10-13 | 浙江大华技术股份有限公司 | 一种多音源混音方法、装置及存储介质 |
CN112118264A (zh) * | 2020-09-21 | 2020-12-22 | 苏州科达科技股份有限公司 | 会议混音方法以及系统 |
WO2021185318A1 (zh) * | 2020-03-20 | 2021-09-23 | 海信视像科技股份有限公司 | 多媒体设备及投屏播放方法 |
CN114627886A (zh) * | 2022-03-10 | 2022-06-14 | 军事科学院系统工程研究院网络信息研究所 | 一种会议语音处理方法及装置 |
WO2023040523A1 (zh) * | 2021-09-16 | 2023-03-23 | 腾讯科技(深圳)有限公司 | 音频信号的处理方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070297682A1 (en) * | 2006-06-22 | 2007-12-27 | Microsoft Corporation | Identification Of People Using Multiple Types Of Input |
CN101489091A (zh) * | 2009-01-23 | 2009-07-22 | 深圳华为通信技术有限公司 | 一种语音信号传输处理方法及装置 |
CN101859565A (zh) * | 2010-06-11 | 2010-10-13 | 深圳创维-Rgb电子有限公司 | 一种在电视机上实现语音识别的系统及其方法 |
CN102104473A (zh) * | 2011-01-12 | 2011-06-22 | 海能达通信股份有限公司 | 一种单工终端与双工终端通话的方法及系统 |
CN104679729A (zh) * | 2015-02-13 | 2015-06-03 | 广州市讯飞樽鸿信息技术有限公司 | 录音留言有效性处理方法及系统 |
CN105743806A (zh) * | 2016-04-19 | 2016-07-06 | 浙江万朋教育科技股份有限公司 | 用于tcp协议的基于能量阈值的语音缓冲丢包处理方法 |
CN105845135A (zh) * | 2015-01-12 | 2016-08-10 | 芋头科技(杭州)有限公司 | 一种机器人系统的声音识别系统及方法 |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 |
CN106373598A (zh) * | 2016-08-23 | 2017-02-01 | 珠海市魅族科技有限公司 | 音频重播的控制方法和装置 |
CN106486136A (zh) * | 2016-11-18 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种声音识别方法、装置及语音交互方法 |
-
2017
- 2017-07-27 CN CN201710624278.XA patent/CN107276777B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070297682A1 (en) * | 2006-06-22 | 2007-12-27 | Microsoft Corporation | Identification Of People Using Multiple Types Of Input |
CN101489091A (zh) * | 2009-01-23 | 2009-07-22 | 深圳华为通信技术有限公司 | 一种语音信号传输处理方法及装置 |
CN101859565A (zh) * | 2010-06-11 | 2010-10-13 | 深圳创维-Rgb电子有限公司 | 一种在电视机上实现语音识别的系统及其方法 |
CN102104473A (zh) * | 2011-01-12 | 2011-06-22 | 海能达通信股份有限公司 | 一种单工终端与双工终端通话的方法及系统 |
CN105845135A (zh) * | 2015-01-12 | 2016-08-10 | 芋头科技(杭州)有限公司 | 一种机器人系统的声音识别系统及方法 |
CN104679729A (zh) * | 2015-02-13 | 2015-06-03 | 广州市讯飞樽鸿信息技术有限公司 | 录音留言有效性处理方法及系统 |
CN105743806A (zh) * | 2016-04-19 | 2016-07-06 | 浙江万朋教育科技股份有限公司 | 用于tcp协议的基于能量阈值的语音缓冲丢包处理方法 |
CN106373598A (zh) * | 2016-08-23 | 2017-02-01 | 珠海市魅族科技有限公司 | 音频重播的控制方法和装置 |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 |
CN106486136A (zh) * | 2016-11-18 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种声音识别方法、装置及语音交互方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967921A (zh) * | 2017-12-04 | 2018-04-27 | 苏州科达科技股份有限公司 | 会议系统的音量调节方法及装置 |
CN107967921B (zh) * | 2017-12-04 | 2021-09-07 | 苏州科达科技股份有限公司 | 会议系统的音量调节方法及装置 |
CN107818797A (zh) * | 2017-12-07 | 2018-03-20 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN108766448A (zh) * | 2018-06-19 | 2018-11-06 | 苏州科达科技股份有限公司 | 混音测试系统、方法、装置及存储介质 |
CN110070878A (zh) * | 2019-03-26 | 2019-07-30 | 苏州科达科技股份有限公司 | 音频码流的解码方法及电子设备 |
CN110300001A (zh) * | 2019-05-21 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN110300001B (zh) * | 2019-05-21 | 2022-03-15 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
WO2021185318A1 (zh) * | 2020-03-20 | 2021-09-23 | 海信视像科技股份有限公司 | 多媒体设备及投屏播放方法 |
CN111770413A (zh) * | 2020-06-30 | 2020-10-13 | 浙江大华技术股份有限公司 | 一种多音源混音方法、装置及存储介质 |
CN112118264A (zh) * | 2020-09-21 | 2020-12-22 | 苏州科达科技股份有限公司 | 会议混音方法以及系统 |
WO2023040523A1 (zh) * | 2021-09-16 | 2023-03-23 | 腾讯科技(深圳)有限公司 | 音频信号的处理方法、装置、电子设备及存储介质 |
CN114627886A (zh) * | 2022-03-10 | 2022-06-14 | 军事科学院系统工程研究院网络信息研究所 | 一种会议语音处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107276777B (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107276777A (zh) | 会议系统的音频处理方法及装置 | |
US11227612B2 (en) | Audio frame loss and recovery with redundant frames | |
US9311920B2 (en) | Voice processing method, apparatus, and system | |
WO2018054181A1 (zh) | 一种虚拟资源的展示方法、客户端及插件 | |
CN108370580A (zh) | 匹配用户装备和网络调度周期 | |
CN110070878B (zh) | 音频码流的解码方法及电子设备 | |
CN105704338B (zh) | 一种混音方法、混音设备及系统 | |
CN108234790A (zh) | 多人语音通信方法、装置、终端设备和存储介质 | |
CN111276152A (zh) | 一种音频处理方法、终端及服务器 | |
US20180293987A1 (en) | Speech recognition method, device and system based on artificial intelligence | |
WO2021036650A1 (zh) | 信息处理方法、装置、设备及计算机可读存储介质 | |
CN107787015A (zh) | 基于大数据的网络调整方法和装置 | |
CN108271096A (zh) | 一种任务执行方法、装置、智能音箱及存储介质 | |
CN103503444A (zh) | 在视频编码中用信号通知活动层的数量 | |
CN110351202B (zh) | 5g核心网流量分组方法、装置、设备和计算机存储介质 | |
CN114627886B (zh) | 一种会议语音处理方法及装置 | |
WO2019007211A1 (zh) | 编解码能力配置方法、设备和计算机存储介质 | |
CN104424949A (zh) | 用于发送和接收语音分组的方法和实现该方法的电子设备 | |
CN107967921A (zh) | 会议系统的音量调节方法及装置 | |
CN112562688A (zh) | 语音转写方法、装置、录音笔和存储介质 | |
CN102833524B (zh) | 一种对本地音频及呼叫方音频同时录像的控制方法 | |
CN112449208A (zh) | 语音处理方法及其装置 | |
CN108854062B (zh) | 一种移动游戏的语音聊天模块 | |
CN114842857A (zh) | 语音处理方法、装置、系统、设备及存储介质 | |
CN111063347B (zh) | 实时语音识别方法、服务端及客户端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |