CN110324565A - 音频输出方法、装置、会议主机、存储介质及电子装置 - Google Patents

音频输出方法、装置、会议主机、存储介质及电子装置 Download PDF

Info

Publication number
CN110324565A
CN110324565A CN201910492822.9A CN201910492822A CN110324565A CN 110324565 A CN110324565 A CN 110324565A CN 201910492822 A CN201910492822 A CN 201910492822A CN 110324565 A CN110324565 A CN 110324565A
Authority
CN
China
Prior art keywords
audio
remixed
mixing
mcu
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910492822.9A
Other languages
English (en)
Inventor
廖焕柱
贾天婕
王克彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huachuang Video Signal Technology Co Ltd
Original Assignee
Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huachuang Video Signal Technology Co Ltd filed Critical Zhejiang Huachuang Video Signal Technology Co Ltd
Priority to CN201910492822.9A priority Critical patent/CN110324565A/zh
Publication of CN110324565A publication Critical patent/CN110324565A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/10Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic with switching of direction of transmission by voice frequency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种音频输出方法、装置、会议主机、存储介质及电子装置,其中,该方法包括:获取通过音频输入设备输入的第一音频,以及演示流中携带的第二音频;对所述第一音频和所述第二音频进行混音,以得到第一混音音频;将所述第一混音音频发送给多点控制单元MCU。通过本发明,解决了相关技术中存在的在视频会议中,需要进行主流音频输入和演示流音频输入的切换,从而影响客户体验度的问题。

Description

音频输出方法、装置、会议主机、存储介质及电子装置
技术领域
本发明涉及通信领域,具体而言,涉及一种音频输出方法、装置、会议主机、存储介质及电子装置。
背景技术
在传统的视频会议中,演示流一般以无声音的幻灯片为主,因此通常一路主流音频(即,通过音频输入设备所输入的音频)就能满足会议需求。如想播放演示流中的音频,需要在会议设置中将音频输入切换成演示流输入,此时允许且仅允许一路演示流音频输入。随着视频会议应用场景的多样化,如远程教育等应用模式的兴起,客户对于音频应用场景的需求也不断提高,此时单一模式的音频输入已逐渐不能满足客户需求。
因此,在传统的视频会议中,需要提前设置好会议音频输入通道是主流音频输入还是演示流音频输入,如果一个会议中既有主流音频输入又有演示流音频输入,就需要进行主流音频输入和演示流音频输入的切换,而切换的过程会影响客户体验,此外,由于视频会议中的主流通常以语音为主,而会议室往往存在环境噪声、与会人和麦克风距离不同导致的拾音音量区别等问题;与此不同的是,演示流音频通常是来自电脑的干净音乐信号,如对主流音频和演示流音频采用单一的处理模式,势必会影响会议音频体验。
针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种音频输出方法、装置、会议主机、存储介质及电子装置,以至少解决相关技术中存在的在视频会议中,需要进行主流音频输入和演示流音频输入的切换,从而影响客户体验度的问题。
根据本发明的一个实施例,提供了一种音频输出方法,包括:获取通过音频输入设备输入的第一音频,以及演示流中携带的第二音频;对所述第一音频和所述第二音频进行混音,以得到第一混音音频;将所述第一混音音频发送给多点控制单元MCU。
可选地,在对所述第一音频和所述第二音频进行混音之前,所述方法还包括:对所述第一音频依次执行以下操作:去啸叫处理,回声消除处理,降噪处理,自动增益处理。
可选地,对所述第一音频执行所述回声消除处理包括:对来自所述MCU的第三音频和所述第二音频进行混音,以得到第二混音音频;将所述第二混音音频作为参考信号来对所述第一音频执行所述回声消除处理。
可选地,将所述第一混音音频发送给多点控制单元MCU包括:对所述第一混音音频进行编码,以得到编码音频;将所述编码音频发送给所述MCU。
可选地,对所述第一音频和所述第二音频进行混音包括:在第一混音功能开启的情况下,对所述第一音频和所述第二音频进行混音。
可选地,对来自所述MCU的第三音频和所述第二音频进行混音包括:在第二混音功能开启的情况下,对来自所述MCU的第三音频和所述第二音频进行混音。
可选地,在将所述第一混音音频发送给多点控制单元MCU之后,所述方法还包括:所述MCU将所述第一混音音频发送给一个或多个与会终端。
可选地,对所述第一音频和所述第二音频进行混音,以得到第一混音音频包括:确定所述第一音频的能量大于第一能量阈值,且所述第二音频的能量大于第二能量阈值;基于所述第一音频的能量和所述第二音频的能量的能量比计算混音权重系数;利用所述混音权重系数对所述第一音频和所述第二音频进行混音,以得到所述第一混音音频。
可选地,利用所述混音权重系数对所述第一音频和所述第二音频进行混音,以得到所述第一混音音频包括:利用所述混音权重系数对所述第一音频和所述第二音频线性叠加后进行箝位操作,得到第一初始混音音频;在确定所述第一初始混音音频未溢出时,将所述第一初始混音音频确定为所述第一混音音频;在确定所述第一初始混音音频溢出时,将未溢出的混音音频确定为所述第一混音音频。
根据本发明的一个实施例,还提供了一种音频输出装置,包括:获取模块,用于获取通过音频输入设备输入的第一音频,以及演示流中携带的第二音频;混音模块,用于对所述第一音频和所述第二音频进行混音,以得到第一混音音频;发送模块,用于将所述第一混音音频发送给多点控制单元MCU。
可选地,所述装置还包括:处理模块,用于对所述第一音频依次执行以下操作:去啸叫处理,回声消除处理,降噪处理,自动增益处理。
可选地,所述处理模块包括:混音单元,用于对来自所述MCU的第三音频和所述第二音频进行混音,以得到第二混音音频;处理单元,用于将所述第二混音音频作为参考信号来对所述第一音频执行所述回声消除处理。
根据本发明的一个实施例,还提供了一种会议主机,包括上述任一项所述的音频输出装置。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于能够同时采集一路来自音频输入设备的主流音频和一路来自演示流的演示流音频,将它们混成一路后传给MCU,从而使得与会终端得到既包含来自音频输入设备的音频又包含来自演示流的音频的混音音频,从而无需进行主流音频输入和演示流音频输入的切换,保证了用户体验,有效解决相关技术中存在的在视频会议中,需要进行主流音频输入和演示流音频输入的切换,从而影响客户体验度的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种音频输出方法的会议主机的硬件结构框图;
图2是根据本发明实施例的音频输出方法的流程图;
图3是根据本发明实施例的整体处理流程示意图;
图4是根据本发明实施例的音频输出装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在会议终端,或者称为会议主机中执行。以运行在会议主机上为例,图1是本发明实施例的一种音频输出方法的会议主机的硬件结构框图。如图1所示,会议主机10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述会议主机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述会议主机的结构造成限定。例如,会议主机10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的音频输出方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至会议主机10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括会议主机10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述会议主机的音频输出方法,图2是根据本发明实施例的音频输出方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取通过音频输入设备输入的第一音频,以及演示流中携带的第二音频;
步骤S204,对所述第一音频和所述第二音频进行混音,以得到第一混音音频;
步骤S206,将所述第一混音音频发送给多点控制单元MCU。
其中,执行上述操作的设备可以是会议主机。上述的音频输入设备可以是麦克风,上述的演示流可以是PPT或其他类型的演示文稿。
在传统方案中,对于会议中采集的主流音频和演示流音频,主流音频一般为麦克采集的语音,演示流音频通常是播放课件或视频的伴音音乐,使用单一的音频前处理方法,势必会影响演示流的音乐质量,而通过上述实施例,由于能够同时采集一路来自音频输入设备的主流音频和一路来自演示流的演示流音频,将它们混成一路后传给MCU,从而使得与会终端得到既包含来自音频输入设备的音频又包含来自演示流的音频的混音音频,从而无需进行主流音频输入和演示流音频输入的切换,保证了用户体验,有效解决相关技术中存在的在视频会议中,需要进行主流音频输入和演示流音频输入的切换,从而影响客户体验度的问题。
可选地,在实际应用中,主流和演示流对实时性要求不一样,主流要求的实时性比演示流高,因此,在需要对主流音频和演示流音频进行混音时,可以将演示流音频数据采集放在循环缓存buffer中。只要采集到一定时长的主流音频数据(例如,10ms的主流数据,15ms的主流数据等),同时从循环buffer中取对应时长的演示流数据(例如,10ms的演示流数据,15ms的演示流数据等)。如果演示流数据采样率和主流的不一致,可以对演示流数据进行重采样。每次以预定帧长(例如,10ms一帧)进行混音操作,并将混音后的数据提供给其他模块,例如,提供给编码模块。
在一个可选的实施例中,在对所述第一音频和所述第二音频进行混音之前,所述方法还包括:对所述第一音频依次执行以下操作:去啸叫处理,回声消除处理,降噪处理,自动增益处理。从而保证了良好的通话质量。在本实施例中,在获取到音频之后,会首先检测获取到的音频来自主流(即,通过音频输入设备输入的音频)还是演示流,进而根据检测结果来确定后续的处理流程,即,对于主流音频执行上述的各种处理,而对于演示流音频,为了还原音质,可以不对其做处理,直接执行混音处理。
在一个可选的实施例中,对第一音频执行所述回声消除处理包括:对来自所述MCU的第三音频和所述第二音频进行混音,以得到第二混音音频;将所述第二混音音频作为参考信号来对所述第一音频执行所述回声消除处理。在本实施例中,来自MCU的第三音频可以是由其他终端发过来的单路音频,也可以是由其他终端发过来的混音音频。
在一个可选的实施例中,将所述第一混音音频发送给多点控制单元MCU包括:对所述第一混音音频进行编码,以得到编码音频;将所述编码音频发送给所述MCU。在传统方案中,不会根据音频内容自适应调整编码码率,实际上第一音频的编码和第二音频的编码对带宽的要求不同,通常第一音频,例如,语音编码码率较低;而第二音频,例如,音乐编码码率较高。在本发明实施例中,可以由编码模块对接收到的混音音频进行编码,具体地,该编码模块在接收到混音模块输出的音频码流后,会根据演示流音频输入开关(例如,图3中的开关1)的情况,自适应调整编码的码率,即,当需要发送演示流时,会自适应从当前码率切换成更高码率。开关(图3中开关1)关闭后,系统会根据网络情况设置成适当码率。由此可知,采用本发明实施例中的方案可以实现根据演示流开关动态调整音频编码码率的目的。
在一个可选的实施例中,对所述第一音频和所述第二音频进行混音包括:在第一混音功能开启的情况下,对所述第一音频和所述第二音频进行混音。在本实施例中,设置有第一混音开关,在该第一混音开关闭合的情况下,所执行的是如本发明实施例中所述第一音频和第二音频的混音操作;在该第一混音开关断开的情况下,只传输第一音频,即会议主流音频。
在一个可选的实施例中,对来自所述MCU的第三音频和所述第二音频进行混音包括:在第二混音功能开启的情况下,对来自所述MCU的第三音频和所述第二音频进行混音。在本实施例中,设置有第二混音开关,在该第二混音开关闭合的情况下,所执行的是如本发明实施例中所述的第三音频和第二音频的混音操作;在该第一混音开关断开的情况下,无法执行第三音频和第二音频的混音操作。此外,还需要说明的是,上述的第一混音开关和本实施例中的第二混音开关可以是一个开关,也就是说,可以通过一个开关来实现上述的两个混音开关的功能。在现有的视频会议中,与会人员一般会使用笔记本电脑参加会,即,会用笔记本电脑作为会议中的音频演示流的音源,而笔记本电脑接了音频演示口之后,本身不再播放声音。为满足部分演示会场需要播放本地演示流音频和主流音频的需求,在本实施例中增加了演示流声音本地扩声播放开关(对应于上述的第一混音开关和第二混音开关),当开关(例如,附图3中的开关2)闭合后,终端接收远端会场过来的音频流,再将该流解码后与本地演示流音频混音作为音频输出源。
在一个可选的实施例中,在将所述第一混音音频发送给多点控制单元MCU之后,所述方法还包括:所述MCU将所述第一混音音频发送给一个或多个与会终端。
在一个可选的实施例中,对所述第一音频和所述第二音频进行混音,以得到第一混音音频包括:确定所述第一音频的能量大于第一能量阈值,且所述第二音频的能量大于第二能量阈值;基于所述第一音频的能量和所述第二音频的能量的能量比计算混音权重系数;利用所述混音权重系数对所述第一音频和所述第二音频进行混音,以得到所述第一混音音频。
在一个可选的实施例中,利用所述混音权重系数对所述第一音频和所述第二音频进行混音,以得到所述第一混音音频包括:利用所述混音权重系数对所述第一音频和所述第二音频线性叠加后进行箝位操作,得到第一初始混音音频;在确定所述第一初始混音音频未溢出时,将所述第一初始混音音频确定为所述第一混音音频;在确定所述第一初始混音音频溢出时,将未溢出的混音音频确定为所述第一混音音频。在本实施例中,考虑到会议场景,主流和演示流音频都有可能存在长时间没有语音(即,前述的第一音频)或音乐(即,前述的第二音频)要发送的情况,为了节约带宽、中央处理器CPU等资源,混音模块接收到双流后,会先判断该流能量是否大于阈值,若能量大于阈值,则根据能量比计算混音权重系数,线性叠加后进行箝位操作,即线性叠加后若溢出,用临界值代替溢出值;反之,则认为当前会场无人说话或者无演示流,不发送该码流。
上述各实施例中的处理操作的整体处理流程可以参见附图3,其中,图3中的远端可以包括上述的MCU。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种音频输出装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的音频输出装置的结构框图,如图4所示,该装置包括如下模块:
获取模块42,用于获取通过音频输入设备输入的第一音频,以及演示流中携带的第二音频;混音模块44,用于对所述第一音频和所述第二音频进行混音,以得到第一混音音频;发送模块46,用于将所述第一混音音频发送给多点控制单元MCU。
在一个可选的实施例中,所述装置还包括:处理模块,用于对所述第一音频依次执行以下操作:去啸叫处理,回声消除处理,降噪处理,自动增益处理。
在一个可选的实施例中,所述处理模块包括:混音单元,用于对来自所述MCU的第三音频和所述第二音频进行混音,以得到第二混音音频;处理单元,用于将所述第二混音音频作为参考信号来对所述第一音频执行所述回声消除处理。
在一个可选的实施例中,上述发送模块46用于对所述第一混音音频进行编码,以得到编码音频;将所述编码音频发送给所述MCU。
在一个可选的实施例中,上述混音模块44用于在第一混音功能开启的情况下,对所述第一音频和所述第二音频进行混音。
在一个可选的实施例中,上述混音单元用于在第二混音功能开启的情况下,对来自所述MCU的第三音频和所述第二音频进行混音。
在一个可选的实施例中,在将所述第一混音音频发送给多点控制单元MCU之后,所述MCU可以将所述第一混音音频发送给一个或多个与会终端。
在一个可选的实施例中,上述混音模块可以通过如下方式对所述第一音频和所述第二音频进行混音,以得到第一混音音频:确定所述第一音频的能量大于第一能量阈值,且所述第二音频的能量大于第二能量阈值;基于所述第一音频的能量和所述第二音频的能量的能量比计算混音权重系数;利用所述混音权重系数对所述第一音频和所述第二音频进行混音,以得到所述第一混音音频。
在一个可选的实施例中,上述混音模块可以通过如下方式实现利用所述混音权重系数对所述第一音频和所述第二音频进行混音,以得到所述第一混音音频:利用所述混音权重系数对所述第一音频和所述第二音频线性叠加后进行箝位操作,得到第一初始混音音频;在确定所述第一初始混音音频未溢出时,将所述第一初始混音音频确定为所述第一混音音频;在确定所述第一初始混音音频溢出时,将未溢出的混音音频确定为所述第一混音音频。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本发明的一个实施例,还提供了一种会议主机,包括上述任一项所述的音频输出装置。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
在本发明实施例中,可以实现主流和演示流音频的同时采集,主流音频和演示流音频分别做前处理的混音方法可以在满足市场部署中同时需要麦克风和电脑演示声音需求的同时提高会议中的音质。并且可以根据主流音频和演示流音频的音频特性,选择对应处理方式,在实现双流混音时保证音质,提高会议音频体验,采用底层音频库混音模式可以减少上层应用开发、协议开发及MCU开发工作量,且本发明能在软件层面实现演示流本地扩声,不需要额外的硬件成本,有效减少小会议室部署成本和难度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种音频输出方法,其特征在于,包括:
获取通过音频输入设备输入的第一音频,以及演示流中携带的第二音频;
对所述第一音频和所述第二音频进行混音,以得到第一混音音频;
将所述第一混音音频发送给多点控制单元MCU。
2.根据权利要求1所述的方法,其特征在于,在对所述第一音频和所述第二音频进行混音之前,所述方法还包括:
对所述第一音频依次执行以下操作:
去啸叫处理,回声消除处理,降噪处理,自动增益处理。
3.根据权利要求2所述的方法,其特征在于,对所述第一音频执行所述回声消除处理包括:
对来自所述MCU的第三音频和所述第二音频进行混音,以得到第二混音音频;
将所述第二混音音频作为参考信号来对所述第一音频执行所述回声消除处理。
4.根据权利要求1所述的方法,其特征在于,将所述第一混音音频发送给多点控制单元MCU包括:
对所述第一混音音频进行编码,以得到编码音频;
将所述编码音频发送给所述MCU。
5.根据权利要求1所述的方法,其特征在于,对所述第一音频和所述第二音频进行混音包括:
在第一混音功能开启的情况下,对所述第一音频和所述第二音频进行混音。
6.根据权利要求3所述的方法,其特征在于,对来自所述MCU的第三音频和所述第二音频进行混音包括:
在第二混音功能开启的情况下,对来自所述MCU的第三音频和所述第二音频进行混音。
7.根据权利要求1所述的方法,其特征在于,在将所述第一混音音频发送给多点控制单元MCU之后,所述方法还包括:
所述MCU将所述第一混音音频发送给一个或多个与会终端。
8.根据权利要求1所述的方法,其特征在于,对所述第一音频和所述第二音频进行混音,以得到第一混音音频包括:
确定所述第一音频的能量大于第一能量阈值,且所述第二音频的能量大于第二能量阈值;
基于所述第一音频的能量和所述第二音频的能量的能量比计算混音权重系数;
利用所述混音权重系数对所述第一音频和所述第二音频进行混音,以得到所述第一混音音频。
9.根据权利要求8所述的方法,其特征在于,利用所述混音权重系数对所述第一音频和所述第二音频进行混音,以得到所述第一混音音频包括:
利用所述混音权重系数对所述第一音频和所述第二音频线性叠加后进行箝位操作,得到第一初始混音音频;
在确定所述第一初始混音音频未溢出时,将所述第一初始混音音频确定为所述第一混音音频;
在确定所述第一初始混音音频溢出时,将未溢出的混音音频确定为所述第一混音音频。
10.一种音频输出装置,其特征在于,包括:
获取模块,用于获取通过音频输入设备输入的第一音频,以及演示流中携带的第二音频;
混音模块,用于对所述第一音频和所述第二音频进行混音,以得到第一混音音频;
发送模块,用于将所述第一混音音频发送给多点控制单元MCU。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
处理模块,用于对所述第一音频依次执行以下操作:
去啸叫处理,回声消除处理,降噪处理,自动增益处理。
12.根据权利要求11所述的装置,其特征在于,所述处理模块包括:
混音单元,用于对来自所述MCU的第三音频和所述第二音频进行混音,以得到第二混音音频;
处理单元,用于将所述第二混音音频作为参考信号来对所述第一音频执行所述回声消除处理。
13.一种会议主机,其特征在于,包括权利要求10至12中任一项所述的装置。
14.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至9任一项中所述的方法。
CN201910492822.9A 2019-06-06 2019-06-06 音频输出方法、装置、会议主机、存储介质及电子装置 Pending CN110324565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910492822.9A CN110324565A (zh) 2019-06-06 2019-06-06 音频输出方法、装置、会议主机、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910492822.9A CN110324565A (zh) 2019-06-06 2019-06-06 音频输出方法、装置、会议主机、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN110324565A true CN110324565A (zh) 2019-10-11

Family

ID=68120879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910492822.9A Pending CN110324565A (zh) 2019-06-06 2019-06-06 音频输出方法、装置、会议主机、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110324565A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613235A (zh) * 2020-05-11 2020-09-01 浙江华创视讯科技有限公司 一种回声消除方法及装置
CN111625214A (zh) * 2020-05-22 2020-09-04 广州视源电子科技股份有限公司 音频控制方法、装置、设备及存储介质
CN112466319A (zh) * 2020-11-06 2021-03-09 浙江华创视讯科技有限公司 音频处理方法、装置、计算机设备和存储介质
CN112688965A (zh) * 2021-03-11 2021-04-20 浙江华创视讯科技有限公司 一种会议音频共享方法、装置、电子设备及存储介质
CN114553845A (zh) * 2020-11-26 2022-05-27 上海博泰悦臻网络技术服务有限公司 社交互动的定向交流方法、介质、服务端及交流系统
CN116403589A (zh) * 2023-03-01 2023-07-07 天地阳光通信科技(北京)有限公司 一种音频处理方法、单元及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102474424A (zh) * 2009-07-24 2012-05-23 思杰系统有限公司 用于在电话会议期间在计算机和演讲者之间转换音频传输的系统和方法
CN102810312A (zh) * 2011-06-01 2012-12-05 北京市特立信电子技术有限责任公司 语音合成系统
US20150077509A1 (en) * 2013-07-29 2015-03-19 ClearOne Inc. System for a Virtual Multipoint Control Unit for Unified Communications
CN107331222A (zh) * 2016-04-29 2017-11-07 北京学而思教育科技有限公司 一种图像数据处理方法及装置
CN108076306A (zh) * 2017-12-29 2018-05-25 中兴通讯股份有限公司 会议实现方法、装置、设备和系统、计算机可读存储介质
CN108460120A (zh) * 2018-02-13 2018-08-28 广州视源电子科技股份有限公司 数据保存方法、装置、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102474424A (zh) * 2009-07-24 2012-05-23 思杰系统有限公司 用于在电话会议期间在计算机和演讲者之间转换音频传输的系统和方法
CN102810312A (zh) * 2011-06-01 2012-12-05 北京市特立信电子技术有限责任公司 语音合成系统
US20150077509A1 (en) * 2013-07-29 2015-03-19 ClearOne Inc. System for a Virtual Multipoint Control Unit for Unified Communications
CN107331222A (zh) * 2016-04-29 2017-11-07 北京学而思教育科技有限公司 一种图像数据处理方法及装置
CN108076306A (zh) * 2017-12-29 2018-05-25 中兴通讯股份有限公司 会议实现方法、装置、设备和系统、计算机可读存储介质
CN108460120A (zh) * 2018-02-13 2018-08-28 广州视源电子科技股份有限公司 数据保存方法、装置、终端设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613235A (zh) * 2020-05-11 2020-09-01 浙江华创视讯科技有限公司 一种回声消除方法及装置
CN111625214A (zh) * 2020-05-22 2020-09-04 广州视源电子科技股份有限公司 音频控制方法、装置、设备及存储介质
CN111625214B (zh) * 2020-05-22 2024-04-26 广州视源电子科技股份有限公司 音频控制方法、装置、设备及存储介质
CN112466319A (zh) * 2020-11-06 2021-03-09 浙江华创视讯科技有限公司 音频处理方法、装置、计算机设备和存储介质
CN114553845A (zh) * 2020-11-26 2022-05-27 上海博泰悦臻网络技术服务有限公司 社交互动的定向交流方法、介质、服务端及交流系统
CN112688965A (zh) * 2021-03-11 2021-04-20 浙江华创视讯科技有限公司 一种会议音频共享方法、装置、电子设备及存储介质
CN112688965B (zh) * 2021-03-11 2021-07-09 浙江华创视讯科技有限公司 一种会议音频共享方法、装置、电子设备及存储介质
CN116403589A (zh) * 2023-03-01 2023-07-07 天地阳光通信科技(北京)有限公司 一种音频处理方法、单元及系统

Similar Documents

Publication Publication Date Title
CN110324565A (zh) 音频输出方法、装置、会议主机、存储介质及电子装置
CN106063255B (zh) 显示视频会议期间的演讲者的方法和系统
CN105099949A (zh) 基于对延迟抖动和对话动态的监视的抖动缓冲器控制
US20140218464A1 (en) User interface control in a multimedia conference system
US10009475B2 (en) Perceptually continuous mixing in a teleconference
US20220086209A1 (en) Preventing audio dropout
CN106301811A (zh) 实现多媒体会议的方法及装置
WO2007111842A2 (en) Method and system for low latency high quality music conferencing
EP3111627B1 (en) Perceptual continuity using change blindness in conferencing
US20180048683A1 (en) Private communications in virtual meetings
EP3729770B1 (en) Managing streamed audio communication sessions
CN105099795A (zh) 抖动缓冲器水平估计
CN106973253A (zh) 一种调整媒体流传输的方法及装置
CN102457700B (zh) 音频数据传输方法及系统
Akoumianakis et al. The MusiNet project: Towards unraveling the full potential of Networked Music Performance systems
CN113572898B (zh) 语音通话中的无声异常检测方法及对应的装置
US20020111705A1 (en) Audio System
Beuran et al. User-perceived quality assessment for VoIP applications
Yang et al. Multipoint communications with speech mixing over IP network
EP4354841A1 (en) Conference calls
Tsioutas et al. Audio Delay in Web Conference Tools
US9787727B2 (en) VoIP call quality
JP2013126103A (ja) 通信装置および通信制御方法
Kim et al. A main speaker decision for a distributed telepresence system
Sathaporn et al. Voice Over IP Integration Platform Performance Using EC2 AWS Cloud Service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191011