CN106601264A - 一种语音会议混音系统及方法 - Google Patents

一种语音会议混音系统及方法 Download PDF

Info

Publication number
CN106601264A
CN106601264A CN201611086517.2A CN201611086517A CN106601264A CN 106601264 A CN106601264 A CN 106601264A CN 201611086517 A CN201611086517 A CN 201611086517A CN 106601264 A CN106601264 A CN 106601264A
Authority
CN
China
Prior art keywords
input
voice
audio mixing
meeting
present frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611086517.2A
Other languages
English (en)
Other versions
CN106601264B (zh
Inventor
李宝勋
曾熙璘
方辉
刘黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GHT CO Ltd
Original Assignee
GHT CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GHT CO Ltd filed Critical GHT CO Ltd
Priority to CN201611086517.2A priority Critical patent/CN106601264B/zh
Publication of CN106601264A publication Critical patent/CN106601264A/zh
Application granted granted Critical
Publication of CN106601264B publication Critical patent/CN106601264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

本发明公开了一种语音会议混音系统及方法。系统包括会议混音模块。会议混音模块包含输入语音处理单元、输入语音混音单元。输入语音处理单元将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减,得到每个与会成员当前帧的输入语音差值。输入语音混音单元将当前帧的每个输入语音差值进行逐次叠加,每次叠加得到一个与会成员当前帧的最新混音值。该系统或方法将每个与会成员输入的最新输入语音数据与前一帧输入的语音数据相减,可以有效的去除混音结果的直流分量,避免会议语音信号失真;且设计简单、占用资源少、成本低。

Description

一种语音会议混音系统及方法
技术领域
本发明涉及语音会议通信技术领域,尤其涉及语音会议混音系统及方法。
背景技术
现有的通信设备中,实现会议混音功能主要有两种实现方式。一种是通过CPU或DSP实现混音;一种是通过FPGA/CPLD实现混音。
通过CPU或DSP实现混音的优点是可能实现更为复杂的混音控制功能。然而,通过CPU或DSP实现混音在相同的会议资源路数时,混音的处理需要占用CPU或DSP的处理时间,更多的会议混音路数要求CPU或DSP在单位时间内能处理更多的指令,从而需要更强的处理器,导致其成本比FPGA/CPLD高出许多。此外,由于CPU或DSP很难做到实时性,所以一般都是基于缓存的语音包处理,而缓存语音包会引入语音的延迟。
通过FPGA/CPLD实现混音功能可以在占用很少资源的前提下轻松实现上万路的语音混音,而且语音混音的实时性很强,引入的语音延迟可以忽略。然而,目前通过FPGA/CPLD实现混音的技术实现由于大都采取了线性语音求和的做法,如果多个输入信号含有同极性的直流分量,线性语音求和后会使结果中的直流分量成倍放大,导致语音数据在这个极性方向溢出的概率变大,溢出后语音波形被削顶,语音信号的信噪比降低。此外,在输入语音含有直流分量时会导致混音后的数据含有直流分量。直流分量会使话机扬声器(听筒)不能发挥其最佳性能而导致语音失真。除非输入信号的直流分量相互抵消,否则求和算法并不能去除直流分量,而现实中很难满足这种巧合。为了克服这些缺点,现有的FPGA/CPLD实现混音的技术在混音模块前需要对语音做预处理,混音后还需要后期调节处理,而这些导致更多的资源占用和成本费用。如果多个会议成员所处的环境接近,从而背景噪声相似,简单的线性语音求和的做法,会使背景噪声成倍放大,导致信噪比降低。
发明内容
针对现有技术的不足,本发明提出了一种语音会议混音系统及方法,该系统或方法使用差值混音求和算法,在FPGA/CPLD上通过分时复用的流水线的方式,完成几十路至上万路语音的会议混音功能,延迟小,且能有效的去除输入信号的直流分量,提高音频信噪比;在不降低混音质量的前提下,解决了现有技术设计复杂、占用资源多、成本高的问题。
为了实现上述目的,本发明技术方案如下:
一种语音会议混音系统,包括会议混音模块。会议混音模块包含输入语音处理单元、输入语音混音单元。输入语音处理单元将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减,得到每个与会成员当前帧的输入语音差值。输入语音混音单元将当前帧的每个输入语音差值进行逐次叠加,每次叠加得到一个与会成员当前帧的最新混音值;当前帧叠加过程中,第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加;输入语音混音单元并且将当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出。
进一步地,会议混音模块还包含输出语音处理单元。输出语音处理单元在当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出前,将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据。
进一步地,输入语音处理单元包含输入语音求差部、输入语音存储部。每个与会成员的语音输入端口分别与输入语音求差部的第一输入端、输入语音存储部的输入端相连接。输入语音存储部的输出端与输入语音求差部的第二输入端相连接。输入语音求差部的输出端与输入语音混音单元的输入端相连接。输入语音存储部用于将每个与会成员前一帧采集的输入语音数据分别进行存储。输入语音求差部用于采用分时复用的方式逐一将每个与会成员的当前帧采集的输入语音数据与存储在输入语音存储部中相应的前一帧采集的输入语音数据进行相减,得到每个与会成员的输入语音差值。
进一步地,输入语音混音单元包含输入语音叠加部、混音存储部。输入语音处理单元的输出端与输入语音叠加部的第一输入端相连接。输入语音叠加部的输出端与输出语音处理单元的输出端相连接。并且,输入语音叠加部的输出端与混音存储部的输入端相连接。混音存储部的输出端与输入语音叠加部的第二输入端相连接。
进一步地,输入语音混音单元还包含混音滤波部。输入语音叠加部的输出端经过混音滤波部与混音存储部的输入端相连接。
进一步地,该系统包括多个相互并行的会议混音模块。
进一步地,会议混音模块有多个。前级的会议混音模块的若干语音输出端口作为后级的会议混音模块的语音输入端口。
一种语音会议混音方法,包括步骤:将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减,得到每个与会成员当前帧的输入语音差值。
将当前帧的每个输入语音差值进行逐次叠加,每次叠加得到一个与会成员当前帧的最新
混音值;当前帧叠加过程中,第一次叠加是前一帧最后一次叠加得到的最新混音值与当
前帧第一个待叠加的输入语音差值相加。
将当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出。
进一步地,在当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出前,将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据。
本发明的有益效果:
(1)该系统或方法将每个与会成员输入的最新输入语音数据与前一帧输入的语音数据相减,可以有效的去除混音结果的直流分量,避免会议语音信号失真;且设计简单、占用资源少、成本低。
(2)该系统或方法将会议中混音后的语音信号分别减去各与会成员的输入语音差值,使得各与会成员的语音输出端口只发出其余会议成员的声音,消除了自身输入语音的回音干扰。
(3)该系统对各与会成员语音差值进行逐次叠加,每叠加一次的得到的混音值存储到混音存储部中,最后叠加得到的最新混音值存储到混音存储部前,首先经过混音滤波部滤波,消除直流分量。
(4)该系统采用并行的方式、级联的方式或者混合的方式将多个会议混音模块进行组合,实现了扩容;并且组合简单、成本低。
附图说明
图1为本发明中系统的会议混音模块的原理示意图。
图2为本发明中系统的并行式扩容的原理示意图。
图3为本发明中系统的级联式扩容的原理示意图。
图4为本发明中系统的混合式扩容的原理示意图。
图5为本发明中方法的流程示意图。
其中,图1至图5的附图标记为:输入语音处理单元11、输入语音混音单元12、输出语音处理单元13;输入语音求差部111、输入语音存储部112;输入语音叠加部121、混音存储部122、混音滤波部123。
具体实施方式
下面结合附图和实施例,进一步阐述本发明。
实施例1
如图1所示,一种语音会议混音系统,包括会议混音模块。会议混音模块对若干个与会成员的语音数据进行处理。每个与会议成员包括话筒、听筒,话筒的讲话声音占用一个语音输入端口,其听筒的输出语音对应一个语音输出端口。
会议混音模块包含输入语音处理单元11、输入语音混音单元12、输出语音处理单元13。输入语音处理单元11、输入语音混音单元12、输出语音处理单元13顺次连接。
输入语音处理单元11分别接收每个与会成员语音输入端口的最新输入语音数据;并采用分时复用的方式逐一将每个与会成员的当前帧采集的输入语音数据与前一帧采集的输入语音数据相减,得到每个与会成员的输入语音差值。
输入语音混音单元12将输入语音处理单元11输出的当前帧每个与会成员的输入语音差值进行逐次叠加,每次叠加得到一个与会成员当前帧的最新混音值;当前帧叠加过程中,第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加。
输出语音处理单元13将输入语音混音单元12输出的每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据,得到每个与会成员的输出语音数据。
输入语音处理单元11包含输入语音求差部111、输入语音存储部112。每个与会成员的语音输入端口分别与输入语音求差部111的第一输入端、输入语音存储部112的输入端相连接。输入语音存储部112的输出端与输入语音求差部111的第二输入端相连接。输入语音求差部111的输出端与输入语音混音单元12的输入端相连接。
与会成员在发言时,由于声音是一个变化的交流信号,我们不希望其中含有直流分量,采用下式:
本与会成员的语音差值DIFF(M)=MemberFrame(N)-MemberFrame(N-1)
输入语音存储部112分别将当前帧采样的每个与会成员的最新输入语音数据
MemberFrame(N)存储在不同的位置,存储后的各与会成员的最新输入语音数据作为输入语音求差部111后一帧求差运算时的前一帧输入语音数据MemberFrame(N-1)。输入语音求差部111分别获取每个与会成员的最新输入语音数据MemberFrame(N),并从输入语音存储部112中获取每个与会成员的前一帧输入语音数据MemberFrame(N-1);采用分时复用的方式依次将每个与会成员的最新输入语音数据MemberFrame(N)减去相应的前一帧输入语音数据MemberFrame(N-1),分别得到每个与会成员的语音差值DIFF(M);并将每个与会成员的语音差值DIFF(M)依次传送给输入语音混音单元12。
每个与会成员的语音输入端口当前帧采样的最新的输入语音数据MemberFrame(N)减去上次采样的输入语音数据MemberFrame(N-1)得到的语音差值DIFF(M)中只含有表达语音变化的交流信号,有效的过滤了输入信号中的直流分量。其中,M<=L,L表示本会议中与会成员的个数,M表示第M个与会成员,N为本会议语音数据的采样次数。
本会议中,每个与会成员的语音差值DIFF分为四种状态:未参与会议、新加入会议、已经在会议中和退出会议。
未参与会议时,DIFF=0;
新加入会议时,DIFF=MemberFrame(N)-0;
已经在会议中时,DIFF=MemberFrame(N)-MemberFrame(N-1);
退出会议时,DIFF=0-MemberFrame(N-1)。
输入语音混音单元12包含输入语音叠加部121、混音存储部122、混音滤波部123。输入语音求差部111的输出端与输入语音叠加部121的第一输入端相连接。输入语音叠加部121的输出端与输出语音处理单元13的输出端相连接。输入语音叠加部121的输出端并且经过混音滤波部123与混音存储部122的输入端相连接。混音存储部122的输出端与输入语音叠加部121的第二输入端相连接。
输入语音叠加部121执行加法,将每个与会成员的语音输入端口的语音差值DIFF进行依次叠加,并防止溢出。
具体地,采用下式对各与会成员的语音差值进行混音:
本会议成员的最新混音值Conf_Sum(M)=Conf_Sum(M-1)+DIFF(M);其中,M<=L,L表示本会议中与会成员的个数。
输入语音叠加部121对输入语音求差部111当前帧输出的各与会成员语音差值DIFF(M)进行逐次叠加;每叠加一次的得到一个与会成员的最新混音值Conf_Sum(M)发送给输出语音单元13,并且将Conf_Sum(M)存储到混音存储部122中,作为输入语音叠加部121下次叠加的加数Conf_Sum(M-1)与下一个与会成员的语音差值DIFF(M)相加,直到输入语音求差部111当前帧输出的所有与会成员语音差值DIFF全部叠加完毕,得到当前帧最后一个与会成员语音差值DIFF的最新混音值Conf_Sum(L)。为了预防会议混音结果Conf_Sum中引入直流分量,我们将与会成员的语音差值DIFF加入Conf_Sum(M-1)。分析可以看出,引入直流分量的情况发生在会议成员加入和退出会议的时刻。每帧最后一次叠加得到的最新混音值Conf_Sum(L)存储到混音存储部122前,首先经过混音滤波部123滤波,消除直流分量。当前帧存储的最新混音值Conf_Sum(L)作为下一帧的第一个与会成员混音时的Conf_Sum(0)值。混音滤波部123使用单极性IIR滤波器,采用递归型结构,即结构上带有反馈环路,每次得到的最新混音值Conf_Sum(L)仅执行一次滤波。
例如,本会议中,与会成员的个数L为3,那么需要进行3次混音。第一次混音后的结果Conf_Sum(1)=Conf_Sum(0)+DIFF(1),需要理解的是,第一个与会成员混音时的加数Conf_Sum(0)为前一帧混音时,最后一次叠加得到的最新混音值;Conf_Sum(1)发送给输出语音单元13并且存储到混音存储部122中;第二次混音后的混音结果Conf_Sum(2)=Conf_Sum(0)+DIFF(1)+DIFF(2),即Conf_Sum(2)=Conf_Sum(1)+DIFF(2),Conf_Sum(2)发送给输出语音单元13并且覆盖混音存储部122中的Conf_Sum(1);第三次混音后的混音结果Conf_Sum(3)=Conf_Sum(0)+DIFF(1)+DIFF(2)+DIFF(3),即Conf_Sum(3)=Conf_Sum(2)+DIFF(3)。Conf_Sum(3)为本会议中的当前帧混音最后的最新语音值,Conf_Sum(3)发送给输出语音单元13;并且,在存储前,混音滤波部123对最新语音值Conf_Sum(3)执行一次滤波,消除直流分量。
也就是说,在每个活跃的会议中,无论在特定会议中有多少与会成员,混音滤波部123滤波算法仅仅对每帧采样的各输入语音数据的语音差值DIFF最后一次叠加后得到的最新语音值Conf_Sum(L)滤波一次。
每一帧计算完本会议的所有会议成员之后,做如下计算:
Conf_Sum=Conf_Sum-(Conf_Sum>>5)
使用极限思维理解这种做法,在与会成员讲话的间隙,即所有成员的DIFF都为0时,Conf_Sum当前的数值即为直流分量,以上滤过会使Conf_Sum逐渐减小,直至逼近0。差值DIFF混音加上以上滤波的Conf_Sum,便可以有效的去除输入信号中的直流分量。
一般地,会议成员在讲话时不希望听到自己的声音(会被认为是回声),所以输出语音处理单元13采用下式:
本与会成员的输出语音数据PORT(M)=Conf_Sum(M)-MemberFrame(N)
输出语音处理单元13得到各与会成员的最新语音值Conf_Sum(M),同样采用分时复用的方式分别将本会议中的每个与会成员当前帧混音后的结果Conf_Sum(M)减去本与会成员的最新输入语音数据MemberFrame(N),得到的差值PORT(M)为其余会议成员的声音,即为本与会成员语音输出端口的输出语音。
如前面的例子,与会成员的个数L为3时,得到三个与会成员当前帧的最新语音值分别为Conf_Sum(1)、Conf_Sum(2)、Conf_Sum(3);假设三个与会成员当前帧的最新输入语音数据分别为MemberFrame1、MemberFrame2、MemberFrame3。那么,为了消除各与会成员输出语音数据的回音,每个与会成员语音输出端口的输出语音数据分别为PORT(1)=Conf_Sum(1)-MemberFrame1、PORT(2)=Conf_Sum(2)-MemberFrame2、PORT(3)=Conf_Sum(3)-MemberFrame3。
而要实现监听或者会议录音功能,只需要将监听或者会议录音端口的输入置为静音,该端口的输出即为包含了所有与会成员的声音。此时,MemberFrame(N)=0,则PORT(M)=Conf_Sum(M)。
本专利支持多个独立的会议,每个会议有一个唯一的会议号,每一个会议号有一个Conf_Sum,所以有多少个独立的会议就有多少个Conf_Sum。每个成员都是根据会议号加入对应的会议。
理论上单个会议混音模块可提供的最高会议成员数取决于语音的采样率和所选用的FPGA/CPLD的最高速度。而在单个模块支持的会议成员数仍不能满足需求时,可以使用多个会议模块实现扩容。扩容有几种方式:并行的方式、级联的方式或者混合的方式。
如图2所示,为会议系统的并行扩容方式,多个会议混音模块各自独立工作,但是不同会议混音模块的成员不能参与同一个会议。
如图3所示,为会议系统的级联扩容方式,多个会议混音模块级联的方式连接,前一级的会议混音模块语音输出一部分直接输出,另一部分作为下一级会议混音模块的输入。优点是不同会议混音模块的成员也可以参与同一个会议;但是会牺牲一些混音通道资源。
如图4所示,为会议系统的混合式扩容方式,多个会议混音模块先并联,每个并联会议混音模块的语音输出一部分直接输出,另一部分作为下一级会议混音模块的输入。优点是不同的会议混音模块的成员也可以参与同一个会议;但是会牺牲一些混音通道资源。
实施例2
如图5所示,一种语音会议混音方法,包括以下步骤S1-S3:
S1:分别接收每个与会成员语音输入端口的最新输入语音数据;并采用分时复用的方式逐一将每个与会成员的当前帧采集的输入语音数据与前一帧采集的输入语音数据相减,得到每个与会成员的输入语音差值。
每个与会议成员对应一个RAM地址,每个RAM地址分别一一指向每个与会议成员的存储位置,每个与会成员获取最新输入语音数据后,将当前帧采集的输入语音数据存储到相应的存储位置中,作为下一帧语音求差的前一帧的输入语音数据。
每个会议中有若干个与会成员,每个与会议成员包括话筒、听筒,话筒的讲话声音占用一个语音输入端口,其听筒的输出语音对应一个语音输出端口。与会成员在发言时,由于声音是一个变化的交流信号,我们不希望其中含有直流分量,采用下式:
本与会成员语音差值DIFF(M)=MemberFrame(N)-MemberFrame(N-1)
每个与会成员的语音输入端口最新采样的语音数据MemberFrame(N)减去前一帧采样的语音数据MemberFrame(N-1)得到的语音差值DIFF(M)中只含有表达语音变化的交流信号,有效的过滤了输入信号中的直流分量。其中,M<=L,L表示本会议中与会成员的个数,M表示第M个与会成员,N为本会议语音数据的采样次数。
本会议中,每个与会成员的语音差值DIFF分为四种状态:未参与会议、新加入会议、已经在会议中和退出会议。
未参与会议时,DIFF=0;
新加入会议时,DIFF=MemberFrame(N)-0;
已经在会议中时,DIFF=MemberFrame(N)-MemberFrame(N-1);
退出会议时,DIFF=0-MemberFrame(N-1)。
S2:将当前帧的每个输入语音差值进行逐次叠加,每次叠加得到一个与会成员当前帧的最新混音值;当前帧叠加过程中,第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加。
会议逻辑执行加法,将每个与会成员的语音输入端口的语音差值DIFF进行叠加,并防止溢出。
具体地,采用下式对各与会成员的语音差值进行混音:
本会议成员的最新混音值Conf_Sum(M)=Conf_Sum(M-1)+DIFF(M);其中,M<=L,L表示本会议中与会成员的个数。
对当前帧语音求差后得到的每个与会成员的语音差值DIFF(M)进行逐次叠加;每叠加一次的得到一个与会成员的最新混音值Conf_Sum(M),并将Conf_Sum(M)进行存储,作为当前帧下次叠加时的加数Conf_Sum(M-1)与下一个与会成员的语音差值DIFF(M)相加,直到当前帧输出的所有与会成员语音差值DIFF全部叠加完毕,得到当前帧最后一个与会成员语音差值DIFF的最新混音值Conf_Sum(L)。为了预防会议混音结果Conf_Sum中引入直流分量,我们将与会成员的语音差值DIFF加入Conf_Sum(M-1)。分析可以看出,引入直流分量的情况发生在会议成员加入和退出会议的时刻。每帧得到的最新混音值Conf_Sum(L)在存储前,首先经过滤波,消除直流分量。当前帧存储的最新混音值Conf_Sum(L)作为下一帧的第一个与会成员混音时的Conf_Sum(0)值。滤波使用单极性I IR滤波器,采用递归型结构,即结构上带有反馈环路,每次得到的最新混音值Conf_Sum(L)仅执行一次滤波。
例如,本会议中,与会成员的个数L为3,那么需要进行3次混音。第一次混音后的结果Conf_Sum(1)=Conf_Sum(0)+DIFF(1),需要理解的是,第一个与会成员混音时的加数Conf_Sum(0)为前一帧混音时,最后一次叠加得到的最新混音值;Conf_Sum(1)作为第一个与会成员待处理的输出语音数据,Conf_Sum(1)并且被存储;第二次混音后的混音结果Conf_Sum(2)=Conf_Sum(0)+DIFF(1)+DIFF(2),即Conf_Sum(2)=Conf_Sum(1)+DIFF(2),Conf_Sum(2)作为第二个与会成员待处理的输出语音数据,Conf_Sum(2)并且被存储;第三次混音后的混音结果Conf_Sum(3)=Conf_Sum(0)+DIFF(1)+DIFF(2)+DIFF(3),即Conf_Sum(3)=Conf_Sum(2)+DIFF(3)。Conf_Sum(3)作为第三个与会成员待处理的输出语音数据,Conf_Sum(3)并且在存储前,对Conf_Sum(3)执行一次滤波,消除直流分量。
也就是说,在每个活跃的会议中,无论在特定会议中有多少与会成员,滤波算法仅仅对每帧采样的各输入语音数据的语音差值DIFF最后一次叠加后得到的最新语音值Conf_Sum(L)滤波一次。
每一帧计算完本会议的所有成员之后,做如下计算:
Conf_Sum=Conf_Sum-(Conf_Sum>>5)
使用极限思维理解这种做法,在与会成员讲话的间隙,即所有成员的DIFF都为0时,Conf_Sum当前的数值即为直流分量,以上滤过会使Conf_Sum逐渐减小,直至逼近0。差值DIFF混音加上以上滤波的Conf_Sum,便可以有效的去除输入信号中的直流分量。
S3:将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据,得到每个与会成员当前帧的输出语音数据,并将相减后的数据分别从相应的与会成员的语音输出端口一一输出。
一般地,会议成员在讲话时不希望听到自己的声音(会被认为是回声),所以采用下式:
本与会成员的输出语音数据PORT(M)=Conf_Sum(M)-MemberFrame(N)
得到各与会成员的最新语音值Conf_Sum(M)后,同样采用分时复用的方式分别将本会议中的每个与会成员当前帧混音后的结果Conf_Sum(M)减去本与会成员的最新输入语音数据MemberFrame(N),得到的差值PORT(M)为其余会议成员的声音,即为本与会成员语音输出端口的输出语音。
如前面的例子,与会成员的个数L为3时,得到三个与会成员当前帧的最新语音值分别为Conf_Sum(1)、Conf_Sum(2)、Conf_Sum(3);假设三个与会成员当前帧的最新输入语音数据分别为MemberFrame1、MemberFrame2、MemberFrame3。那么,为了消除各与会成员输出语音数据的回音,每个与会成员语音输出端口的输出语音数据分别为PORT(1)=Conf_Sum(1)-MemberFrame1、PORT(2)=Conf_Sum(2)-MemberFrame2、PORT(3)=Conf_Sum(3)-MemberFrame3。
而要实现监听或者会议录音功能,只需要将监听或者会议录音端口的输入置为静音,该端口的输出即为包含了所有与会成员的声音。此时,MemberFrame(N)=0,则PORT(M)=Conf_Sum(M)。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的基本构思的前提下直接导出或联想到的其它改进和变化均应认为包含在本发明的保护范围之内。

Claims (9)

1.一种语音会议混音系统,包括会议混音模块,其特征在于:
所述会议混音模块包含输入语音处理单元(11)、输入语音混音单元(12);
所述输入语音处理单元(11)将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减,得到每个与会成员当前帧的输入语音差值;
所述输入语音混音单元(12)将当前帧的每个输入语音差值进行逐次叠加,每次叠加得到一个与会成员当前帧的最新混音值;当前帧叠加过程中,第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加;所述输入语音混音单元(12)并且将当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出。
2.根据权利要求1所述的语音会议混音系统,其特征在于:
所述会议混音模块还包含输出语音处理单元(13);
所述输出语音处理单元(13)在当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出前,将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据。
3.根据权利要求2所述的语音会议混音系统,其特征在于:
所述输入语音处理单元(11)包含输入语音求差部(111)、输入语音存储部(112);
每个与会成员的语音输入端口分别与所述输入语音求差部(111)的第一输入端以及所述输入语音存储部(112)的输入端相连接;
所述输入语音存储部(112)的输出端与所述输入语音求差部(111)的第二输入端相连接;
所述输入语音求差部(111)的输出端与所述输入语音混音单元(12)的输入端相连接;
所述输入语音存储部(112)用于分别对每个与会成员前一帧采集的输入语音数据进行存储;
所述输入语音求差部(111)用于将每个与会成员的当前帧采集的输入语音数据与存储在所述输入语音存储部(112)中相应的前一帧采集的输入语音数据进行相减,得到每个与会成员的输入语音差值。
4.根据权利要求2所述的语音会议混音系统,其特征在于:
所述输入语音混音单元(12)包含输入语音叠加部(121)、混音存储部(122);
所述输入语音处理单元(11)的输出端与所述输入语音叠加部(121)的第一输入端相连接;所述输入语音叠加部(121)的输出端与所述输出语音处理单元(13)的输出端相连接;
并且,所述输入语音叠加部(121)的输出端与所述混音存储部(122)的输入端相连接;所述混音存储部(122)的输出端与所述输入语音叠加部(121)的第二输入端相连接。
5.根据权利要求4所述的语音会议混音系统,其特征在于:
所述输入语音混音单元(12)还包含混音滤波部(123);
所述输入语音叠加部(121)的输出端经过所述混音滤波部(123)与所述混音存储部(122)的输入端相连接。
6.根据权利要求2所述的语音会议混音系统,其特征在于:
包括多个相互并行的所述会议混音模块。
7.根据权利要求2所述的语音会议混音系统,其特征在于:
所述会议混音模块有多个;
前级的所述会议混音模块的若干语音输出端口作为后级的所述会议混音模块的语音输入端口。
8.一种语音会议混音方法,其特征在于,包括步骤:
将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减,得到每个与会成员当前帧的输入语音差值;
将当前帧的每个输入语音差值进行逐次叠加,每次叠加得到一个与会成员当前帧的最新混音值;当前帧叠加过程中,第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加;
将当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出。
9.根据权利要求8所述的语音会议混音方法,其特征在于:
在将当前帧最新混音值从相应的与会成员的语音输出端口一一输出的步骤前,还包括步骤:
将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据。
CN201611086517.2A 2016-11-30 2016-11-30 一种语音会议混音系统及方法 Active CN106601264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611086517.2A CN106601264B (zh) 2016-11-30 2016-11-30 一种语音会议混音系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611086517.2A CN106601264B (zh) 2016-11-30 2016-11-30 一种语音会议混音系统及方法

Publications (2)

Publication Number Publication Date
CN106601264A true CN106601264A (zh) 2017-04-26
CN106601264B CN106601264B (zh) 2020-08-07

Family

ID=58594259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611086517.2A Active CN106601264B (zh) 2016-11-30 2016-11-30 一种语音会议混音系统及方法

Country Status (1)

Country Link
CN (1) CN106601264B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484075A (zh) * 2017-08-31 2017-12-15 深圳市豪恩声学股份有限公司 混音装置及声音处理系统
CN112885329A (zh) * 2021-02-02 2021-06-01 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质
CN113038060A (zh) * 2019-12-25 2021-06-25 中国电信股份有限公司 多路音频处理方法和系统
CN113727060A (zh) * 2021-10-29 2021-11-30 共道网络科技有限公司 互联网庭审处理方法及装置
CN116403589A (zh) * 2023-03-01 2023-07-07 天地阳光通信科技(北京)有限公司 一种音频处理方法、单元及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1142302A (zh) * 1994-12-30 1997-02-05 马特端通讯法国公司 一种用子带滤波的声音回声消除器
CN1492657A (zh) * 2002-10-24 2004-04-28 华为技术有限公司 电话会议混音方法
WO2005057551A1 (ja) * 2003-12-09 2005-06-23 National Institute Of Advanced Industrial Science And Technology 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
CN1805006A (zh) * 2006-01-24 2006-07-19 北京邮电大学 一种用于多媒体会议的快速实时混音方法
CN103259943A (zh) * 2012-02-21 2013-08-21 深圳市东进软件开发有限公司 一种pstn电话会议混音方法
CN106057191A (zh) * 2016-05-19 2016-10-26 广州颐希颉信息科技有限公司 一种音频合成处理方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1142302A (zh) * 1994-12-30 1997-02-05 马特端通讯法国公司 一种用子带滤波的声音回声消除器
CN1492657A (zh) * 2002-10-24 2004-04-28 华为技术有限公司 电话会议混音方法
WO2005057551A1 (ja) * 2003-12-09 2005-06-23 National Institute Of Advanced Industrial Science And Technology 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
CN1805006A (zh) * 2006-01-24 2006-07-19 北京邮电大学 一种用于多媒体会议的快速实时混音方法
CN103259943A (zh) * 2012-02-21 2013-08-21 深圳市东进软件开发有限公司 一种pstn电话会议混音方法
CN106057191A (zh) * 2016-05-19 2016-10-26 广州颐希颉信息科技有限公司 一种音频合成处理方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484075A (zh) * 2017-08-31 2017-12-15 深圳市豪恩声学股份有限公司 混音装置及声音处理系统
CN113038060A (zh) * 2019-12-25 2021-06-25 中国电信股份有限公司 多路音频处理方法和系统
CN113038060B (zh) * 2019-12-25 2022-11-18 中国电信股份有限公司 多路音频处理方法和系统
CN112885329A (zh) * 2021-02-02 2021-06-01 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质
CN112885329B (zh) * 2021-02-02 2023-10-31 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质
CN113727060A (zh) * 2021-10-29 2021-11-30 共道网络科技有限公司 互联网庭审处理方法及装置
CN113727060B (zh) * 2021-10-29 2022-02-25 共道网络科技有限公司 互联网庭审处理方法、装置及系统
CN116403589A (zh) * 2023-03-01 2023-07-07 天地阳光通信科技(北京)有限公司 一种音频处理方法、单元及系统

Also Published As

Publication number Publication date
CN106601264B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN106601264A (zh) 一种语音会议混音系统及方法
CN106851036B (zh) 一种共线语音会议分散混音系统
CN103945291B (zh) 一种应用双麦克风定向传声的方法及装置
CN107800902B (zh) 多路语音的混音方法及系统
CN105304079B (zh) 一种多方通话的多模式语音合成方法与系统以及服务器
US20110289410A1 (en) Isolation and modification of audio streams of a mixed signal in a wireless communication device
CN104485114B (zh) 一种基于听觉感知特性的语音质量客观评估的方法
CH629350A5 (de) Signalverarbeitungsanlage zur ableitung eines stoerverringerten ausgangssignals aus zwei zugefuehrten signalen, insbesondere zur verringerung des raumnachhalles.
EP3111626B1 (en) Perceptually continuous mixing in a teleconference
CN106162046A (zh) 一种视频会议图像呈现方法及其装置
WO2023125350A1 (zh) 音频数据推送方法、装置、系统、电子设备及存储介质
CN109979479A (zh) 一种回音消除方法、装置、设备及存储介质
DE102013109692A1 (de) Duplexfilter-umgehung
CN103781005B (zh) 利用信号处理的车辆用麦克风系统及噪音能动控制方法
CN106504758A (zh) 混音器及混音方法
CN110060696A (zh) 混音方法及装置、终端及可读存储介质
CN109510905A (zh) 多路语音的混音方法及系统
CN103680508B (zh) 多级混音的动态分配方法及动态分配装置
CN112820311A (zh) 一种基于空间预测的回声消除方法及装置
CN103067840A (zh) 增进语音即时输出的方法及助听器
CN111028857B (zh) 基于深度学习的多通道音视频会议降噪的方法及系统
CN111508500A (zh) 一种语音情绪识别方法、系统、装置和存储介质
DE3308703A1 (de) Konferenzgespraechsschaltung
CN113299299A (zh) 音频处理设备、方法及计算机可读存储介质
CN112687283B (zh) 一种基于指挥调度系统的语音均衡方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant