CN106601264A

CN106601264A - 一种语音会议混音系统及方法

Info

Publication number: CN106601264A
Application number: CN201611086517.2A
Authority: CN
Inventors: 李宝勋; 曾熙璘; 方辉; 刘黎
Original assignee: GHT CO Ltd
Current assignee: GHT CO Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2017-04-26
Anticipated expiration: 2036-11-30
Also published as: CN106601264B

Abstract

本发明公开了一种语音会议混音系统及方法。系统包括会议混音模块。会议混音模块包含输入语音处理单元、输入语音混音单元。输入语音处理单元将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减，得到每个与会成员当前帧的输入语音差值。输入语音混音单元将当前帧的每个输入语音差值进行逐次叠加，每次叠加得到一个与会成员当前帧的最新混音值。该系统或方法将每个与会成员输入的最新输入语音数据与前一帧输入的语音数据相减，可以有效的去除混音结果的直流分量，避免会议语音信号失真；且设计简单、占用资源少、成本低。

Description

一种语音会议混音系统及方法

技术领域

本发明涉及语音会议通信技术领域，尤其涉及语音会议混音系统及方法。

背景技术

现有的通信设备中，实现会议混音功能主要有两种实现方式。一种是通过CPU或DSP实现混音；一种是通过FPGA/CPLD实现混音。

通过CPU或DSP实现混音的优点是可能实现更为复杂的混音控制功能。然而，通过CPU或DSP实现混音在相同的会议资源路数时，混音的处理需要占用CPU或DSP的处理时间，更多的会议混音路数要求CPU或DSP在单位时间内能处理更多的指令，从而需要更强的处理器，导致其成本比FPGA/CPLD高出许多。此外，由于CPU或DSP很难做到实时性，所以一般都是基于缓存的语音包处理，而缓存语音包会引入语音的延迟。

通过FPGA/CPLD实现混音功能可以在占用很少资源的前提下轻松实现上万路的语音混音，而且语音混音的实时性很强，引入的语音延迟可以忽略。然而，目前通过FPGA/CPLD实现混音的技术实现由于大都采取了线性语音求和的做法，如果多个输入信号含有同极性的直流分量，线性语音求和后会使结果中的直流分量成倍放大，导致语音数据在这个极性方向溢出的概率变大，溢出后语音波形被削顶，语音信号的信噪比降低。此外，在输入语音含有直流分量时会导致混音后的数据含有直流分量。直流分量会使话机扬声器(听筒)不能发挥其最佳性能而导致语音失真。除非输入信号的直流分量相互抵消，否则求和算法并不能去除直流分量，而现实中很难满足这种巧合。为了克服这些缺点，现有的FPGA/CPLD实现混音的技术在混音模块前需要对语音做预处理，混音后还需要后期调节处理，而这些导致更多的资源占用和成本费用。如果多个会议成员所处的环境接近，从而背景噪声相似，简单的线性语音求和的做法，会使背景噪声成倍放大，导致信噪比降低。

发明内容

针对现有技术的不足，本发明提出了一种语音会议混音系统及方法，该系统或方法使用差值混音求和算法，在FPGA/CPLD上通过分时复用的流水线的方式，完成几十路至上万路语音的会议混音功能，延迟小，且能有效的去除输入信号的直流分量，提高音频信噪比；在不降低混音质量的前提下，解决了现有技术设计复杂、占用资源多、成本高的问题。

为了实现上述目的，本发明技术方案如下：

一种语音会议混音系统，包括会议混音模块。会议混音模块包含输入语音处理单元、输入语音混音单元。输入语音处理单元将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减，得到每个与会成员当前帧的输入语音差值。输入语音混音单元将当前帧的每个输入语音差值进行逐次叠加，每次叠加得到一个与会成员当前帧的最新混音值；当前帧叠加过程中，第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加；输入语音混音单元并且将当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出。

进一步地，会议混音模块还包含输出语音处理单元。输出语音处理单元在当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出前，将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据。

进一步地，输入语音处理单元包含输入语音求差部、输入语音存储部。每个与会成员的语音输入端口分别与输入语音求差部的第一输入端、输入语音存储部的输入端相连接。输入语音存储部的输出端与输入语音求差部的第二输入端相连接。输入语音求差部的输出端与输入语音混音单元的输入端相连接。输入语音存储部用于将每个与会成员前一帧采集的输入语音数据分别进行存储。输入语音求差部用于采用分时复用的方式逐一将每个与会成员的当前帧采集的输入语音数据与存储在输入语音存储部中相应的前一帧采集的输入语音数据进行相减，得到每个与会成员的输入语音差值。

进一步地，输入语音混音单元包含输入语音叠加部、混音存储部。输入语音处理单元的输出端与输入语音叠加部的第一输入端相连接。输入语音叠加部的输出端与输出语音处理单元的输出端相连接。并且，输入语音叠加部的输出端与混音存储部的输入端相连接。混音存储部的输出端与输入语音叠加部的第二输入端相连接。

进一步地，输入语音混音单元还包含混音滤波部。输入语音叠加部的输出端经过混音滤波部与混音存储部的输入端相连接。

进一步地，该系统包括多个相互并行的会议混音模块。

进一步地，会议混音模块有多个。前级的会议混音模块的若干语音输出端口作为后级的会议混音模块的语音输入端口。

一种语音会议混音方法，包括步骤：将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减，得到每个与会成员当前帧的输入语音差值。

将当前帧的每个输入语音差值进行逐次叠加，每次叠加得到一个与会成员当前帧的最新

混音值；当前帧叠加过程中，第一次叠加是前一帧最后一次叠加得到的最新混音值与当

前帧第一个待叠加的输入语音差值相加。

将当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出。

进一步地，在当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出前，将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据。

本发明的有益效果：

(1)该系统或方法将每个与会成员输入的最新输入语音数据与前一帧输入的语音数据相减，可以有效的去除混音结果的直流分量，避免会议语音信号失真；且设计简单、占用资源少、成本低。

(2)该系统或方法将会议中混音后的语音信号分别减去各与会成员的输入语音差值，使得各与会成员的语音输出端口只发出其余会议成员的声音，消除了自身输入语音的回音干扰。

(3)该系统对各与会成员语音差值进行逐次叠加，每叠加一次的得到的混音值存储到混音存储部中，最后叠加得到的最新混音值存储到混音存储部前，首先经过混音滤波部滤波，消除直流分量。

(4)该系统采用并行的方式、级联的方式或者混合的方式将多个会议混音模块进行组合，实现了扩容；并且组合简单、成本低。

附图说明

图1为本发明中系统的会议混音模块的原理示意图。

图2为本发明中系统的并行式扩容的原理示意图。

图3为本发明中系统的级联式扩容的原理示意图。

图4为本发明中系统的混合式扩容的原理示意图。

图5为本发明中方法的流程示意图。

其中，图1至图5的附图标记为：输入语音处理单元11、输入语音混音单元12、输出语音处理单元13；输入语音求差部111、输入语音存储部112；输入语音叠加部121、混音存储部122、混音滤波部123。

具体实施方式

下面结合附图和实施例，进一步阐述本发明。

实施例1

如图1所示，一种语音会议混音系统，包括会议混音模块。会议混音模块对若干个与会成员的语音数据进行处理。每个与会议成员包括话筒、听筒，话筒的讲话声音占用一个语音输入端口，其听筒的输出语音对应一个语音输出端口。

会议混音模块包含输入语音处理单元11、输入语音混音单元12、输出语音处理单元13。输入语音处理单元11、输入语音混音单元12、输出语音处理单元13顺次连接。

输入语音处理单元11分别接收每个与会成员语音输入端口的最新输入语音数据；并采用分时复用的方式逐一将每个与会成员的当前帧采集的输入语音数据与前一帧采集的输入语音数据相减，得到每个与会成员的输入语音差值。

输入语音混音单元12将输入语音处理单元11输出的当前帧每个与会成员的输入语音差值进行逐次叠加，每次叠加得到一个与会成员当前帧的最新混音值；当前帧叠加过程中，第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加。

输出语音处理单元13将输入语音混音单元12输出的每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据，得到每个与会成员的输出语音数据。

输入语音处理单元11包含输入语音求差部111、输入语音存储部112。每个与会成员的语音输入端口分别与输入语音求差部111的第一输入端、输入语音存储部112的输入端相连接。输入语音存储部112的输出端与输入语音求差部111的第二输入端相连接。输入语音求差部111的输出端与输入语音混音单元12的输入端相连接。

与会成员在发言时，由于声音是一个变化的交流信号，我们不希望其中含有直流分量，采用下式：

本与会成员的语音差值DIFF(M)＝MemberFrame(N)-MemberFrame(N-1)

输入语音存储部112分别将当前帧采样的每个与会成员的最新输入语音数据

MemberFrame(N)存储在不同的位置，存储后的各与会成员的最新输入语音数据作为输入语音求差部111后一帧求差运算时的前一帧输入语音数据MemberFrame(N-1)。输入语音求差部111分别获取每个与会成员的最新输入语音数据MemberFrame(N)，并从输入语音存储部112中获取每个与会成员的前一帧输入语音数据MemberFrame(N-1)；采用分时复用的方式依次将每个与会成员的最新输入语音数据MemberFrame(N)减去相应的前一帧输入语音数据MemberFrame(N-1)，分别得到每个与会成员的语音差值DIFF(M)；并将每个与会成员的语音差值DIFF(M)依次传送给输入语音混音单元12。

每个与会成员的语音输入端口当前帧采样的最新的输入语音数据MemberFrame(N)减去上次采样的输入语音数据MemberFrame(N-1)得到的语音差值DIFF(M)中只含有表达语音变化的交流信号，有效的过滤了输入信号中的直流分量。其中，M<＝L，L表示本会议中与会成员的个数，M表示第M个与会成员，N为本会议语音数据的采样次数。

本会议中，每个与会成员的语音差值DIFF分为四种状态：未参与会议、新加入会议、已经在会议中和退出会议。

未参与会议时，DIFF＝0；

新加入会议时，DIFF＝MemberFrame(N)-0；

已经在会议中时，DIFF＝MemberFrame(N)-MemberFrame(N-1)；

退出会议时，DIFF＝0-MemberFrame(N-1)。

输入语音混音单元12包含输入语音叠加部121、混音存储部122、混音滤波部123。输入语音求差部111的输出端与输入语音叠加部121的第一输入端相连接。输入语音叠加部121的输出端与输出语音处理单元13的输出端相连接。输入语音叠加部121的输出端并且经过混音滤波部123与混音存储部122的输入端相连接。混音存储部122的输出端与输入语音叠加部121的第二输入端相连接。

输入语音叠加部121执行加法，将每个与会成员的语音输入端口的语音差值DIFF进行依次叠加，并防止溢出。

具体地，采用下式对各与会成员的语音差值进行混音：

本会议成员的最新混音值Conf_Sum(M)＝Conf_Sum(M-1)+DIFF(M)；其中，M<＝L，L表示本会议中与会成员的个数。

输入语音叠加部121对输入语音求差部111当前帧输出的各与会成员语音差值DIFF(M)进行逐次叠加；每叠加一次的得到一个与会成员的最新混音值Conf_Sum(M)发送给输出语音单元13，并且将Conf_Sum(M)存储到混音存储部122中，作为输入语音叠加部121下次叠加的加数Conf_Sum(M-1)与下一个与会成员的语音差值DIFF(M)相加，直到输入语音求差部111当前帧输出的所有与会成员语音差值DIFF全部叠加完毕，得到当前帧最后一个与会成员语音差值DIFF的最新混音值Conf_Sum(L)。为了预防会议混音结果Conf_Sum中引入直流分量，我们将与会成员的语音差值DIFF加入Conf_Sum(M-1)。分析可以看出，引入直流分量的情况发生在会议成员加入和退出会议的时刻。每帧最后一次叠加得到的最新混音值Conf_Sum(L)存储到混音存储部122前，首先经过混音滤波部123滤波，消除直流分量。当前帧存储的最新混音值Conf_Sum(L)作为下一帧的第一个与会成员混音时的Conf_Sum(0)值。混音滤波部123使用单极性IIR滤波器，采用递归型结构，即结构上带有反馈环路，每次得到的最新混音值Conf_Sum(L)仅执行一次滤波。

例如，本会议中，与会成员的个数L为3，那么需要进行3次混音。第一次混音后的结果Conf_Sum(1)＝Conf_Sum(0)+DIFF(1)，需要理解的是，第一个与会成员混音时的加数Conf_Sum(0)为前一帧混音时，最后一次叠加得到的最新混音值；Conf_Sum(1)发送给输出语音单元13并且存储到混音存储部122中；第二次混音后的混音结果Conf_Sum(2)＝Conf_Sum(0)+DIFF(1)+DIFF(2)，即Conf_Sum(2)＝Conf_Sum(1)+DIFF(2)，Conf_Sum(2)发送给输出语音单元13并且覆盖混音存储部122中的Conf_Sum(1)；第三次混音后的混音结果Conf_Sum(3)＝Conf_Sum(0)+DIFF(1)+DIFF(2)+DIFF(3)，即Conf_Sum(3)＝Conf_Sum(2)+DIFF(3)。Conf_Sum(3)为本会议中的当前帧混音最后的最新语音值，Conf_Sum(3)发送给输出语音单元13；并且，在存储前，混音滤波部123对最新语音值Conf_Sum(3)执行一次滤波，消除直流分量。

也就是说，在每个活跃的会议中，无论在特定会议中有多少与会成员，混音滤波部123滤波算法仅仅对每帧采样的各输入语音数据的语音差值DIFF最后一次叠加后得到的最新语音值Conf_Sum(L)滤波一次。

每一帧计算完本会议的所有会议成员之后，做如下计算：

Conf_Sum＝Conf_Sum-(Conf_Sum>＞5)

使用极限思维理解这种做法，在与会成员讲话的间隙，即所有成员的DIFF都为0时，Conf_Sum当前的数值即为直流分量，以上滤过会使Conf_Sum逐渐减小，直至逼近0。差值DIFF混音加上以上滤波的Conf_Sum，便可以有效的去除输入信号中的直流分量。

一般地，会议成员在讲话时不希望听到自己的声音(会被认为是回声)，所以输出语音处理单元13采用下式：

本与会成员的输出语音数据PORT(M)＝Conf_Sum(M)-MemberFrame(N)

输出语音处理单元13得到各与会成员的最新语音值Conf_Sum(M)，同样采用分时复用的方式分别将本会议中的每个与会成员当前帧混音后的结果Conf_Sum(M)减去本与会成员的最新输入语音数据MemberFrame(N)，得到的差值PORT(M)为其余会议成员的声音，即为本与会成员语音输出端口的输出语音。

如前面的例子，与会成员的个数L为3时，得到三个与会成员当前帧的最新语音值分别为Conf_Sum(1)、Conf_Sum(2)、Conf_Sum(3)；假设三个与会成员当前帧的最新输入语音数据分别为MemberFrame1、MemberFrame2、MemberFrame3。那么，为了消除各与会成员输出语音数据的回音，每个与会成员语音输出端口的输出语音数据分别为PORT(1)＝Conf_Sum(1)-MemberFrame1、PORT(2)＝Conf_Sum(2)-MemberFrame2、PORT(3)＝Conf_Sum(3)-MemberFrame3。

而要实现监听或者会议录音功能，只需要将监听或者会议录音端口的输入置为静音，该端口的输出即为包含了所有与会成员的声音。此时，MemberFrame(N)＝0，则PORT(M)＝Conf_Sum(M)。

本专利支持多个独立的会议，每个会议有一个唯一的会议号，每一个会议号有一个Conf_Sum，所以有多少个独立的会议就有多少个Conf_Sum。每个成员都是根据会议号加入对应的会议。

理论上单个会议混音模块可提供的最高会议成员数取决于语音的采样率和所选用的FPGA/CPLD的最高速度。而在单个模块支持的会议成员数仍不能满足需求时，可以使用多个会议模块实现扩容。扩容有几种方式：并行的方式、级联的方式或者混合的方式。

如图2所示，为会议系统的并行扩容方式，多个会议混音模块各自独立工作，但是不同会议混音模块的成员不能参与同一个会议。

如图3所示，为会议系统的级联扩容方式，多个会议混音模块级联的方式连接，前一级的会议混音模块语音输出一部分直接输出，另一部分作为下一级会议混音模块的输入。优点是不同会议混音模块的成员也可以参与同一个会议；但是会牺牲一些混音通道资源。

如图4所示，为会议系统的混合式扩容方式，多个会议混音模块先并联，每个并联会议混音模块的语音输出一部分直接输出，另一部分作为下一级会议混音模块的输入。优点是不同的会议混音模块的成员也可以参与同一个会议；但是会牺牲一些混音通道资源。

实施例2

如图5所示，一种语音会议混音方法，包括以下步骤S1-S3：

S1：分别接收每个与会成员语音输入端口的最新输入语音数据；并采用分时复用的方式逐一将每个与会成员的当前帧采集的输入语音数据与前一帧采集的输入语音数据相减，得到每个与会成员的输入语音差值。

每个与会议成员对应一个RAM地址，每个RAM地址分别一一指向每个与会议成员的存储位置，每个与会成员获取最新输入语音数据后，将当前帧采集的输入语音数据存储到相应的存储位置中，作为下一帧语音求差的前一帧的输入语音数据。

每个会议中有若干个与会成员，每个与会议成员包括话筒、听筒，话筒的讲话声音占用一个语音输入端口，其听筒的输出语音对应一个语音输出端口。与会成员在发言时，由于声音是一个变化的交流信号，我们不希望其中含有直流分量，采用下式：

本与会成员语音差值DIFF(M)＝MemberFrame(N)-MemberFrame(N-1)

每个与会成员的语音输入端口最新采样的语音数据MemberFrame(N)减去前一帧采样的语音数据MemberFrame(N-1)得到的语音差值DIFF(M)中只含有表达语音变化的交流信号，有效的过滤了输入信号中的直流分量。其中，M<＝L，L表示本会议中与会成员的个数，M表示第M个与会成员，N为本会议语音数据的采样次数。

未参与会议时，DIFF＝0；

新加入会议时，DIFF＝MemberFrame(N)-0；

已经在会议中时，DIFF＝MemberFrame(N)-MemberFrame(N-1)；

退出会议时，DIFF＝0-MemberFrame(N-1)。

S2：将当前帧的每个输入语音差值进行逐次叠加，每次叠加得到一个与会成员当前帧的最新混音值；当前帧叠加过程中，第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加。

会议逻辑执行加法，将每个与会成员的语音输入端口的语音差值DIFF进行叠加，并防止溢出。

具体地，采用下式对各与会成员的语音差值进行混音：

对当前帧语音求差后得到的每个与会成员的语音差值DIFF(M)进行逐次叠加；每叠加一次的得到一个与会成员的最新混音值Conf_Sum(M)，并将Conf_Sum(M)进行存储，作为当前帧下次叠加时的加数Conf_Sum(M-1)与下一个与会成员的语音差值DIFF(M)相加，直到当前帧输出的所有与会成员语音差值DIFF全部叠加完毕，得到当前帧最后一个与会成员语音差值DIFF的最新混音值Conf_Sum(L)。为了预防会议混音结果Conf_Sum中引入直流分量，我们将与会成员的语音差值DIFF加入Conf_Sum(M-1)。分析可以看出，引入直流分量的情况发生在会议成员加入和退出会议的时刻。每帧得到的最新混音值Conf_Sum(L)在存储前，首先经过滤波，消除直流分量。当前帧存储的最新混音值Conf_Sum(L)作为下一帧的第一个与会成员混音时的Conf_Sum(0)值。滤波使用单极性I IR滤波器，采用递归型结构，即结构上带有反馈环路，每次得到的最新混音值Conf_Sum(L)仅执行一次滤波。

例如，本会议中，与会成员的个数L为3，那么需要进行3次混音。第一次混音后的结果Conf_Sum(1)＝Conf_Sum(0)+DIFF(1)，需要理解的是，第一个与会成员混音时的加数Conf_Sum(0)为前一帧混音时，最后一次叠加得到的最新混音值；Conf_Sum(1)作为第一个与会成员待处理的输出语音数据，Conf_Sum(1)并且被存储；第二次混音后的混音结果Conf_Sum(2)＝Conf_Sum(0)+DIFF(1)+DIFF(2)，即Conf_Sum(2)＝Conf_Sum(1)+DIFF(2)，Conf_Sum(2)作为第二个与会成员待处理的输出语音数据，Conf_Sum(2)并且被存储；第三次混音后的混音结果Conf_Sum(3)＝Conf_Sum(0)+DIFF(1)+DIFF(2)+DIFF(3)，即Conf_Sum(3)＝Conf_Sum(2)+DIFF(3)。Conf_Sum(3)作为第三个与会成员待处理的输出语音数据，Conf_Sum(3)并且在存储前，对Conf_Sum(3)执行一次滤波，消除直流分量。

也就是说，在每个活跃的会议中，无论在特定会议中有多少与会成员，滤波算法仅仅对每帧采样的各输入语音数据的语音差值DIFF最后一次叠加后得到的最新语音值Conf_Sum(L)滤波一次。

每一帧计算完本会议的所有成员之后，做如下计算：

Conf_Sum＝Conf_Sum-(Conf_Sum>＞5)

S3：将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据，得到每个与会成员当前帧的输出语音数据，并将相减后的数据分别从相应的与会成员的语音输出端口一一输出。

一般地，会议成员在讲话时不希望听到自己的声音(会被认为是回声)，所以采用下式：

本与会成员的输出语音数据PORT(M)＝Conf_Sum(M)-MemberFrame(N)

得到各与会成员的最新语音值Conf_Sum(M)后，同样采用分时复用的方式分别将本会议中的每个与会成员当前帧混音后的结果Conf_Sum(M)减去本与会成员的最新输入语音数据MemberFrame(N)，得到的差值PORT(M)为其余会议成员的声音，即为本与会成员语音输出端口的输出语音。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的基本构思的前提下直接导出或联想到的其它改进和变化均应认为包含在本发明的保护范围之内。

Claims

1.一种语音会议混音系统，包括会议混音模块，其特征在于：

所述会议混音模块包含输入语音处理单元(11)、输入语音混音单元(12)；

所述输入语音处理单元(11)将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减，得到每个与会成员当前帧的输入语音差值；

所述输入语音混音单元(12)将当前帧的每个输入语音差值进行逐次叠加，每次叠加得到一个与会成员当前帧的最新混音值；当前帧叠加过程中，第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加；所述输入语音混音单元(12)并且将当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出。

2.根据权利要求1所述的语音会议混音系统，其特征在于：

所述会议混音模块还包含输出语音处理单元(13)；

所述输出语音处理单元(13)在当前帧每个最新混音值从相应的与会成员的语音输出端口一一输出前，将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据。

3.根据权利要求2所述的语音会议混音系统，其特征在于：

所述输入语音处理单元(11)包含输入语音求差部(111)、输入语音存储部(112)；

每个与会成员的语音输入端口分别与所述输入语音求差部(111)的第一输入端以及所述输入语音存储部(112)的输入端相连接；

所述输入语音存储部(112)的输出端与所述输入语音求差部(111)的第二输入端相连接；

所述输入语音求差部(111)的输出端与所述输入语音混音单元(12)的输入端相连接；

所述输入语音存储部(112)用于分别对每个与会成员前一帧采集的输入语音数据进行存储；

所述输入语音求差部(111)用于将每个与会成员的当前帧采集的输入语音数据与存储在所述输入语音存储部(112)中相应的前一帧采集的输入语音数据进行相减，得到每个与会成员的输入语音差值。

4.根据权利要求2所述的语音会议混音系统，其特征在于：

所述输入语音混音单元(12)包含输入语音叠加部(121)、混音存储部(122)；

所述输入语音处理单元(11)的输出端与所述输入语音叠加部(121)的第一输入端相连接；所述输入语音叠加部(121)的输出端与所述输出语音处理单元(13)的输出端相连接；

并且，所述输入语音叠加部(121)的输出端与所述混音存储部(122)的输入端相连接；所述混音存储部(122)的输出端与所述输入语音叠加部(121)的第二输入端相连接。

5.根据权利要求4所述的语音会议混音系统，其特征在于：

所述输入语音混音单元(12)还包含混音滤波部(123)；

所述输入语音叠加部(121)的输出端经过所述混音滤波部(123)与所述混音存储部(122)的输入端相连接。

6.根据权利要求2所述的语音会议混音系统，其特征在于：

包括多个相互并行的所述会议混音模块。

7.根据权利要求2所述的语音会议混音系统，其特征在于：

所述会议混音模块有多个；

前级的所述会议混音模块的若干语音输出端口作为后级的所述会议混音模块的语音输入端口。

8.一种语音会议混音方法，其特征在于，包括步骤：

将每个与会成员的语音输入端口当前帧采集的输入语音数据与前一帧采集的输入语音数据相减，得到每个与会成员当前帧的输入语音差值；

将当前帧的每个输入语音差值进行逐次叠加，每次叠加得到一个与会成员当前帧的最新混音值；当前帧叠加过程中，第一次叠加是前一帧最后一次叠加得到的最新混音值与当前帧第一个待叠加的输入语音差值相加；

9.根据权利要求8所述的语音会议混音方法，其特征在于：

在将当前帧最新混音值从相应的与会成员的语音输出端口一一输出的步骤前，还包括步骤：

将每个与会成员的最新混音值减去本与会成员的语音输入端口当前帧采集的输入语音数据。