CN1206860C

CN1206860C - 一种智能控制视频会议的混音系统及控制会议进程的方法

Info

Publication number: CN1206860C
Application number: CN 03102814
Authority: CN
Inventors: 姚亚群; 陈伟; 石向荣; 王洪涛
Original assignee: NANWANG IMAGE INFORMATION INDUSTRY Co Ltd ZHEJIANG
Current assignee: NANWANG IMAGE INFORMATION INDUSTRY Co Ltd ZHEJIANG
Priority date: 2003-01-16
Filing date: 2003-01-16
Publication date: 2005-06-15
Anticipated expiration: 2023-01-16
Also published as: CN1443006A

Abstract

本发明涉及智能控制视频会议的混音系统及控制会议进程的方法，其目的是简化会议的进程，使得“询问-应答”过程变得没有必要，减小网络负荷，操作更为方便。混音系统分为客户端和服务器端，客户端有会议主席、主席指定的发言人及若干个旁听者三种终端；服务器端有网络接口、中央处理器、启动快闪存储器、程序快闪存储器、随机存储器、缓冲器及数据总线和地址总线；客户端和服务器端连接成一个声音采集、处理、发送硬件系统。控制方法也分为客户端和服务器端实现的步骤，根据声音数据“捎带”的发言人状况信息，判断是否为主席、主席指定的发言人或旁听者，再根据当时的情况实际发送或不发送该路音频数据。本发明用于在网络中召开视频会议。

Description

一种智能控制视频会议的混音系统及控制会议进程的方法

技术领域

本发明涉及一种在视频会议中智能控制会议进程的混音系统及控制会议进程的方法。适用于在网络中召开视频会议。

背景技术

目前，视频会议的服务器端一般都使用了混音器，用于混合不同与会者的声音，并将混合后的音频数据发送到各客户端。在视频会议中，存在一些身份不同的角色，有“会议主席”，主席指定的“发言人”，以及“旁听者”。作为旁听者如果要插话，需通过操作界面向会议主席提出申请，经主席同意后才取得发言权，系统开始传送该插话人的声音数据；同样，发言完毕后，通过操作界面向会议主席提出退出申请，经主席同意之后退出发言，系统停止发送该路数据。由于旁听者每一次加入或退出发言，都需要经历一次“询问-应答”过程，在此过程中旁听者/插话人和主席需要进行额外的操作，这样不但增加了网络的负荷，也不能集中精力于会议本身。

发明内容

本发明要解决的技术问题是：提供一种智能控制视频会议的混音系统及控制会议进程的方法，该混音系统解决了在视频会议进程中加入和退出发言的繁琐操作，使得“询问-应答”过程变得没有必要，减小了网络的负荷，使操作更加方便。

本发明所采用的技术方案是：智能控制视频会议的混音系统，该混音系统分为客户端A和服务器端B，其中：

i)客户端A包括会议主席a、主席指定的发言人b及若干个旁听者c三种终端；

ii)服务器端B包括网络接口、中央处理器、启动快闪存储器、程序快闪存储器、随机存储器、缓冲器及数据总线和地址总线；

iii)客户端A和服务器端B连接成一个声音采集、处理、发送硬件系统；

iv)客户端A的音频数据首先通过麦克风进入模数转换器A/D，A/D将音频信号数字化成PCM格式的数据流，通过网络接口发送至服务器端B，其特点在于：

v)服务器端通电时从启动快闪存储器启动，然后将固化在程序快闪存储器中的声音处理程序载入内存区，中央处理器从内存区调入指令，这些指令根据设定的三个门限值即阈值上限、阈值下限和声音停止时间逻辑判断出是否该路数据参加混音，对于不参加的PCM流不做处理，对于参加混音的数据流进行混音运算，混音算法即是对各路数据进行线性叠加，具体算法由固化在程序快闪存储器中的程序提供，在运行时被载入内存区供中央处理器调度；

vi)混音后的数据仍然保持PCM格式，这些PCM流通过网络接口传送到相应的终端，在终端D/A转换器将PCM流转换成模拟信号，输出到音频播放设备。

vii)在服务器端B，所述设定的三个门限值是用于比较声音数据的“过零率”的，即单位时间内信号波穿过横轴，也就是过零电平的次数，混音器在每次得到采样数据后，对数据的过零率加以分析，有两种情况：

i)如果超出一定的数值，即阈值上限，则认定数据为“有声”，只有被认定为有声的数据才参加混音；

ii)设定声音停止时间，对这一段时间内的过零率进行累加，如果数值小于某一特定的值，即阈值下限，则可以断定为“无声”，只要被认定为无声，就应该立即退出发言。

本发明智能控制视频会议进程的方法包括客户端A实现的步骤I和服务器端B实现的步骤II，其中：

步骤I表现为1)、客户端A程序对声音数据“捎带”的发言人状况信息I进行判断，若是主席a或主席指定的发言人b，直接向服务器B发送声音数据，若否，判断是否是插话人，如旁听者c；

2)、客户端程序不间断地取得发言人状况信息I，并且解析出最多两个发言人ID，对照自身的ID，即可得出两个简单的事实，即“自身是否插话人”和“当前是否可插话”，如果解析出的两个ID中有一个和自身相等则是插话人c，继续向服务器发送声音数据，如果不等则自身不是插话人c；

3)、再根据发言人状况信息I判断是否可以插话，如果解析出的两个ID均非0，说明插话人名额已满，不发送数据，如果只有一个ID非0或两个都是0，则当前状态可插话，开始向服务器发送声音数据；

步骤II表现为1)、服务器端B在网络中检测到客户端A发来的声音数据后，取得该路数据中的ID，如果是主席a或者主席指定的发言人b终端发来的声音数据，直接参混，否则认定是插话人，如旁听者c；

2)服务器端程序先计算过零率R和时间T内的总过零率A，然后程序根据解析出的ID判断是否当前插话人，若是，根据值A考察是否变为无声，如果变为无声，进行信息设定，从发言人状况信息I中剔除该路ID，并停止(发送)混合该路音频数据，如果没有变为无声，继续(发送)混合该路音频数据；

3)若不是当前插话人，根据值R判断是否变为有声，如果变为有声，进行信息设定，从发言人状况信息I中加入该路ID，并开始(发送)混合该路音频数据，如果没有变为有声，抛弃该数据包。

本发明的有益效果是：由于本发明是通过“有声/无声检测”简化了旁听者/插话人和主席的操作，使“询问-应答”过程变得没有必要，减小了网络的负荷，使与会者能够集中精力于会议本身。

附图说明

图1是本发明的硬件结构框图。

图2是客户端A的工作流程图。

图3是服务器端B的工作流程图。

具体实施方式

本发明混音系统分为客户端A和服务器端B，客户端终端有会议主席a、主席指定的发言人b和若干个旁听者/插话人c。

服务器端B在硬件实现方面由网络接口1(100BASE-T)、中央处理器2(MPC860)、随机存储器3、启动快闪存储器4、程序快闪存储器5、缓冲器6、数据总线7、9和地址总线8、10组成(参阅图1)。

客户端A的音频数据首先通过麦克风进入模数转换器A/D，A/D将音频信号数字化成PCM(pulse code modulation)格式的数据流，通过网络接口1发送至服务器端B。

服务器端B通电时从启动快闪存储器4启动，然后将固化在程序快闪存储器5中的声音处理程序载入内存区，中央处理器2从内存区调入指令，这些指令根据设定的三个门限值即阈值上限、阈值下限和声音停止时间逻辑判断出是否该路数据参加混音，对于不参加的PCM流不做处理，对于参加混音的数据流进行混音运算，混音算法即是对各路数据进行线性叠加，具体算法由固化在程序快闪存储器5中的程序提供，在运行时被载入内存区供中央处理器2调度；混音后的数据仍然保持PCM格式，这些PCM流通过网络接口1传送到相应的终端，在终端D/A转换器将PCM流转换成模拟信号，输出到音频播放设备。

在服务器端B的声音处理程序中，和这些预置的门限值(阈值上限、阈值下限和声音停止时间)进行比较的是声音数据的“过零率”，即单位时间内信号波穿过横轴(零电平)的次数，混音器在每次得到采样数据后，对数据的过零率加以分析，如果超出一定的数值，即阈值上限，则认定数据为“有声”，只有被认定为有声的数据才参加混音；设定声音停止时间，对这一段时间内的过零率进行累加，如果数值小于某一特定的值，即阈值下限，则可以断定为“无声”，只要被认定为无声，就应该立即退出发言。

服务器端的声音处理程序还对“当前插话人状况”信息进行设定，并将它打包到不间断发送的音频数据里，向客户端转发。客户端装有“信息解析程序”，客户端通过解析收到的音频数据，将其中“当前插话人状况”的信息I解析出来，直接决定本地是否有必要向服务器发送声音数据。

由前面的分析可知，这里的发言人状况信息I通过音频数据被“捎带”到客户端，所以起着纽带的作用，而信息设定是由声音检测的结果带动改为引发的，这里需要获取的是两个重要转变，有声向无声的转变和无声向有声的转变。通过这两个转变，自动进行加入和退出会议的操作，而“审批”过程由客户端A代替会议主席根据信息I自动完成，实现会议进程的自动有序控制。例如，对于每一个终端，都有一个独立的非0数值ID，长度为1个字节，如果系统允许的最大插话人数N为2，那么我们就把信息I规定为2字节长，其内容分别就是两个插话人的ID，(有必要说明一下为什么是两个，因为一般最多允许4个人同时讲话，去掉a，b，所以插话人数最多为2)，不难想象，如果只有一个插话人或者没有插话人，那么对应的位置就为0。

图2所示的是客户端A的工作流程图，其步骤为：

1)、客户端A程序对声音数据“捎带”的发言人状况信息I进行判断，若是主席或主席指定的发言人，直接向服务器B发送声音数据，若否，判断是否是插话人；

2)、客户端程序不间断地取得发言人状况信息I，并且解析出最多两个发言人ID，对照自身的ID，即可得出两个简单的事实，即“自身是否插话人”和“当前是否可插话”，如果解析出的两个ID中有一个和自身相等则是插话人，继续向服务器发送声音数据，如果不等则自身不是插话人；

3)、再根据发言人状况信息I判断是否可以插话，如果解析出的两个ID均非0，说明插话人名额已满，不发送数据，如果只有一个ID非0或两个都是0，则当前状态可插话，开始向服务器发声音数据。

图3所示的是服务器端B的工作流程图，其步骤为：

1)、服务器端B在网络中检测到客户端A发来的声音数据后，取得该路数据中的ID，如果是主席或者主席指定的发言人终端发来的声音数据，直接参混，否则认定是插话人即旁听者；

Claims

1、一种智能控制视频会议的混音系统，该混音器分为客户端A和服务器端B，其中：

ii)服务器端B包括网络接口(1)、中央处理器(2)、启动快闪存储器(4)、程序快闪存储器(5)、随机存储器(3)、缓冲器(6)及数据总线(7、9)和地址总线(8、10)；

iv)客户端A的音频数据首先通过麦克风进入模数转换器A/D，A/D将音频信号数字化成PCM格式的数据流，通过网络接口(1)发送至服务器端B，其特征在于：

v)服务器端通电时从启动快闪存储器(4)启动，然后将固化在程序快闪存储器(5)中的声音处理程序载入内存区，中央处理器(2)从内存区调入指令，这些指令根据设定的三个门限值即阈值上限、阈值下限和声音停止时间逻辑判断出是否该路数据参加混音，对于不参加的PCM流不做处理，对于参加混音的数据流进行混音运算，混音算法即是对各路数据进行线性叠加，具体算法由固化在程序快闪存储器(5)中的程序提供，在运行时被载入内存区供中央处理器(2)调度；

vi)混音后的数据仍然保持PCM格式，这些PCM流通过网络接口(1)传送到相应的终端，在终端D/A转换器将PCM流转换成模拟信号，输出到音频播放设备。

2、一种智能控制视频会议进程的方法，该方法包括客户端A实现的步骤I和服务器端B实现的步骤II，其中：

2)服务器端程序先计算过零率R和时间T内的总过零率A，然后程序根据解析出的ID判断是否当前插话人，若是，根据值A考察是否变为无声，如果变为无声，进行信息设定，从发言人状况信息I中剔除该路ID，并停止发送混合该路音频数据，如果没有变为无声，继续发送混合该路音频数据；

3)若不是当前插话人，根据值R判断是否变为有声，如果变为有声，进行信息设定，从发言人状况信息I中加入该路ID，并开始发送混合该路音频数据，如果没有变为有声，抛弃该数据包。