CN110300279B

CN110300279B - 一种会议发言人的追踪方法及装置

Info

Publication number: CN110300279B
Application number: CN201910563722.0A
Authority: CN
Inventors: 彭宇龙; 韩杰; 王艳辉; 张少华
Original assignee: Visionvera Information Technology Co Ltd
Current assignee: Visionvera Information Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-11-02
Anticipated expiration: 2039-06-26
Also published as: CN110300279A

Abstract

本发明实施例提供了一种会议发言人的追踪方法及装置，所述方法应用于会议发言终端，所述会议发言终端包括环形麦克风阵列和云台摄像头，所述环形麦克风阵列包括多组麦克风；本发明实施例通过所述多组麦克风采集会议发言人的声源信号；比对所述多组麦克风的所述声源信号强度，确定所述声源信号最强的目标麦克风；查询所述目标麦克风在所述环形麦克风阵列中的位置；根据所述位置，调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风对准的所述会议发言人，可快速、准确、自动追踪会议发言人，克服了已有技术中切换会议发言人时需要频繁地手动切换以及调焦，且人工调校也不够及时、准确问题；本发明实施例具有较高的追踪精度。

Description

一种会议发言人的追踪方法及装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种会议发言人的追踪方法以及装置，以及一种计算机可读存储介质。

背景技术

在一个圆桌会议中，每一位成员需要频繁的做出发言，在视频会议中，就需要不断地改变麦克风和摄像头所对准的发言成员，但已有技术中频繁地手动切换以及调焦是非常不方便的，且人工调校也不够及时、准确，如何快速完成发言人摄像头追踪，同时保证精度是目前需要解决的问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种会议发言人的追踪方法、一种会议发言人的追踪装置，以及一种计算机可读存储介质。

为了解决上述问题，本发明实施例公开了一种会议发言人的追踪方法，所述方法应用于会议发言终端，所述会议发言终端包括环形麦克风阵列和云台摄像头，所述环形麦克风阵列包括多组麦克风；所述方法包括：

通过所述多组麦克风采集会议发言人的声源信号；

比对所述多组麦克风的所述声源信号强度，确定所述声源信号最强的目标麦克风；

查询所述目标麦克风在所述环形麦克风阵列中的位置；

根据所述位置，调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风对准的所述会议发言人。

可选的，在比对所述多组麦克风的所述声源信号强度之前，所述方法包括：

对所述声源信号进行背景音降噪处理和/或信号放大处理。

可选的，所述方法包括：

对所述声源信号进行回声抑制处理。

可选的，所述麦克风包括多个拾音器，在相邻的两个所述拾音器之间设置有声源约束挡板。

可选的，所述方法还包括：

比对所述目标麦克风中的多个所述拾音器的所述声源信号强度，确定所述声源信号最强的目标拾音器；

查询所述目标麦克风在所述环形麦克风阵列中的位置的步骤包括：

查询所述目标麦克风中的所述目标拾音器在所述环形麦克风阵列中的位置。

可选的，当所述环形麦克风阵列的麦克风数量为8组时，所述麦克风由 3个拾音器组成。

可选的，所述方法应用于视联网，所述视联网中包括视联网服务器，所述视联网服务器与所述会议发言终端通过视联网通信连接。

为了解决上述问题，本发明实施例还公开了一种会议发言人的追踪装置，所述装置应用于会议发言终端，所述会议发言终端包括环形麦克风阵列和云台摄像头，所述环形麦克风阵列包括多组麦克风；所述装置包括以下模块：

声源信号采集模块，用于通过所述多组麦克风采集会议发言人的声源信号；

目标麦克风确定模块，用于比对所述多组麦克风的所述声源信号强度，确定所述声源信号最强的目标麦克风；

会议发言人定位模块，用于查询所述目标麦克风在所述环形麦克风阵列中的位置；

会议发言人拍摄模块，用于根据所述位置，调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风对准的所述会议发言人。

本发明实施例还公开了一种装置，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如本发明实施例所述的一个或多个的一种会议发言人的追踪方法。

本发明实施例还公开了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例所述的一种会议发言人的追踪方法。

本发明实施例包括以下优点：

在本发明实施例中，通过所述多组麦克风采集会议发言人的声源信号；比对所述多组麦克风的所述声源信号强度，确定所述声源信号最强的目标麦克风；查询所述目标麦克风在所述环形麦克风阵列中的位置；根据所述位置，调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风对准的所述会议发言人，可快速、准确、自动追踪会议发言人，克服了已有技术中切换会议发言人时需要频繁地手动切换以及调焦，且人工调校也不够及时、准确问题；本发明实施例具有较高的追踪精度。

附图说明

图1是本发明的一种视联网的组网示意图；

图2是本发明的一种节点服务器的硬件结构示意图；

图3是本发明的一种接入交换机的硬件结构示意图；

图4是本发明的一种以太网协转网关的硬件结构示意图；

图5是本发明实施例的一种会议发言人的追踪方法的步骤流程图；

图6是本发明一优选实施例的环形麦克风阵列的结构示意图；

图7是本发明实施例的一种会议发言人的追踪装置的结构示意图。

附图标记说明：

A1-麦克风；A2-拾音器；A3-声源约束挡板。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

视联网是网络发展的重要里程碑，是一个实时网络，能够实现高清视频实时传输，将众多互联网应用推向高清视频化，高清面对面。

视联网采用实时高清视频交换技术，可以在一个网络平台上将所需的服务，如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、VOD点播、电视邮件、个性录制(PVR)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台，通过电视或电脑实现高清品质视频播放。

为使本领域技术人员更好地理解本发明实施例，以下对视联网进行介绍：

视联网所应用的部分技术如下所述：

网络技术(Network Technology)

视联网的网络技术创新改良了传统以太网(Ethernet)，以面对网络上潜在的巨大第一视频流量。不同于单纯的网络分组包交换(Packet Switching)或网络电路交换(Circuit Switching)，视联网技术采用Packet Switching满足Streaming需求。视联网技术具备分组交换的灵活、简单和低价，同时具备电路交换的品质和安全保证，实现了全网交换式虚拟电路，以及数据格式的无缝连接。

交换技术(Switching Technology)

视联网采用以太网的异步和包交换两个优点，在全兼容的前提下消除了以太网缺陷，具备全网端到端无缝连接，直通用户终端，直接承载IP数据包。用户数据在全网范围内不需任何格式转换。视联网是以太网的更高级形态，是一个实时交换平台，能够实现目前互联网无法实现的全网大规模高清视频实时传输，将众多网络视频应用推向高清化、统一化。

服务器技术(Server Technology)

视联网和统一视频平台上的服务器技术不同于传统意义上的服务器，它的流媒体传输是建立在面向连接的基础上，其数据处理能力与流量、通讯时间无关，单个网络层就能够包含信令及数据传输。对于语音和视频业务来说，视联网和统一视频平台流媒体处理的复杂度比数据处理简单许多，效率比传统服务器大大提高了百倍以上。

储存器技术(Storage Technology)

统一视频平台的超高速储存器技术为了适应超大容量和超大流量的媒体内容而采用了最先进的实时操作系统，将服务器指令中的节目信息映射到具体的硬盘空间，媒体内容不再经过服务器，瞬间直接送达到用户终端，用户等待一般时间小于0.2秒。最优化的扇区分布大大减少了硬盘磁头寻道的机械运动，资源消耗仅占同等级IP互联网的20％，但产生大于传统硬盘阵列3倍的并发流量，综合效率提升10倍以上。

网络安全技术(Network Security Technology)

视联网的结构性设计通过每次服务单独许可制、设备与用户数据完全隔离等方式从结构上彻底根除了困扰互联网的网络安全问题，一般不需要杀毒程序、防火墙，杜绝了黑客与病毒的攻击，为用户提供结构性的无忧安全网络。

服务创新技术(Service Innovation Technology)

统一视频平台将业务与传输融合在一起，不论是单个用户、私网用户还是一个网络的总合，都不过是一次自动连接。用户终端、机顶盒或PC直接连到统一视频平台，获得丰富多彩的各种形态的多媒体视频服务。统一视频平台采用“菜谱式”配表模式来替代传统的复杂应用编程，可以使用非常少的代码即可实现复杂的应用，实现“无限量”的新业务创新。

视联网的组网如下所述：

视联网是一种集中控制的网络结构，该网络可以是树型网、星型网、环状网等等类型，但在此基础上网络中需要有集中控制节点来控制整个网络。

如图1所示，视联网分为接入网和城域网两部分。

接入网部分的设备主要可以分为3类：节点服务器，接入交换机，终端(包括各种机顶盒、编码板、存储器等)。节点服务器与接入交换机相连，接入交换机可以与多个终端相连，并可以连接以太网。

其中，节点服务器是接入网中起集中控制功能的节点，可控制接入交换机和终端。节点服务器可直接与接入交换机相连，也可以直接与终端相连。

类似的，城域网部分的设备也可以分为3类：城域服务器，节点交换机，节点服务器。城域服务器与节点交换机相连，节点交换机可以与多个节点服务器相连。

其中，节点服务器即为接入网部分的节点服务器，即节点服务器既属于接入网部分，又属于城域网部分。

城域服务器是城域网中起集中控制功能的节点，可控制节点交换机和节点服务器。城域服务器可直接连接节点交换机，也可直接连接节点服务器。

由此可见，整个视联网络是一种分层集中控制的网络结构，而节点服务器和城域服务器下控制的网络可以是树型、星型、环状等各种结构。

形象地称，接入网部分可以组成统一视频平台(虚线圈中部分)，多个统一视频平台可以组成视联网；每个统一视频平台可以通过城域以及广域视联网互联互通。

视联网设备分类

1.1本发明实施例的视联网中的设备主要可以分为3类：服务器，交换机(包括以太网协转网关)，终端(包括各种机顶盒，编码板，存储器等)。视联网整体上可以分为城域网(或者国家网、全球网等)和接入网。

1.2其中接入网部分的设备主要可以分为3类：节点服务器，接入交换机(包括以太网协转网关)，终端(包括各种机顶盒，编码板，存储器等)。

各接入网设备的具体硬件结构为：

节点服务器：

如图2所示，主要包括网络接口模块201、交换引擎模块202、CPU 模块203、磁盘阵列模块204；

其中，网络接口模块201，CPU模块203、磁盘阵列模块204进来的包均进入交换引擎模块202；交换引擎模块202对进来的包进行查地址表 205的操作，从而获得包的导向信息；并根据包的导向信息把该包存入对应的包缓存器206的队列；如果包缓存器206的队列接近满，则丢弃；交换引擎模块202轮询所有包缓存器队列，如果满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。磁盘阵列模块204主要实现对硬盘的控制，包括对硬盘的初始化、读写等操作； CPU模块203主要负责与接入交换机、终端(图中未示出)之间的协议处理，对地址表205(包括下行协议包地址表、上行协议包地址表、数据包地址表)的配置，以及，对磁盘阵列模块204的配置。

接入交换机：

如图3所示，主要包括网络接口模块(下行网络接口模块301、上行网络接口模块302)、交换引擎模块303和CPU模块304；

其中，下行网络接口模块301进来的包(上行数据)进入包检测模块305；包检测模块305检测包的目地地址(DA)、源地址(SA)、数据包类型及包长度是否符合要求，如果符合，则分配相应的流标识符 (stream-id)，并进入交换引擎模块303，否则丢弃；上行网络接口模块 302进来的包(下行数据)进入交换引擎模块303；CPU模块304进来的数据包进入交换引擎模块303；交换引擎模块303对进来的包进行查地址表306的操作，从而获得包的导向信息；如果进入交换引擎模块303的包是下行网络接口往上行网络接口去的，则结合流标识符(stream-id)把该包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃；如果进入交换引擎模块303的包不是下行网络接口往上行网络接口去的，则根据包的导向信息，把该数据包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃。

交换引擎模块303轮询所有包缓存器队列，可以包括两种情形：

如果该队列是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零；3)获得码率控制模块产生的令牌；

如果该队列不是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。

码率控制模块308是由CPU模块304来配置的，在可编程的间隔内对所有下行网络接口往上行网络接口去的包缓存器队列产生令牌，用以控制上行转发的码率。

CPU模块304主要负责与节点服务器之间的协议处理，对地址表306 的配置，以及，对码率控制模块308的配置。

以太网协转网关：

如图4所示，主要包括网络接口模块(下行网络接口模块401、上行网络接口模块402)、交换引擎模块403、CPU模块404、包检测模块 405、码率控制模块408、地址表406、包缓存器407和MAC添加模块 409、MAC删除模块410。

其中，下行网络接口模块401进来的数据包进入包检测模块405；包检测模块405检测数据包的以太网MAC DA、以太网MAC SA、以太网 length or frame type、视联网目地地址DA、视联网源地址SA、视联网数据包类型及包长度是否符合要求，如果符合则分配相应的流标识符 (stream-id)；然后，由MAC删除模块410减去MAC DA、MAC SA、 length or frametype(2byte)，并进入相应的接收缓存，否则丢弃；

下行网络接口模块401检测该端口的发送缓存，如果有包则根据包的视联网目地地址DA获知对应的终端的以太网MAC DA，添加终端的以太网MAC DA、以太网协转网关的MACSA、以太网length or frame type，并发送。

以太网协转网关中其他模块的功能与接入交换机类似。

终端：

主要包括网络接口模块、业务处理模块和CPU模块；例如，机顶盒主要包括网络接口模块、视音频编解码引擎模块、CPU模块；编码板主要包括网络接口模块、视音频编码引擎模块、CPU模块；存储器主要包括网络接口模块、CPU模块和磁盘阵列模块。

1.3城域网部分的设备主要可以分为2类：节点服务器，节点交换机，城域服务器。其中，节点交换机主要包括网络接口模块、交换引擎模块和CPU模块；城域服务器主要包括网络接口模块、交换引擎模块和 CPU模块构成。

2、视联网数据包定义

2.1接入网数据包定义

接入网的数据包主要包括以下几部分：目的地址(DA)、源地址 (SA)、保留字节、payload(PDU)、CRC。

如下表所示，接入网的数据包主要包括以下几部分：

DA

SA

Reserved

Payload

CRC

其中：

目的地址(DA)由8个字节(byte)组成，第一个字节表示数据包的类型(例如各种协议包、组播数据包、单播数据包等)，最多有256 种可能，第二字节到第六字节为城域网地址，第七、第八字节为接入网地址；

源地址(SA)也是由8个字节(byte)组成，定义与目的地址(DA) 相同；

保留字节由2个字节组成；

payload部分根据不同的数据报的类型有不同的长度，如果是各种协议包的话是64个字节，如果是单组播数据包话是32+1024＝1056个字节，当然并不仅仅限于以上2种；

CRC有4个字节组成，其计算方法遵循标准的以太网CRC算法。

2.2城域网数据包定义

城域网的拓扑是图型，两个设备之间可能有2种、甚至2种以上的连接，即节点交换机和节点服务器、节点交换机和节点交换机、节点交换机和节点服务器之间都可能超过2种连接。但是，城域网设备的城域网地址却是唯一的，为了精确描述城域网设备之间的连接关系，在本发明实施例中引入参数：标签，来唯一描述一个城域网设备。

本说明书中标签的定义和MPLS(Multi-Protocol Label Switch，多协议标签交换)的标签的定义类似，假设设备A和设备B之间有两个连接，那么数据包从设备A到设备B就有2个标签，数据包从设备B到设备A 也有2个标签。标签分入标签、出标签，假设数据包进入设备A的标签 (入标签)是0x0000，这个数据包离开设备A时的标签(出标签)可能就变成了0x0001。城域网的入网流程是集中控制下的入网过程，也就意味着城域网的地址分配、标签分配都是由城域服务器主导的，节点交换机、节点服务器都是被动的执行而已，这一点与MPLS的标签分配是不同的，MPLS的标签分配是交换机、服务器互相协商的结果。

如下表所示_，城域网的数据包主要包括以下几部分：

DA

SA

Reserved

标签

Payload

CRC

即目的地址(DA)、源地址(SA)、保留字节(Reserved)、标签、payload(PDU)、CRC。其中，标签的格式可以参考如下定义：标签是 32bit，其中高16bit保留，只用低16bit，它的位置是在数据包的保留字节和payload之间。

实施例一：

根据上述视联网特性和本发明所要解决的技术问题，参考图5，示出了本发明实施例的一种会议发言人的追踪方法的步骤流程图，所述方法应用于会议发言终端，所述会议发言终端包括环形麦克风阵列和云台摄像头，所述环形麦克风阵列包括多组麦克风A1；

具体可以包括如下步骤：

步骤S501：通过所述多组麦克风A1采集会议发言人的声源信号；

步骤S502：比对所述多组麦克风A1的所述声源信号强度，确定所述声源信号最强的目标麦克风A1；

步骤S503：查询所述目标麦克风A1在所述环形麦克风阵列中的位置；

步骤S504：根据所述位置，调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风A1对准的所述会议发言人。

在本发明的各个实施例中，环形麦克风阵列包括多组麦克风A1，即多组麦克风A1绕着一个中心原点围成一圈，形成一个环形的声源采集圈，比如环形分布的五个或七个麦克风A1组成的麦克风A1阵列，需要说明的是，本发明实施例所述的环形为圆形环或椭圆环。当会议发言人发言时，每组麦克风A1都会采集到一个声音，由于每组麦克风A1相对于会议发言人的方向、距离均不同，所以每组麦克风A1所采集到的声音也不同。基于此，本发明实施例可将每组麦克风A1采集到的声源信号进行对比，以此确定所述声源信号最强的目标麦克风A1，即执行步骤S502。

上述所提及的会议发言人是指会议现场的某个发言人，会议发言人可以为会议的参会方或会议的主持方。对应的，本发明主要采集的声源信号是会议发言人现场实时表达的会议言论。

当然，一场会议中难免会有一些杂音，比如会议设备杂音，桌椅拉动或晃动的声音，或某个会议人员临时离开时所产生的脚步声，这些声音对麦克风A1存在一定的干扰，影响对会议发言人的声音的拾取效果，以及声源信号强度的比对效果。因此，本发明实施例在比对所述多组麦克风A1的所述声源信号强度之前，对声源信号还会做以下处理：

对所述声源信号进行背景音降噪处理和/或信号放大处理。

针对声源信号，背景音降噪处理与信号放大处理可同时处理，也可依次处理；可以只进行背景音降噪处理，也可以只进行信号放大处理；可以先对声源信号进行信号放大处理，再对经过信号放大处理的声源信号进行背景音降噪处理；优选的，两者依次进行处理，即先对所述声源信号进行背景音降噪处理，再对经过背景音降噪处理后的声源信息进行信号放大处理，以此可有效保留声源信号中的会议发言人的声音，并提高会议发言人声音的识别度。在实际应用中，背景音降噪处理可采用软件进行处理，如现有的背景音降噪软件，信号放大处理可采用现有的音频信号放大处理器，能够实现本发明实施例的背景音降噪和音频信号放大目的的设备或软件均可。

另外，在较小的空间中，当说话者连续说话时会产生回声，回声的不断叠加会导致声音强度检测不准确。所以针对该问题，在本发明实施例的会议发言人的追踪方法还包括：

对所述声源信号进行回声抑制处理。

就具体实现而言，回声抑制处理可通过回声抑制器来实现，比如 ClearOne Pro880回声抑制器，或Speex回声消除系统。本发明实施例通过对所述声源信号进行回声抑制处理，可自适应检测说话人的频率，将回声滤除，可以提高检测精度。

为了使采集到的声音指向性更加明确，精度更高，本发明实施例还对环形麦克风阵列做了进一步改进，优选的，所述麦克风A1包括多个拾音器A2，在相邻的两个所述拾音器A2之间设置有声源约束挡板A3。

本发明实施例的麦克风A1采用小型拾音器A2进行声音采集。拾音器 A2具有高灵敏度、全指向性，可远距离采集声音，克服了普通麦克风A1 通常是定向的和低灵敏的，在很近的距离对准了说话才行的问题；且本发明实施例的拾音器A2还集成前置放大电路，可以直连DVR、有源音箱、耳机等，无需连接功放，使得会议开展时更加灵活。

本发明实施例声源约束挡板A3的设计可以避免临近的拾音器A2相互干扰，实现更高精度的指向。所述声源约束挡板A3可以采用片状或喇叭状，片状的声源约束挡板A3直接设置在两个拾音器A2之间即可。

优选的，所述声源约束挡板A3为喇叭状，包括扩口端和缩口端，所述拾音器A2位于所述缩口端处，所述扩口端背对所述环形麦克风阵列的中心点设置。

将声源约束挡板A3设计为喇叭状，相比片状的声源约束挡板A3，能更进一步提高拾音的精准度和清晰度。对于声源约束挡板A3的设计形状在此不多赘述，总而言之，能够实现声源隔离以及方向性约束的挡板均可作为本发明实施例声源约束挡板A3。

参照图6，示出了本发明一优选实施例的环形麦克风阵列的结构示意图；在图6中，当所述环形麦克风阵列的麦克风A1(MIC)数量为8组时，所述麦克风A1由3个拾音器A2组成。此实施例中，每个拾音器A2所对准的角度为15°，此角度对应的环形麦克风阵列是发明人经过大量实验后所设计得出的，在此精度下，所采用的发言人的声源信号精准度最好，即信号最强且与其他的拾音器A2采集的声源信号强度有明显区别。

步骤S502中，比对所述多组麦克风A1的所述声源信号强度可通过在拾音器A2或声源约束挡板A3内设置小型或微型分贝检测仪来实现，也可通过会议发言终端内的分贝测试软件来实现，以此确定所述声源信号最强的目标麦克风A1。本发明实施例在具体实现时，对声源信号的处理可包括以下两方面：一、将模拟音频信号输入至扬声器，以便现场的会议人员听到；二、采用差分对比的方式确认哪一个麦克风A1对应的拾音器A2采集到的幅值最高。

在确定目标麦克风A1之后，就自动查询目标麦克风A1的在所述环形麦克风阵列中的位置。根据上述拾音器A2的结构描述，步骤S502～步骤S503 的具体实现方法可以包括：

第一步：比对所述目标麦克风A1中的多个所述拾音器A2的所述声源信号强度，确定所述声源信号最强的目标拾音器A2；

第二步：查询所述目标麦克风A1中的所述目标拾音器A2在所述环形麦克风阵列中的位置。

上述位置是指目标拾音器A2在环形麦克风阵列中的角度和方向，将环形麦克风阵列做十字划分，分为东、西、南、北方向，或分为0点、3点、6 点、9点方向，然后设定一个参照点或方向校准器，用于环形麦克风阵列辨别方向，比如在环形麦克风阵列中设置地磁传感器就可以实现方向的辨别。比如目标麦克风A1的编号为MIC_2，目标拾音器A2的编号为MIC_2-001， MIC_2表示目标麦克风A1为环形麦克风阵列中编号为2的麦克风A1， MIC_2-001表示目标拾音器A2是环形麦克风阵列中编号为2的麦克风A1 中编号为001的拾音器A2。对应方向划分，比如MIC_2在环形麦克风阵列中位置可以为北偏西0°～45°，MIC_2-001在环形麦克风阵列中位置可以为北偏西0°～15°；MIC_2在环形麦克风阵列中位置可以为0点45分，MIC_2-001在环形麦克风阵列中位置可以为0点15分。要说明的是，每一个麦克风A1或拾音器A2对应的角度在设备出厂时预先录入，在使用时只需查找麦克风A1或拾音器A2编号对应的角度即可。

查询到所述位置后，会议发言终端就调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风A1对准的所述会议发言人。优选的，所述环形麦克风阵列的中心轴线与所述云台摄像头的转轴在同一直线上，以此可更便捷地控制云台摄像头对会议发言人进行追踪拍摄。具体的，云台摄像头有俯仰角电机，进行上下扫描，同时对扫描的图像进行人脸识别的动作，识别人脸，完成人脸识别后，对其进行对焦拍摄，从而完成自动寻找会议发言人的功能。

综上，步骤S501～步骤S504阐述了根据声源定位，利用摄像头来快速、准确、自动追踪会议发言人的实现方法，克服了已有技术中切换会议发言人时需要频繁地手动切换以及调焦，且人工调校也不够及时、准确问题；且本发明实施例具有较高的追踪精度。

需要说明的是，在本发明的各个实施例中，会议发言终端可以为安装有环形麦克风阵列和云台摄像头的智能设备，该智能设备可以包括但不限于机顶盒、显示模块、语音播放模块。该终端配置有安卓系统，并包括上述1.2 内容中所述的网络接口模块、业务处理模块和CPU模块，其中，网络接口模块可以配置有视联网网卡，该视联网网卡用于接收并发送视联网协议的数据。

对应视联网网卡的设置，本发明实施例的一种会议发言人的追踪方法可以应用于视联网，所述视联网中包括视联网服务器，所述视联网服务器与所述会议发言终端通过视联网通信连接。

视联网服务器可以为视联网内的所有终端提供注册、数据转发、信令控制等服务的服务器，每个终端生成的数据都可以先发送至视联网服务器，再由视联网服务器通过视联网协议转发到目的终端。本发明实施例所提及的视联网协议属于一种专有协议，位于网络协议层中的第二层，是为了支持超大规模、高带宽、实时通信网络而设计的一整套完整的网络通信协议体系，可以独立于IP协议之外建立不同终端之间的寻址与通信，实现“有质量保证地”实时通信网络系统，是一种与IP协议“平级”的大规模高带宽实时交换网络通信技术，非视联网用户不能访问，网络传输稳定性较高。同时，利用本发明实施例所采集的会议发言人的视频图像和发言声音也都更加清晰，发言人定位更加准确，本发明实施例运用在视联网中，会议发言终端通过视联网与视联网服务器通信连接，可保障远程会议视频的安全性和实时性，相比现有技术，可大大提升远程视频会议参会双方的会议体验感。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参考图7，对应实施例一所示的方法，示出了本发明实施例的一种会议发言人的追踪装置的结构示意图，所述装置应用于会议发言终端，所述会议发言终端包括环形麦克风阵列和云台摄像头，所述环形麦克风阵列包括多组麦克风A1；所述装置可以包括以下模块：

声源信号采集模块701，用于通过所述多组麦克风A1采集会议发言人的声源信号；

目标麦克风A1确定模块702，用于比对所述多组麦克风A1的所述声源信号强度，确定所述声源信号最强的目标麦克风A1；

会议发言人定位模块703，用于查询所述目标麦克风A1在所述环形麦克风阵列中的位置；

会议发言人拍摄模块704，用于根据所述位置，调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风A1对准的所述会议发言人。

对应实施例一所述方法，所述装置包括以下模块：

信号降噪处理模块，用于对所述声源信号进行背景音降噪处理和/或信号放大处理。

对应实施例一所述方法，所述装置包括以下模块：

回声抑制处理模块，用于对所述声源信号进行回声抑制处理。

对应实施例一所述方法，目标麦克风A1确定模块702包括以下子模块：

目标拾音器A2确定子模块，用于比对所述目标麦克风A1中的多个所述拾音器A2的所述声源信号强度，确定所述声源信号最强的目标拾音器 A2；

会议发言人定位模块703包括以下子模块：

位置查询子模块，用于查询所述目标麦克风A1中的所述目标拾音器A2 在所述环形麦克风阵列中的位置。

对于一种会议发言人的追踪装置实施例而言，由于其与一种会议发言人的追踪方法实施例基本相似，所以描述的比较简单，相关之处参见一种会议发言人的追踪方法实施例的部分说明即可。

本发明实施例还提供了一种装置，包括：

一个或多个处理器；和

本发明实施例还提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例所述的一种会议发言人的追踪方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种会议发言人的追踪方法以及装置，以及一种计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种会议发言人的追踪方法，其特征在于，所述方法应用于会议发言终端，所述会议发言终端包括环形麦克风阵列和云台摄像头，所述环形麦克风阵列包括多组麦克风，多组麦克风绕着一个中心原点围成一圈，形成一个环形的声源采集圈；其中，所述麦克风包括多个拾音器，在相邻的两个所述拾音器之间设置有声源约束挡板，所述拾音器或所述声源约束挡板内设置有小型或微型分贝检测仪；所述方法包括：

通过所述多组麦克风采集会议发言人的声源信号；

比对所述多组麦克风的声源信号强度，确定所述声源信号最强的目标麦克风，比对所述目标麦克风中的多个所述拾音器的所述声源信号强度，确定所述声源信号最强的目标拾音器；

查询所述目标麦克风中的所述目标拾音器在所述环形麦克风阵列中的位置；

根据所述位置，调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风对准的所述会议发言人；

通过所述分贝检测仪，确定所述声源信号最强的目标麦克风。

2.根据权利要求1所述的方法，其特征在于，在比对所述多组麦克风的所述声源信号强度之前，所述方法包括：

对所述声源信号进行背景音降噪处理和/或信号放大处理。

3.根据权利要求1所述的方法，其特征在于，所述方法包括：

对所述声源信号进行回声抑制处理。

4.根据权利要求1所述的方法，其特征在于，当所述环形麦克风阵列的麦克风数量为8组时，所述麦克风由3个拾音器组成。

5.根据权利要求1所述的方法，其特征在于，所述方法应用于视联网，所述视联网中包括视联网服务器，所述视联网服务器与所述会议发言终端通过视联网通信连接。

6.一种会议发言人的追踪装置，其特征在于，所述装置应用于会议发言终端，所述会议发言终端包括环形麦克风阵列和云台摄像头，所述环形麦克风阵列包括多组麦克风，多组麦克风绕着一个中心原点围成一圈，形成一个环形的声源采集圈；其中，所述麦克风包括多个拾音器，在相邻的两个所述拾音器之间设置有声源约束挡板，所述拾音器或所述声源约束挡板内设置有小型或微型分贝检测仪；所述装置包括以下模块：

目标麦克风确定模块，用于比对所述多组麦克风的声源信号强度，确定所述声源信号最强的目标麦克风，比对所述目标麦克风中的多个所述拾音器的所述声源信号强度，确定所述声源信号最强的目标拾音器；

会议发言人定位模块，用于查询所述目标麦克风中的所述目标拾音器在所述环形麦克风阵列中的位置；

会议发言人拍摄模块，用于根据所述位置，调整所述云台摄像头的拍摄方向，以拍摄所述目标麦克风对准的所述会议发言人；

7.一种会议发言人的追踪装置，其特征在于，包括：

处理器；和

其上存储有指令的机器可读介质，当由所述处理器执行时，使得所述装置执行如权利要求1至5任一项所述的一种会议发言人的追踪方法。

8.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1至5任一项所述的一种会议发言人的追踪方法。