CN117998055A

CN117998055A - 声像同位方法及其系统

Info

Publication number: CN117998055A
Application number: CN202410139812.8A
Authority: CN
Inventors: 朱建勇; 赵兴国
Original assignee: Shanghai Sailian Information Technology Co ltd
Current assignee: Shanghai Sailian Information Technology Co ltd
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-05-07

Abstract

本发明提供了一种声像同位方法及其系统。其中所述方法包括：每个麦克风采集对应座位的参会人音频；根据每排麦克风个数设置每排的路由器个数，每个路由器的接口数不小于采集区域个数，每个路由器的不同接口连接该路由器所在排的不同采集区域的麦克风，以路由不同采集区域的麦克风所采集的参会人音频到音频处理器；根据预设规则选择至少一个存在参会人声音输出的采集区域作为发声区域；利用音频处理器将每个发声区域中的所有参会人音频分别进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频；将多路视频和多路音频发送给远端。本发明有效实现了声音和图像的精准匹配，为用户提供了沉浸式的音视频体验。

Description

声像同位方法及其系统

技术领域

本发明涉及视频通信技术领域，具体地，涉及声像同位方法及其系统。

背景技术

声像同位是一种音视频技术，旨在实现声音与图像的空间一致性，使观众在观看视频时，能够感受到声音与视频画面来源相一致的沉浸式体验，通常应用于视频会议、多媒体演示、远程培训等场景，以提高用户的感知一致性和交互体验。

在声像同位技术中，系统通过智能的音视频处理和分析，将声音与图像进行关联，使得特定区域的声音源于相应区域的视频画面。例如，在视频会议中，如果某个区域的画面中有人发言，声像同位技术会确保该人的声音通过相应的扬声设备播放，而不是在其他区域产生声音。

然而，现有技术在声像同位领域仍然存在一些局限性：

目前的声像同位技术在实现高度精准的声音和图像匹配方面仍然存在一定的限制。特别是在复杂环境中，如多人会议或嘈杂的背景音中，准确地追踪声音源和相关视频可能变得更加困难。

对于实时性要求高的应用场景，如视频会议，现有技术在实时处理音视频同步和空间一致性方面可能面临一些挑战。处理延迟可能导致声音与图像的不同步，降低用户体验。

另外，现有技术中声像同位系统受到硬件设置限制，导致其在大型会议室中的扩展性差，使其难以适应不同规模的场景。

发明内容

本发明提供了一种声像同位方法及其系统，通过将视频会议室划分为多个采集区域，每个采集区域都有独立的摄像头和麦克风，实现了更为精准的声音和图像匹配；远端设备包括至少两个显示区域和至少两个扬声设备，通过调节扬声设备音量使得声像同位，实现了更为个性化和沉浸式的音视频体验；级联路由器结构的硬件设置，有效提高了系统的扩展性，有助于适应不同规模的场景，特别是在大型会议室中，克服了现有技术中硬件设置限制的问题；通过设置路由器与麦克风的连接结构以及音频处理器，确保每个发声区域独立处理音视频信号，减少了复杂环境对系统精度的影响；通过音频处理器的多路处理，系统可以更有效地处理音频信号，提高了实时性，减少了处理延迟；根据预设规则，系统能够自适应地选择至少一个存在参会人声音输出的采集区域作为发声区域，确保声音来源于活跃的区域，提高了声像同位的效果。

第一方面，本发明提供了一种声像同位方法，其特征在于，所述方法包括：

将视频会议室划分为至少两个采集区域；

每个摄像头采集对应采集区域的视频，使得每个采集区域分别对应一路视频，获得多路视频；

在每个采集区域设置至少一排参会人座位；

每个麦克风采集对应座位的参会人音频；

根据每排麦克风个数设置每排的路由器个数，每个所述路由器的接口数不小于所述采集区域个数，每个所述路由器的不同接口连接该路由器所在排的不同所述采集区域的麦克风，以路由不同所述采集区域的麦克风所采集的参会人音频到音频处理器；

根据预设规则选择至少一个存在参会人声音输出的采集区域作为发声区域；

利用所述音频处理器将每个所述发声区域中的所有参会人音频分别进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频；

将多路视频和多路音频发送给远端。

第二方面，本发明还提供了一种声像同位系统，其特征在于，所述系统包括：区域划分装置、至少两个摄像头、至少两个麦克风、座位设置装置、路由设置装置、选择装置、音频处理器、发送装置和远端；其中

所述区域划分装置用于将视频会议室划分为至少两个采集区域；

每个所述摄像头用于采集对应采集区域的视频，使得每个采集区域分别对应一路视频，获得多路视频；

所述座位设置装置用于在每个采集区域设置至少一排参会人座位；

每个所述麦克风用于采集对应座位的参会人音频；

所述路由设置装置用于根据每排麦克风个数设置每排的路由器个数，每个所述路由器的接口数不小于所述采集区域个数，每个所述路由器的不同接口连接该路由器所在排的不同所述采集区域的麦克风，以路由不同所述采集区域的麦克风所采集的参会人音频到音频处理器；

所述选择装置用于根据预设规则选择至少一个存在参会人声音输出的采集区域作为发声区域；

所述音频处理器用于将每个所述发声区域中的所有参会人音频分别进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频；

所述发送装置用于将多路视频和多路音频发送给远端。

本发明提供的声像同位方法及其系统：第一，通过划分视频会议室为多个采集区域，每个区域配备独立摄像头和麦克风，实现了声音和图像的精准匹配，在远端设备中，至少两个显示区域和两个扬声设备的设置，通过调节扬声设备音量，使声音来源与图像一致，提供了个性化和沉浸式的音视频体验；第二，采用级联路由器结构的硬件设置，有助于灵活适应不同规模的会议场景，用户可以轻松地增加或减少采集区域，而无需修改已有的连接结构；第三，通过设置路由器与麦克风的连接结构以及音频处理器，确保每个发声区域独立处理音视频信号，减少了复杂环境对系统精度的影响；第四，根据预设规则，系统能够自适应地选择至少一个存在参会人声音输出的采集区域作为发声区域，确保声音来源于活跃的区域，提高了声像同位的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的声像同位方法流程图；

图2是本发明实施例提供的声像同位系统框图；

图3是本发明实施例提供的视频会议室采集区域示意图；

图4是本发明实施例提供的远端视频显示设备效果图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

发明概述

如前所述，本发明提供了一种声像同位方法及其系统，有效地处理多通道音频和多屏幕视频，确保每个声音源都与相应的视频一致，解决了现有技术在复杂场景下的局限性。

示例性方法

图1是本发明实施例提供的声像同位方法流程图，该实施例包括以下步骤：

S101：将视频会议室划分为至少两个采集区域。

S102：每个摄像头采集对应采集区域的视频，使得每个采集区域分别对应一路视频，获得多路视频。

S103：在每个采集区域设置至少一排参会人座位。

例如，如图3所示，将视频会议室划分为三个采集区域1-3。摄像头1采集区域1的视频，摄像头2采集区域2的视频，摄像头3采集区域3的视频，获得3路独立的视频信号。在每个采集区域设置两排参会人座位。

S104：每个麦克风采集对应座位的参会人音频。

每个麦克风可以对应一个座位，也可以对应同一采集区域的多个座位。

总之，通过将视频会议室划分为多个采集区域，每个采集区域都有独立的摄像头和麦克风，为实现精准的声音和图像匹配做准备。

S105：根据每排麦克风个数设置每排的路由器个数，每个所述路由器的接口数不小于所述采集区域个数，每个所述路由器的不同接口连接该路由器所在排的不同所述采集区域的麦克风，以路由不同所述采集区域的麦克风所采集的参会人音频到音频处理器。

按照每排麦克风个数为每排麦克风配置一定数量的路由器，确保每个路由器上的接口数量足够多，不小于对应的采集区域个数。每个路由器的不同接口连接到同一排的不同采集区域的麦克风，不同所述路由器的至少一个接口连接同一采集区域的不同麦克风。

优选地，所述路由器为MX204。MX204路由器通常被用于处理大量的网络流量和连接，具有高性能和可扩展性。它支持多种网络协议和功能，包括路由、交换、安全性和服务质量(QoS)等，以满足复杂的网络需求。

例如，如图3所示，第一排有3个麦克风，设置1个路由器MX204，第二排有6个麦克风，设置2个路由器MX204，每个路由器MX204的接口编号1负责区域1，每个路由器MX204的接口编号2负责区域2，每个路由器MX204的接口编号3负责区域3，不同路由器的相同编号的接口负责相同的采集区域。

需要说明的是，不同所述路由器的至少一个接口连接同一采集区域的不同麦克风即可，相同编号的接口对应相同采集区域仅为其中一种实施方式。

每个所述路由器形成级联，级联的路由器可以协同工作，方便将每个路由器来自相同采集区域的麦克风信号地集成在一起。另外，通过路由器的级联，还可以提高系统扩展性和灵活性，允许通过增加路由器的数量系统可以轻松地增加或减少采集区域，而无需修改已有的连接结构。

例如，如图3所示，如果需要在此视频会议室中添加第三排座位，则添加与第三排9个座位一一对应的9个麦克风(第三排麦克风落在每个采集区域的数量各为3个)，以及与9个麦克风连接的3个路由器即可，3个路由器的接口编号1负责区域1，接口编号2负责区域2，接口编号3负责区域3。总之，无需对前两排已有的路由器连接结构进行修改，只需在新增的第三排上进行相应的硬件部署，实现了对采集区域的灵活扩展，同时保持了现有结构的稳定性。

S106：根据预设规则选择至少一个存在参会人声音输出的采集区域作为发声区域。

此步骤决定选择哪个采集区域的音频被处理和传输。

所述预设规则可以为选择人声音量最大的采集区域为发声区域，也可以为选择人声音量大于某一设定值的采集区域为发声区域，还可以为选择所有存在参会人声音输出的采集区域为发声区域。

通过动态选择发声区域，可以确保主动发言的参会人声音得到优先处理，从而提高了会议的质量和用户体验；同时通过规则限制，可以避免选择音量过小或者无关的区域作为发声区域，从而减少杂音和不必要的干扰。

S107：利用所述音频处理器将每个所述发声区域中的所有参会人音频分别进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频。

具体地，为确保各个发声区域的音频能够得到独立的处理，先确定所述发声区域所对应的路由器接口编号，获得发声接口编号；然后，所述音频处理器分别将来自不同所述路由器的对应发声接口编号的参会人音频进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频。

例如，如图3所示，三个采集区域1-3，分别对应路由器MX204的不同接口编号，其中，区域1的三个麦克风CH1对应连接三个路由器MX204的接口编号1(橙色虚线)；区域2的三个麦克风CH2对应连接三个路由器MX204的接口编号2(蓝色虚线)；区域3的三个麦克风CH3对应连接三个路由器MX204的接口编号3(绿色虚线)。假设三个采集区域同时有参会人发声，根据预设规则选择所有存在参会人声音输出的采集区域1-3为发声区域。音频处理器从三个路由器MX204接口1获取来自区域1的参会人音频进行处理；从三个路由器MX204接口2获取来自区域2的参会人音频进行处理；从三个路由器MX204接口3获取来自区域3的参会人音频进行处理。处理后，音频处理器输出三路独立的音频信号，分别对应区域1-3的处理后音频。不同区域的音频同步处理，确保处理后的音频在时间上同步。

为了优化音频质量以及将多路参会人音频合并为一路音频，具体采用的音频处理方法包括但不限于降噪、均衡和混音。

总之，音频处理器的多路处理，提高了实时性，减少了处理延迟；音频处理器对每个发声区域的多个音视频信号独立处理为一路音频，能够更有效地减少复杂环境中多个采集区域的音频信息相互干扰，确保了声音的一致性和清晰度，并且实现了将各区域的音频信号有序地整合为一路音频。

S108：将多路视频和多路音频发送给远端。

所述远端包括视频显示设备和至少两个扬声设备。

所述视频显示设备包括至少两个显示区域。一个所述显示区域可以为独立的一个屏幕(如图4所示，远端的视频显示设备包括三个显示区域，每个显示区域都是一个屏幕)，也可以为一个屏幕上的其中一个区域(例如，普通视频终端如笔记本电脑自带屏幕上的两个窗口为两个显示区域)。

扬声设备即用于放大和播放声音的设备，包括但不限于扬声器、喇叭、音箱和耳机。

其中，显示区域和扬声设备可以存在对应关系，也可以不存在对应关系。

当两者不存在对应关系时，根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频，若某个显示区域播放其中一路所述视频且该采集区域为发声区域，则按照一定比例调节至少两个扬声设备的音量以使播放声音来源为该显示区域。

例如，如图4所示，远端三个屏幕为三个显示区域，分别对应显示发送端的三路参会人视频，其中右边的屏幕中参会人正在发言，假设远端显示区域与扬声设备不存在对应关系，则将远端的左右两个扬声器音量分别调整为10％和80％，确保右边显示区域的声音更为突出和清晰，同时保持左边显示区域的相对较低音量，不干扰听觉体验。

当两者存在对应关系，即每个显示区域对应至少一个扬声设备时，根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频，若某个显示区域播放其中一路所述视频且该区域为发声区域，则该显示区域对应的扬声设备播放该发声区域的音频。

例如，如图4所示，远端三个屏幕为三个显示区域，分别对应显示发送端的三路参会人视频，其中右边的屏幕中参会人正在发言，假设远端各屏幕下方分别设置了与屏幕一一对应的扬声器，则右边屏幕下方的扬声器播放该参会人音频。

总之，远端设备包括至少两个显示区域和至少两个扬声设备，通过调节扬声设备音量或对应扬声设备播放相应音频确保播放的声音与视频的来源一致，为用户提供更为一致和沉浸式的音视频体验。

另外，对于发声参会人不在屏幕上的情况以及共享内容音频播放的情况，可以调节成中间屏幕发声的效果，或所有扬声设备同音量输出该音频。

示例性系统

相应地，本发明实施例还提供了一种声像同位系统。图2是本发明实施例提供的声像同位系统框图，如图2所示，本实施例提供的系统100包括：

区域划分装置101、至少两个摄像头102、至少两个麦克风103、座位设置装置104、路由设置装置105、选择装置106、音频处理器107、发送装置108和远端109；其中

所述区域划分装置101用于将视频会议室划分为至少两个采集区域；

每个所述摄像头102用于采集对应采集区域的视频，使得每个采集区域分别对应一路视频，获得多路视频；

所述座位设置装置104用于在每个采集区域设置至少一排参会人座位；

每个所述麦克风103用于采集对应座位的参会人音频；

所述路由设置装置105用于根据每排麦克风103个数设置每排的路由器个数，每个所述路由器的接口数不小于所述采集区域个数，每个所述路由器的不同接口连接该路由器所在排的不同所述采集区域的麦克风103，以路由不同所述采集区域的麦克风103所采集的参会人音频到音频处理器；

所述选择装置106用于根据预设规则选择至少一个存在参会人声音输出的采集区域作为发声区域；

所述音频处理器107用于将每个所述发声区域中的所有参会人音频分别进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频；

所述发送装置108用于将多路视频和多路音频发送给远端109。

所述远端109包括视频显示设备和至少两个扬声设备；

所述视频显示设备包括至少两个显示区域。

所述远端109还包括确定单元110和调节单元111；

所述确定单元110用于根据用户需求确定远端109的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频：

若某个显示区域播放其中一路所述视频且该采集区域为发声区域，则所述调节单元111用于按照一定比例调节至少两个扬声设备的音量以使播放声音来源为该显示区域。

若每个显示区域对应至少一个扬声设备，所述远端109还包括确定单元110和播放单元112；

若某个显示区域播放其中一路所述视频且该区域为发声区域，则所述播放单元112用于选择该显示区域对应的扬声设备播放该发声区域的音频。

一个所述显示区域为一个屏幕或一个屏幕上的一个区域。

每个所述路由器形成级联。

不同所述路由器的至少一个接口连接同一采集区域的不同麦克风103。

所述预设规则包括：

选择人声音量最大的采集区域为发声区域；

选择人声音量大于某一设定值的采集区域为发声区域；或

选择所有存在参会人声音输出的采集区域为发声区域。

所述音频处理器107还包括：

用于确定所述发声区域所对应的路由器接口编号获得发声接口编号的单元；

用于分别将来自不同所述路由器的对应发声接口编号的参会人音频进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频的单元。

应当注意，尽管在附图中以特定顺序描述了本发明声像同位方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

此外，尽管在上文详细描述中提及了声像同位系统的若干装置、单元、或模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

本发明提供了：

1、一种声像同位方法，其特征在于，所述方法包括：

将视频会议室划分为至少两个采集区域；

在每个采集区域设置至少一排参会人座位；

每个麦克风采集对应座位的参会人音频；

将多路视频和多路音频发送给远端。

2、根据第1项所述的声像同位方法，其特征在于，所述远端包括视频显示设备和至少两个扬声设备；

所述视频显示设备包括至少两个显示区域。

3、根据第2项所述的声像同位方法，其特征在于，所述方法还包括：根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频：

若某个显示区域播放其中一路所述视频且该采集区域为发声区域，则按照一定比例调节至少两个扬声设备的音量以使播放声音来源为该显示区域。

4、根据第2项所述的声像同位方法，其特征在于，每个显示区域对应至少一个扬声设备，所述方法还包括：根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频：

若某个显示区域播放其中一路所述视频且该区域为发声区域，则该显示区域对应的扬声设备播放该发声区域的音频。

5、根据第2-4项中的任一项所述的声像同位方法，其特征在于，一个所述显示区域为一个屏幕或一个屏幕上的一个区域。

6、根据第1-4项中的任一项所述的声像同位方法，其特征在于，每个所述路由器形成级联。

7、根据第6项所述的声像同位方法，其特征在于，不同所述路由器的至少一个接口连接同一采集区域的不同麦克风。

8、根据第1-4项中的任一项所述的声像同位方法，其特征在于，所述预设规则包括：

选择人声音量最大的采集区域为发声区域；

选择人声音量大于某一设定值的采集区域为发声区域；或

选择所有存在参会人声音输出的采集区域为发声区域。

9、根据第7项所述的声像同位方法，其特征在于，利用所述音频处理器将每个所述发声区域中的所有参会人音频分别进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频的步骤具体为：

确定所述发声区域所对应的路由器接口编号，获得发声接口编号；

所述音频处理器分别将来自不同所述路由器的对应发声接口编号的参会人音频进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频。

10、一种声像同位系统，其特征在于，所述系统包括：区域划分装置、至少两个摄像头、至少两个麦克风、座位设置装置、路由设置装置、选择装置、音频处理器、发送装置和远端；其中

每个所述麦克风用于采集对应座位的参会人音频；

所述发送装置用于将多路视频和多路音频发送给远端。

11、根据第10项所述的声像同位系统，其特征在于，所述远端包括视频显示设备和至少两个扬声设备；

所述视频显示设备包括至少两个显示区域。

12、根据第11项所述的声像同位系统，其特征在于，所述远端还包括确定单元和调节单元；

所述确定单元用于根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频：

若某个显示区域播放其中一路所述视频且该采集区域为发声区域，则所述调节单元用于按照一定比例调节至少两个扬声设备的音量以使播放声音来源为该显示区域。

13、根据第11项所述的声像同位系统，其特征在于，若每个显示区域对应至少一个扬声设备，所述远端还包括确定单元和播放单元；

若某个显示区域播放其中一路所述视频且该区域为发声区域，则所述播放单元用于选择该显示区域对应的扬声设备播放该发声区域的音频。

14、根据第11-13项中的任一项所述的声像同位系统，其特征在于，一个所述显示区域为一个屏幕或一个屏幕上的一个区域。

15、根据第10-13项中的任一项所述的声像同位系统，其特征在于，每个所述路由器形成级联。

16、根据第15项所述的声像同位系统，其特征在于，不同所述路由器的至少一个接口连接同一采集区域的不同麦克风。

17、根据第10-13项中的任一项所述的声像同位系统，其特征在于，所述预设规则包括：

选择人声音量最大的采集区域为发声区域；

选择人声音量大于某一设定值的采集区域为发声区域；或

选择所有存在参会人声音输出的采集区域为发声区域。

18、根据第16项所述的声像同位系统，其特征在于，所述音频处理器还包括：

Claims

1.一种声像同位方法，其特征在于，所述方法包括：

将视频会议室划分为至少两个采集区域；

在每个采集区域设置至少一排参会人座位；

每个麦克风采集对应座位的参会人音频；

将多路视频和多路音频发送给远端。

2.根据权利要求1所述的声像同位方法，其特征在于，所述远端包括视频显示设备和至少两个扬声设备；

所述视频显示设备包括至少两个显示区域。

3.根据权利要求2所述的声像同位方法，其特征在于，所述方法还包括：根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频：

4.根据权利要求2所述的声像同位方法，其特征在于，每个显示区域对应至少一个扬声设备，所述方法还包括：根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频：

5.根据权利要求2-4中的任一项所述的声像同位方法，其特征在于，一个所述显示区域为一个屏幕或一个屏幕上的一个区域。

6.根据权利要求1-4中的任一项所述的声像同位方法，其特征在于，每个所述路由器形成级联。

7.根据权利要求6所述的声像同位方法，其特征在于，不同所述路由器的至少一个接口连接同一采集区域的不同麦克风。

8.根据权利要求1-4中的任一项所述的声像同位方法，其特征在于，所述预设规则包括：

选择人声音量最大的采集区域为发声区域；

选择人声音量大于某一设定值的采集区域为发声区域；或

选择所有存在参会人声音输出的采集区域为发声区域。

9.根据权利要求7所述的声像同位方法，其特征在于，利用所述音频处理器将每个所述发声区域中的所有参会人音频分别进行处理，使得每个发声区域分别对应一路处理后的音频，获得多路音频的步骤具体为：

10.一种声像同位系统，其特征在于，所述系统包括：区域划分装置、至少两个摄像头、至少两个麦克风、座位设置装置、路由设置装置、选择装置、音频处理器、发送装置和远端；其中

每个所述麦克风用于采集对应座位的参会人音频；

所述发送装置用于将多路视频和多路音频发送给远端。