CN109089087B

CN109089087B - 多通道影音联动装置

Info

Publication number: CN109089087B
Application number: CN201811220880.8A
Authority: CN
Inventors: 于燕斌; 张燕生; 林振雷; 胡志建
Original assignee: GUANGZHOU SHENGGUANG MICROELECTRONICS CO Ltd
Current assignee: GUANGZHOU SHENGGUANG MICROELECTRONICS CO Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2020-09-29
Anticipated expiration: 2038-10-18
Also published as: CN109089087A

Abstract

本发明提供了多通道影音联动装置，涉及智能化边缘计算装置的技术领域，包括相连的多镜头模组、云台摄像机、多麦克风装置、智能识别AI芯片和集成电路芯片；集成电路芯片包括影音联动模块，影音联动模块通过物体采集队列与多图像处理模块相连，通过音频采集队列与麦克风阵列模块相连，通过识别队列与多图拼接模块相连；多镜头模组和云台摄像机与多图像处理模块相连，多麦克风装置与麦克风阵列模块相连；智能识别AI芯片通过音视频接口与多图像处理模块和麦克风阵列模块相连。本发明利用集成电路芯片可以增加影音联动功能组合的灵活性，提高影音联动响应速度，利用多图拼接模块可以降低网络传输流量和开发成本、减少延时、降低功耗和产品体积。

Description

多通道影音联动装置

技术领域

本发明涉及智能化边缘计算装置的技术领域，尤其是涉及多通道影音联动装置。

背景技术

影音联动就是“见图循音”和“闻声观影”的视觉与声觉交互感知的概念。前者是根据识别的物体或行人，快速定向该物体的发声坐标并采集音频数据；后者是根据发声方向，快速判断定位发声来源，并同步采集发声源的图像数据。

一般而言，影音联动装置均采用独立的多台摄像机和多台麦克风装置，通过音视频接口连接到路由集成装置上同步打包后，输出至PC(Personal Computer，个人计算机)或服务器端计算展示，或通过以太网发布到云端执行智能识别与存储。

但是，现有方案存在如下缺点：实时响应性差、功耗大、实现成本高、体积大、支撑开发环境复杂、很难成为物联网的传感单元、不利于影音联动应用的普及。

发明内容

有鉴于此，本发明的目的在于提供前置多通道影音联动装置，以提高影音联动的响应速度，迅速实现图像和音频识别的联动反应，通过全局与局部图像及识别物体的对照展示，降低网络传输流量和开发成本、减少延时、降低功耗和产品体积。

第一方面，本发明实施例提供了一种多通道影音联动装置，其中，所述装置包括相连接的多镜头模组、云台摄像机、多麦克风装置、智能识别AI芯片和集成电路芯片。

所述集成电路芯片包括：影音联动模块，所述影音联动模块通过物体采集队列与多图像处理模块相连，通过音频采集队列与麦克风阵列模块相连，通过识别队列与多图拼接模块相连，且所述多镜头模组和所述云台摄像机与所述多图像处理模块相连，所述多麦克风装置与所述麦克风阵列模块相连，所述智能识别AI芯片通过音视频接口与所述多图像处理模块和所述麦克风阵列模块相连。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，当所述装置执行以音定影任务时：

所述多图像处理模块，用于通过所述多镜头模组采集多通道的第一原始图像，并对所述第一原始图像执行处理后，生成第一全景拼接图像；

所述麦克风阵列模块，用于通过所述多麦克风装置实时采集全空域的音频信号，对所述音频信号中满足预设音频阈值条件的声源启动远场与定向功能，创建第一声源对象，并将所述第一声源对象赋值第一声源检测参数后，存入所述音频采集队列，其中，所述第一声源检测参数包括第一声源方位坐标；

所述影音联动模块，用于从所述音频采集队列中获取第一声源对象和所述第一声源检测参数，触发所述云台摄像机对准所述第一声源方位坐标并采集第一声源对应的第一局部云台图像，以及在所述第一全景拼接图像中截取所述第一声源方位坐标处的第一声源物体识别图像，将所述第一声源物体识别图像赋值到第一声源对象中并保存入所述识别队列；

所述多图拼接模块，用于对所述第一全景拼接图像和所述第一局部云台图像分别标注声源位置后，将标注有所述声源位置的所述第一全景拼接图像和/或所述第一局部云台图像和/或所述识别队列中的所述第一声源物体识别图像进行组合拼接后，并与所述第一声源检测参数共同编码输出。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述麦克风阵列模块，用于根据所述远场与定向功能确定所述第一声源对象的准方位坐标，并通过连续采集所述第一声源对象的音频，对所述准方位坐标进行迭代校准，得到所述第一声源方位坐标。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，当所述装置执行以影定音任务时：

所述多图像处理模块，用于通过所述多镜头模组采集多通道的第二原始图像，并对所述第二原始图像执行处理后，生成第二全景拼接图像，并根据预设方式在所述第二全景拼接图像上识别声源物体后，创建第二声源对象，将所述第二声源对象赋值图像检测参数后存入所述物体采集队列；

所述麦克风阵列模块，用于依次从所述物体采集队列中获取所述第二声源对象和所述图像检测参数，并开启远场与定向功能，通过迭代计算确定所述第二声源对象校准后的第二声源方位坐标，将所述第二声源方位坐标存入第二声源对象中；

所述影音联动模块，用于从所述物体采集队列中获取存有第二声源方为坐标的第二声源对象，触发所述外部云台摄像机对准所述第二声源方位坐标并采集所述第二声源对象对应的第二局部云台图像，以及在所述第二声源方位坐标处截取的第二物体识别图像，将所述第二物体识别图像赋值到所述第二声源对象中并存所述入识别队列；

所述多图拼接模块，用于对所述第二全景拼接图像和所述第二局部云台图像分别标注声源位置后，将标注有声源位置的所述第二全景拼接图像和/或所述第二局部云台图像和/或识别队列中的第二物体识别图像进行组合拼接后，与所述图像检测参数共同编码输出。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述多图像处理模块包括相连的图像采集单元、ISP单元、畸变矫正单元和全景拼接单元；

所述图像采集单元，用于通过连接所述多镜头模组采集多个所述第二原始图像；

所述ISP单元，用于对所述第二原始图像进行图像信号处理，得到处理后的图像信息；

所述畸变矫正单元，用于对所述处理后的图像信息进行畸变矫正与图像映射变换处理，得到对齐的实景图像；

所述全景拼接单元，用于对多个所述实景图像进行拼接和全局调整，得到所述第二全景拼接图像。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述预设方式包括人工的坐标指定方式；

所述人工的坐标指定方式为：通过触摸板或鼠标操作，在所述第二全景拼接图像上确定声源物体，截取物体图像和声源物体坐标，创建所述第二声源对象。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述预设方式包括自动的图像识别方式；

所述自动的图像识别方式为：所述智能识别AI芯片包括图像识别模块，所述图像识别模块在所述第二全景拼接图像上识别满足预设物体阈值的对象物体，当所述对象物体为多个时，根据预设物体阈值的参数将所述对象物体进行排序，确定所述声源对象。

结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述装置包括智能识别AI芯片，所述智能识别AI芯片包括音频识别模块；

所述音频识别模块，用于对所述第一声源对象进行音频识别，确定所述第一声源监测参数。

结合第一方面，本发明实施例提供了第一方面的第八种可能的实施方式，其中，所述装置包括智能识别AI芯片，所述智能识别AI芯片包括图像识别模块；

所述图像识别模块，用于对所述第二声源对象进行图像识别，确定所述图像检测参数。

结合第一方面，本发明实施例提供了第一方面的第九种可能的实施方式，其中，所述多镜头模组包括多个镜头/传感器，所述麦克风阵列模块包括多架麦克风装置，且所述多麦克风装置按照多个所述镜头/传感器方向进行分布安装。

本发明实施例带来了以下有益效果：

本发明提供的多通道影音联动装置，包括相连接的多镜头模组、云台摄像机、智能识别AI芯片和集成电路芯片；集成电路芯片包括：影音联动模块，影音联动模块通过物体采集队列与多图像处理模块相连，通过音频采集队列与麦克风阵列模块相连，通过识别队列与多图拼接模块相连；多镜头模组和云台摄像机与多图像处理模块相连，智能识别AI芯片通过音视频接口与多图像处理模块和麦克风阵列模块相连。本发明主要通过集成电路芯片执行以音定影和以影定音的任务，将影音联动模块、多图像处理模块、麦克风阵列模块和多图拼接模块集成于集成电路芯片中，可以增加影音联动功能组合的灵活性，提高影音联动响应速度，迅速实现图像物体识别和音频物体识别的联动反应和联动履历的保持，利用多图拼接模块将全局图像与局部图像，全局图像与物体识别图像的对照展示，保留识别物体履历，实现结构化检索，增强人机互动，降低网络传输流量和开发成本、减少延时、降低功耗和产品体积。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种多通道影音联动装置；

图2为本发明实施例一提供的另一种多通道影音联动装置；

图3-7为本发明实施例一提供的图像展示方式示意图；

图8为本发明实施例一提供的时间轴的物体识别图像履历展示方式示意图。

图标：

110-多镜头模组；120-云台摄像机；130-多麦克风装置；200-集成电路芯片；210-多图像处理模块；220-麦克风阵列模块；230-影音联动模块；240-多图拼接模块；250-I/F接口；300-智能识别AI芯片。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

影音联动就是“见图循音”和“闻声观影”的视觉与声觉交互感知的概念。一般而言，影音联动装置均采用独立的多台摄像机和多台麦克风装置，通过音视频接口集线到“影音联动”嵌入式装置上，处理后的音视频数据或打包输出至PC端展示，或通过服务器发布到以太网上。但是，现有方案存在如下缺点：实时响应性差、功耗大、实现成本高、体积大、支撑开发环境复杂、很难成为物联网的传感单元、不利于影音联动应用的普及。

基于此，本发明实施例提供的多通道影音联动装置，可以提高影音联动的响应速度，迅速实现图像和音频识别的联动反应，通过全局与局部图像对照展示，降低网络传输流量和开发成本、减少延时、降低功耗和产品体积。

为便于对本实施例进行理解，首先对本发明实施例所公开的多通道影音联动装置进行详细介绍。

实施例一：

图1为本发明实施例一提供的一种多通道影音联动装置。

参照图1，多通道影音联动装置主要包括：MLMS(Multi-lens Multi-sensor，多镜头多传感器)集成电路芯片200，与集成电路芯片200相连接的多镜头模组110、云台摄像机120、多麦克风装置130和智能识别AI芯片300。

参照图2，多镜头模组110包括多个镜头/传感器，麦克风阵列模块220包括多架麦克风装置，且多架麦克风装置按照多个镜头/传感器以及云台摄像机120的方向，在全空域进行有序均匀分布式安装。

集成电路芯片200内集成有：影音联动模块230，影音联动模块230通过物体采集队列与多图像处理模块210相连，通过音频采集队列与麦克风阵列模块220相连，通过识别队列与多图拼接模块240相连；且多镜头模组110和云台摄像机120与多图像处理模块210相连，多麦克风装置130与麦克风阵列模块220相连。通过采用集成电路技术，将上述的影音联动模块230、多图像处理模块210、麦克风阵列模块220和多图拼接模块240全部集成在集成电路芯片200中，可以提高影音联动的响应速度，迅速实现图像和音频识别的联动反应，降低网络传输流量，减少后端开发工作量，降低开发成本、功耗和产品的体积。

多图像处理模块210包括相连接的图像采集单元、ISP(Image SignalProcessing，图像信号处理)单元、畸变矫正单元和全景拼接单元；其中，图像采集单元、ISP单元和畸变矫正单元均为多个，且图像采集单元通过匹配的接口与镜头/传感器和外部的云台摄像机120相连。

智能识别AI芯片300中集成有音频识别模块和图像识别模块。

集成电路芯片200和智能识别AI芯片300的连接关系可以有但不限于：两者为独立的芯片个体，且集成电路芯片200和智能识别AI芯片300相互连接；或者，智能识别AI芯片300作为独立的智能识别模块集成于集成电路芯片200内部。

集成电路芯片200可以是配有I/F接口250的芯片，其中，I/F接口250包括USB、MIPI、Wi-Fi、Ethernet、ITU-R BT、I2C、I2S、SPI、UART、GPIO等接口。其中，多图像处理模块210可通过ITU-R BT、MIPI等接口与云台摄像机120连接，通过多通道DVP、MIPI接口与镜头/传感器相连；影音联动模块230可通过USB、Ethernet、I2C、I2S、SPI、UART、GPIO等接口向外部云台摄像机120、中控系统或物联网等外围系统发布影音联动指令；以及，集成电路芯片200通过ITU-R BT、MIPI、HDMI、USB等接口与智能识别AI芯片300相连。

多通道影音联动装置用于进行影音联动，即执行以音定影任务和/或以影定音任务。

实施例二：

多通道影音联动装置执行以音定影任务的过程如下。

多图像处理模块210，用于通过多镜头模组110采集多通道的第一原始图像，并对第一原始图像执行畸变校正等处理后，生成第一全景拼接图像。

具体的，多图像处理模块210生成第一全景拼接图像的实现过程如下。对应通道的图像采集单元通过连接镜头/传感器采集输出的RAW、RGB、YUV等格式的多个第一原始图像；ISP单元，对第一原始图像进行图像信号处理，得到处理后的图像信息；畸变矫正单元，对处理后的图像信息进行畸变矫正与图像映射变换处理，得到对齐的实景图像；全景拼接单元，对多个实景图像进行拼接和全局调整，得到第一全景拼接图像。

麦克风阵列模块220，用于通过多麦克风装置130实时采集全空域的音频信号，对音频信号中满足预设音频阈值条件的声源启动远场与定向功能，创建第一声源对象，并将第一声源对象赋值第一声源检测参数后，存入音频采集队列，其中，第一声源检测参数包括第一声源方位坐标。

具体的，第一声源检测参数包括第一声源方位坐标、检测日期、检测时间、音频片段、第一声源的识别物体ID、音频识别置信度值、音频空间坐标、物体空间坐标、物体识别图像、识别物体ID、识别置信度值、识别状态等等。其中，声源对象的识别状态包括：音频采集正常、音频采集异常、音频识别正常、音频识别异常、声源丢失、图像采集正常、图像采集异常、图像识别正常、图像识别异常、图像物体丢失等状态。

第一声源检测参数是通过麦克风阵列模块220与智能识别AI芯片300对音频信号进行分析获得的，其过程如下所述。

麦克风阵列模块220将采集的音频信号进行降噪处理后，对音频的持续时间和声压强度阈值进行判断，如需音频智能识别则发送给智能识别AI芯片300中的音频识别模块。音频识别模块对第一声源对象进行音频识别，确定多个第一声源监测参数，即检测音频信号是否满足预设物体置信度阈值条件，其中，音频阈值条件的参数包括检测参数和识别参数：检测参数是日期范围(日历指定范围)、时间段(时分秒～时分秒)；声压强度范围阈值，以dB(分贝)为单位设置，比如声压强度范围40-60dB；音频持续时间阈值，以秒为单位设置，比如音频持续时间1s；声源坐标，以空间坐标系表示。音频智能识别阈值，以发声物体ID、发声物体置信度为单位设置，比如枪声置信度＝98.56％。智能识别AI芯片300包括音频识别模块；

在有多个声源满足音频阈值条件情况下，麦克风阵列模块220根据音频阈值条件的参数，将声源对象排序；其中，声源对象排序算法包括检测日期时间的先后排序法和音频阈值拟合度排序法二种，比如按照发声物体的发声时间、置信度由高到低进行排序。按照排序结果，选择至少前一排名的声源作为第一声源对象，再由麦克风阵列模块220根据远场与定向功能确定第一声源对象的准方位坐标，并通过连续采集第一声源对象的音频，对准方位坐标进行迭代校准，得到精准度较高的第一声源方位坐标。

麦克风阵列模块220将分析得到的第一声源对象、第一声源检测参数发送至音频采集队列进行缓存，音频采集队列可应对大量的并发检测，确保检测记录的完整性。

影音联动模块230，用于从音频采集队列中获取第一声源对象和第一声源检测参数，触发外部云台摄像机120对准第一声源方位坐标并采集第一声源对应的第一局部云台图像，以及在第一全景拼接图像中截取第一声源方位坐标处的第一声源物体识别图像，将第一声源物体识别图像赋值到第一声源对象中并保存入识别队列。云台摄像机120所采集的图像具有清晰度高的特点，有利于查看局部图像和保存声源物体在时间轴上的履历，便于主题检索和结构化查询。

另外，通过台摄像机采集的第一局部云台图像，可以由第一全景拼接图像中任一声源目标的实景图像所替代。

多图拼接模块240，用于对第一全景拼接图像和第一局部云台图像分别标注声源位置，将标注有声源位置的第一全景拼接图像和/或第一局部云台图像和/或识别队列中的第一声源物体识别图像进行组合拼接后，并连同第一声源检测参数共同编码输出。

具体的，由于第一全景拼接图像是由多个通道所采集的局部图拼接得到的，所以在其多个拼接图中，至少有一张是包含有声源目标图像的。第一全景拼接图像及其声源目标图像、第一局部云台图像、第一声源物体识别图像的组合展示方式有多种：第一局部云台图像可以与第一全景拼接图像上下组合展示，也可不展示，或与声源目标图像并列展示，或被声源目标图像取代展示；比如：对应的声源目标图像与全景拼接图像一起展示(可参照图3)；声源目标图像、第一局部云台图像并列且与第一全景拼接图像一起展示(可参照图4)；声源目标图像独立展示(可参照图5)；第一局部云台图像独立展示(可参照图6)；声源目标图像与第一局部云台图像并列展示(可参照图7)；以及，物体识别的小局部图，可以支持复数声源，并可以确认声源履历，如图8所示，左边是以声定影物体识别子图序列，右边是以影定声物体识别子图序列。

实施例三：

多通道影音联动装置执行以影定音任务的过程如下。

多图像处理模块210，用于通过多镜头模组110采集多通道的第二原始图像，并对第二原始图像执行处理后，生成第二全景拼接图像，并根据预设方式在第二全景拼接图像上识别声源物体后，创建第二声源对象，将第二声源对象赋值图像检测参数后存入物体采集队列。

具体的，第二全景拼接图像同样是通过图像采集单元、ISP单元、畸变矫正单元和全景拼接单元所得到的。图像采集单元，用于采集镜头/传感器输出的RAW、RGB、YUV等格式的多个第二原始图像；ISP单元，用于对第二原始图像进行图像信号处理，得到处理后的图像信息；畸变矫正单元，用于对处理后的图像信息进行畸变矫正与图像映射变换处理，得到对齐的实景图像；全景拼接单元，用于对多个实景图像进行拼接和全局调整，得到第二全景拼接图像。

在根据预设方式在第二全景拼接图像上识别声源物体的过程中，所涉及的预设方式包括人工的坐标指定方式和自动的图像识别方式。

其中，人工的坐标指定方式为：人为通过触摸板或鼠标操作，在第二全景拼接图像上确定声源物体，截取物体图像和声源物体坐标，创建第二声源对象，将第二声源对象保存到物体采集队列。

自动的图像识别方式为：所述多图像处理模块，通过智能识别AI芯片300中的图像识别模块，在第二全景拼接图像上识别满足预设物体阈值的对象物体，并创建第二声源物体对象，存入物体采集队列。当对象物体为多个时，根据预设物体阈值的参数将对象物体进行排序后，逐次存入物体采集队列。

以上两种识别方式的物体参数和预设物体参数包括：日期范围、时间段、识别物体ID、物体识别置信度值。物体阈值排序算法包括日期时间先后排序法和识别物体阈值拟合度排序法二种。

麦克风阵列模块220，用于依次从物体采集队列中获取第二声源对象和图像检测参数，并开启远场与定向功能，通过迭代计算确定第二声源对象校准后的第二声源方位坐标，将第二声源方位坐标存入第二声源对象中。

影音联动模块230，用于从物体采集队列中获取存有第二声源方为坐标的第二声源对象，触发云台摄像机120对准第二声源方位坐标并采集第二声源对象对应的第二局部云台图像，以及在第二声源方位坐标处截取的第二物体识别图像，将第二物体识别图像赋值到第二声源对象中并存入识别队列。

如果声源物体消失或声源消失，则声源对象的状态置位后，可继续保存到识别队列。

多图拼接模块240，用于对第二全景拼接图像和第二局部云台图像分别标注声源位置后，将标注有声源位置的第二全景拼接图像和/或第二局部云台图像和/或识别队列中的第二物体识别图像进行组合拼接后，并连同图像检测参数共同编码输出。

具体的，第二全景拼接图像是由多个通道所采集的局部图拼接得到的，所以在其多个拼接图中，有一张是包含有声源目标图像的。第二全景拼接图像及其声源目标图像、第二局部云台图像、第二物体识别图像的组合展示方式有多种，可参照图3-图8。

上述多个实施例提供的多通道影音联动装置，在执行以音定影和以影定音的任务过程中，利用全图拼接模块实现将全景拼接图像、声源对应的局部图像和物体识别图进行对照展示，可以降低网络传输流量和开发成本以及减少延时。

上述实施例所提供的多通道影音联动装置，可应用于个人、家庭、商铺等多种场合，且无需球机的云台对应，可降低设备的消耗和故障率，进一步的，为影像证据保全、IoT(Internet of things，物联网)、人工智能的应用提供了全新的装置和应用场合。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

本发明实施例带来了以下有益效果：

在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多通道影音联动装置，其特征在于，所述装置包括相连接的多镜头模组、云台摄像机、多麦克风装置、智能识别AI芯片和集成电路芯片；

所述集成电路芯片包括：影音联动模块，所述影音联动模块通过物体采集队列与多图像处理模块相连，通过音频采集队列与麦克风阵列模块相连，通过识别队列与多图拼接模块相连，且所述多镜头模组和所述云台摄像机与所述多图像处理模块相连，所述多麦克风装置与所述麦克风阵列模块相连，所述智能识别AI芯片通过音视频接口与所述多图像处理模块和所述麦克风阵列模块相连；

当所述装置执行以音定影任务时：

2.根据权利要求1所述的装置，其特征在于，所述麦克风阵列模块，用于根据所述远场与定向功能确定所述第一声源对象的准方位坐标，并通过连续采集所述第一声源对象的音频，对所述准方位坐标进行迭代校准，得到所述第一声源方位坐标。

3.根据权利要求1所述的装置，其特征在于，当所述装置执行以影定音任务时：

所述影音联动模块，用于触发外部所述云台摄像机对准所述第二声源方位坐标并采集所述第二声源对象对应的第二局部云台图像，以及在所述第二声源方位坐标处截取的第二物体识别图像，将所述第二物体识别图像赋值到所述第二声源对象中并存入所述识别队列；

4.根据权利要求3所述的装置，其特征在于，所述多图像处理模块包括相连的图像采集单元、ISP单元、畸变矫正单元和全景拼接单元；

5.根据权利要求3所述的装置，其特征在于，所述预设方式包括人工的坐标指定方式；

6.根据权利要求3所述的装置，其特征在于，所述预设方式包括自动的图像识别方式；

7.根据权利要求1所述的装置，其特征在于，所述装置包括智能识别AI芯片，所述智能识别AI芯片包括音频识别模块；

所述音频识别模块，用于对所述第一声源对象进行语音识别，确定所述第一声源监测参数。

8.根据权利要求3所述的装置，其特征在于，所述装置包括智能识别AI芯片，所述智能识别AI芯片包括图像识别模块；

9.根据权利要求1所述的装置，其特征在于，所述多镜头模组包括多个镜头/传感器，且所述多麦克风装置按照多个所述镜头/传感器方向进行分布安装。