CN112887654B

CN112887654B - 一种会议设备、会议系统及数据处理方法

Info

Publication number: CN112887654B
Application number: CN202110099547.1A
Authority: CN
Inventors: 焦阳
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-05-31
Anticipated expiration: 2041-01-25
Also published as: CN112887654A

Abstract

本申请实施例公开了一种会议设备、会议系统及数据处理方法，其中，该会议设备，包括：至少两个图像采集模组，用于分别采集不同方向的至少两个第一视频，向图像处理器发送至少两个第一视频；图像处理器，用于基于至少两个第一视频，合成第二视频，向数据处理组件发送第二视频；数据处理组件，用于基于第二视频，确定待显示视频；数据处理组件，还用于执行以下之一：向电子设备和/或显示组件发送待显示视频；向电子设备和/或显示组件发送待显示视频，接收电子设备传输的第三视频，向显示组件输出第三视频；显示组件，用于显示数据处理组件输出的至少以下视频内容之一：待显示视频、第三视频。

Description

一种会议设备、会议系统及数据处理方法

技术领域

本申请实施例涉及但不限于会议通信技术领域，尤其涉及一种会议设备、会议系统及数据处理方法。

背景技术

随着网络通信技术的不断发展，视频会议渐渐出现在人们的工作、生活中，人们越来越多的使用视频会议来进行交流和工作。

一般情况下，会议设备并不会设置有视频采集模块，从而会议设备无法获取到会议设备周围的场景，进而与会议设备进行通信的电子设备端的用户，无法观看到会议设备周围的场景。

相关技术中，为了使得会议设备能够获取到周围的场景，通常的做法是将会议设备通过通用串行总线(Universal Serial Bus，USB)接口连接外挂摄像头。然而，在这种方式下，用户不仅需要采购会议设备，还需要采购外挂摄像头，增加了用户购买会议设备的成本；另外，会议设备与外挂摄像头的部署和接线比较繁琐，且会议设备与外挂摄像头的兼容无法保证，从而使得用户无法方便的使用会议设备。

发明内容

本申请实施例提供一种会议设备、会议系统及数据处理方法，本申请的技术方案是这样实现的：

本申请实施例提供一种会议设备，包括：视频采集组件、数据处理组件以及显示组件，其中：

所述视频采集组件包括图像处理器和光轴方向不同的至少两个图像采集模组，其中：

所述至少两个图像采集模组，用于分别采集不同方向的至少两个第一视频，向所述图像处理器发送所述至少两个第一视频；

所述图像处理器，用于接收所述至少两个图像采集模组分别发送的所述至少两个第一视频，基于所述至少两个所述第一视频，合成第二视频，向所述数据处理组件发送所述第二视频；

所述数据处理组件，用于接收所述图像处理器传输的所述第二视频，基于所述第二视频，确定待显示视频；

所述数据处理组件，还用于执行以下之一：

向电子设备和/或所述显示组件发送所述待显示视频；

向电子设备和/或所述显示组件发送所述待显示视频，接收所述电子设备传输的第三视频，向所述显示组件输出所述第三视频；

所述显示组件，用于显示所述数据处理组件输出的至少以下视频内容之一：所述待显示视频、所述第三视频。

在一些实施例中，所述图像采集模组的数量大于或等于2；所述第二视频的取景角度大于或等于180度。

在一些实施例中，所述视频采集组件还包括第一麦克风阵列和语音处理器；

所述第一麦克风阵列，用于采集第一声音信息，向所述语音处理器发送所述第一声音信息；

所述语音处理器，用于接收所述第一麦克风阵列发送的所述第一声音信息，基于所述第一声音信息，确定所述第一声音信息的声音方向信息；

所述语音处理器，还用于执行以下之一：

向所述数据处理组件发送所述声音方向信息；

向所述图像处理器发送所述声音方向信息，以使所述图像处理器基于所述至少两个所述第一视频和所述声音方向信息，得到携带所述声音方向信息的所述第二视频；

所述数据处理组件，还用于接收所述语音处理器发送的所述声音方向信息，或者，从所述第二视频中提取所述声音方向信息；基于所述声音方向信息，确定将与所述声音方向信息匹配的图像进行特定呈现的待显示视频。

在一些实施例中，所述会议设备还包括音频处理组件；所述音频处理组件包括信号处理器、第二麦克风阵列和扬声器阵列；

所述第二麦克风阵列，用于采集第二声音信息，向所述信号处理器发送所述第二声音信息；

所述信号处理器，用于接收所述第二麦克风阵列发送的所述第二声音信息，对所述第二声音信息至少进行以下之一的处理：降噪、功率放大、回声消除，得到第三声音信息；

所述信号处理器，还用于以下至少之一：

向所述扬声器阵列发送所述第三声音信息，以使所述扬声器阵列播放所述第三声音信息；

向所述数据处理组件发送所述第三声音信息，以使所述数据处理组件向所述电子设备转发所述第三声音信息，使所述电子设备播放所述第三声音信息。

本申请实施例提供一种会议系统，包括电子设备和上述的会议设备。

本申请实施例提供一种数据处理方法，适用于会议设备中的数据处理组件，包括：

接收图像处理器发送的对不同方向的至少两个第一视频进行合成而得到第二视频；所述不同方向的至少两个第一视频分别是光轴方向不同的至少两个图像采集模组采集的；

基于所述第二视频确定待显示视频；

向电子设备和/或显示组件发送所述待显示视频，以使所述电子设备和/或所述显示组件显示所述待显示视频；或者，

向电子设备和/或所述显示组件发送所述待显示视频，接收所述电子设备传输的第三视频，向所述显示组件输出所述第三视频，以使所述显示组件显示第三视频，且所述电子设备和/或所述显示组件显示所述待显示视频。

在一些实施例中，所述基于所述第二视频确定待显示视频，包括：

对所述第二视频进行分析，确定目标发声人像；

对所述第一视频中的所述目标发声人像进行特定方式呈现处理，得到所述待显示视频。

截取所述第二视频中的全部人像；

对所述全部人像进行排布，得到第四视频；

将所述第四视频确定为所述待显示视频，或者，将所述第四视频叠加在所述第二视频上，得到所述待显示视频。

在一些实施例中，所述对所述全部人像进行排布，得到第四视频，包括：

对所述第二视频进行分析，确定目标发声人像；

对所述全部人像进行排布，并向所述目标发声人像处添加用于标识发声的目标标识，得到所述四视频。

在一些实施例中，所述对所述第二视频进行分析，确定目标发声人像，包括以下之一：

对所述第二视频中的每一人像进行视频分析，得到所述每一人像的视频分析结果；基于所述每一人像的视频分析结果，确定所述目标发声人像；

从所述第二视频中提取语音处理器基于第一麦克风阵列采集的声音信息而确定的发声方向信息；确定与所述发声方向信息对应的人像为所述目标发声人像；

接收语音处理器发送的基于第一麦克风阵列采集的声音信息而确定的发声方向信息；基于所述每一人像的视频分析结果，确定发生说话动作的所述目标人像的位置信息；在所述目标人像的位置信息与所述发声方向信息匹配的情况下，将所述目标人像确定为所述目标发声人像。

在本申请实施例中，由于会议设备包括视频采集组件，从而会议设备的数据处理组件能够获取到视频采集组件采集的视频，避免了数据处理组件需要通过接收外挂摄像头才能得到视频的情况发生；进一步，由于视频采集组件包括至少两个图像采集模组，至少两个图像采集模组的光轴方向不同，从而通过至少两个图像采集模组，能够采集到不同方向的至少两个第一视频，进而会议设备能够采集到较大视角下的视频。

附图说明

图1为本申请实施例提供的一种会议设备的组成结构示意图；

图2为本申请实施例提供的另一种会议设备的组成结构示意图；

图3a为本申请实施例提供的一种会议设备中的视频采集组件采集视频的示意图；

图3b为本申请实施例提供的一种第二视频中的一帧图像的示意图；

图3c为本申请实施例提供的一种待显示视频中的一帧图像的示意图；

图3d为本申请实施例提供的另一种待显示视频中的一帧图像的示意图；

图3e为本申请实施例提供的又一种待显示视频中的一帧图像的示意图；

图4为本申请实施例提供的又一种会议设备的组成结构示意图；

图5为本申请实施例提供的一种会议系统的组成结构示意图；

图6为本申请实施例提供的一种数据处理方法的流程示意图；

图7为本申请实施例提供的另一种数据处理方法的流程示意图；

图8为本申请实施例提供的又一种数据处理方法的流程示意图；

图9为本申请实施例提供的再一种数据处理方法的流程示意图；

图10为本申请实施例提供的再一种待显示视频中的一帧图像的示意图；

图11为本申请实施例提供的一种会议设备的硬件实体示意图。

具体实施方式

下面将通过实施例并结合附图具体地对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是：在本申请实例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。另外，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

图1为本申请实施例提供的一种会议设备的组成结构示意图，如图1所示，该会议设备包括：视频采集组件11、数据处理组件12以及显示组件13。

视频采集组件11包括图像处理器111和光轴方向不同的至少两个图像采集模组112。

其中，本申请实施例中，至少两个图像采集模组112中的任一个图像采集模组可以是摄像头，摄像头可以采集图像或者视频。图像采集模组的数量可以大于或等于2。例如，图像采集模组的数量可以大于或等于2，例如可以是2个、3个、4个、6个或者8个等。至少两个图像采集模组112的摄像参数可以相同或不同，摄像参数可以包括以下至少之一：分辨率、帧速率、码率、拍摄的视角。例如，至少两个图像采集模组112的型号可以相同，或者，至少两个图像采集模组112可以是在同一个产线生产出来的。

在本申请实施例中，图像采集模组的光轴可以是图像采集模组的光束的中心线，或者是图像采集模组的光学系统的对称轴。光束绕此轴转动，不应有任何光学特性的变化，或者也可以说，图像采集模组的光轴是通过图像采集模组的镜头的中心点的光束的中心线。

在一些实施方式中，至少两个图像采集模组112之间的夹角可以呈第一预设角度，从而可以通过至少两个图像采集模组112，能够拍摄出与第一预设角度对应的取景角度的视频。

在另一些实施方式中，至少两个图像采集模组112可以环形设置，从而能够拍摄到360°的全景视频。例如，图像采集模组的数量可以是3个，3个图像采集模组可以环形设置，3个图像采集模组中每个图像采集模组的拍摄视角可以大于或等于120°，从而基于三个图像采集模组拍摄的视频，例如对三个图像采集模组拍摄的视频进行拼接，能够得到360°的全景视频。再例如，图像采集模组的数量可以是4个，4个图像采集模组可以环形设置，4个图像采集模组中的每个图像采集模组的拍摄视角可以大于或等于90°，从而基于四个图像采集模组拍摄的视频，能够得到360°的全景视频。在又一些实施例中，图像采集模组的数量还可以是6个图像采集模组，6个图像采集模组可以上下左右前后设置，6个图像采集模组中每个图像采集模组的拍摄视角可以大于或等于90°，从而可以基于6个图像采集模组拍摄的视频，能够得到720°的视频。

在一些实施方式中，会议设备10可以包括本体和与本体连接的柱体。本体可以包括显示屏和用于固定显示屏的底座等。柱体上可以设置有至少两个图像采集模组112。柱体和底座可以连接在显示屏的相对两端，从而能够避免柱体上的至少两个图像采集模组112在进行视频拍摄时，本体遮挡拍摄目标的情况发生。在一些实施方式中，柱体可以相对本体固定设置。在另一些实施方式中，柱体可以相对本体可伸缩设置。例如，会议设备10中的数据处理组件12在接收到触发信息的情况下，可以控制柱体伸出本体或者缩入本体。触发信息可以是基于用户对会议设备10上的某个硬件单元进行触发而生成的，或者，触发信息可以基于用户对会议设上显示的某个选项进行触发而生成的，或者，触发信号可以是接收到遥控设备发送的某个遥控指令而生成。

在一些实施方式中，至少两个图像采集模组112的相对位置可以是固定不变的。在另一些实施方式中，至少两个图像采集模组112的相对位置可以改变。例如，在不同的会议场景的采集模式中，至少两个图像采集模组112的任两个相邻的图像采集模组之间能够改变相对位置关系，使得至少两个图像采集模组112处于不同的结构模式，以采集适应于会议场景的采集模式的图像信息。例如，在第一结构模式下，至少两个图像采集模组112能够采集全景图像，适应于会议场景的全景采集模式；在第二结构模式下，至少两个图像采集模组112能够采集某一个视角范围内的图像，适应于会议场景的单一方向采集模式。在一些实施方式中，第一结构模式下，至少两个图像采集模组112可以环形设置，第二结构模式下，至少两个图像采集模组112可以在平面设置，或者，可以在预设的角度范围内设置，以采集某一特定视角下的视频，从而得到特定取景角度的视频。

至少两个图像采集模组112，用于分别采集不同方向的至少两个第一视频，向图像处理器111发送至少两个第一视频。

图像处理器111，用于接收至少两个图像采集模组112分别发送的至少两个第一视频，基于至少两个第一视频，合成第二视频，向数据处理组件12发送第二视频。

图像处理器111可以是专门用于对至少两个图像采集模组112分别拍摄的第一视频进行处理的处理器。在一些实施例中，基于至少两个第一视频，合成第二视频，可以包括：对至少两个视频进行拼接，得到第二视频。

第二视频的取景角度可以大于或等于180度。例如，第二视频的取景角度可以为180度、270度、360度或者720度等等。

在一些实施方式中，图像处理器111可以与至少两个图像采集模组112集成在一起。例如，图像处理器111可以设置在柱体的内部。

数据处理组件12，用于接收图像处理器111传输的第二视频，基于第二视频，确定待显示视频。

数据处理组件12可以是会议设备10的中央处理器(Central Processing Unit，CPU)。在一些实施方式中，数据处理组件12可以将得到的第二视频，作为待显示视频。在另一些实施方式中，数据处理组件12可以对第二视频进行处理，得到待显示视频。

数据处理组件12，还用于执行以下之一：向电子设备和/或显示组件13发送待显示视频；向电子设备和/或显示组件13发送待显示视频，接收电子设备传输的第三视频，向显示组件13输出第三视频；

电子设备可以是与会议设备10之间进行视频会议的设备，电子设备可以是任一具有视频通话功能的设备。在一些实施方式中，电子设备或会议设备10可以包括以下之一：会议机、手机(Mobile Phone)、平板电脑(Pad)、带无线收发功能的电脑、掌上电脑、台式计算机、个人数字助理、便捷式媒体播放器、智能音箱、导航装置、智能手表、智能眼镜、智能项链等可穿戴设备、计步器、数字TV、虚拟现实(VirtualReality，VR)终端设备、增强现实(Augmented Reality，AR)终端设备、工业控制(Industrial Control)中的无线终端、无人驾驶(Self Driving)中的无线终端、远程手术(Remote Medical Surgery)中的无线终端、智能电网(Smart Grid)中的无线终端、运输安全(Transportation Safety)中的无线终端、智慧城市(Smart City)中的无线终端、智慧家庭(Smart Home)中的无线终端以及车联网系统中的车、车载设备、车载模块等等。

第三视频可以是电子设备上的图像采集模组捕捉的视频，或者，与电子设备电连接的图像采集模组捕捉的视频。在电子设备接收到待显示视频的情况下，电子设备可以对待显示视频进行播放。例如，可以在电子设备的显示屏上的某一区域播放待显示视频，或者在显示屏的全部区域播放待显示视频。

显示组件13，用于显示数据处理组件12输出的至少以下视频内容之一：待显示视频、第三视频。

在数据处理组件12向显示组件13发送待显示视频的情况下，显示组件13显示待显示视频。在数据处理组件12向显示组件13发送第三视频的情况下，显示组件13显示第三视频。在一些实施方式中，数据处理组件12可以向显示组件13发送待显示视频和第三视频，以使显示组件13可以同时显示待显示视频和第三视频。

在一些实施方式中，待显示视频或者第三视频可以全屏显示。在另一些实施方式中，待显示视频和/或第三视频在显示组件的显示区域中的特定区域显示。

在一些实施方式中，显示组件13可以包括：控制处理器131、显示触摸屏132以及状态指示灯133。

显示触摸屏132可以显示会议界面，会议界面可以包括至少以下之一：待显示视频、第三视频。

用户可以对显示触摸屏132进行触发操作，控制处理器131可以基于触发操作生成相应地特定指令，并向数据处理组件12发送该特定指令，从而使得数据处理组件12能够基于该特定指令实现相应地控制，例如，提高扬声器播放的声音、修改显示控制单元的显示参数等。

状态指示灯133可使用不同颜色的发光二极管(Light Emitting Diode，LED)来显示会议状态，例如会议中，静音，以及空闲等等状态。例如，数据处理组件12在确定到当前会议设备10的状态为静音状态的情况下，可以向控制处理器131发送相应的指令，从而控制处理器131基于相应的指令，对状态指示灯133作出关闭控制、打开控制或者不同颜色的控制。

此处说明图1对应的实施例提供的会议设备10中各个部分的连接关系：视频采集组件11的至少两个图像采集模组112的输出端均连接图像处理器111的第一端，图像处理器111的第二端连接数据处理组件12的第一端。数据处理组件12的第二端连接控制处理器131的第一端，控制处理器131的第二端连接显示触摸屏132，控制处理器131的第三端连接状态指示灯133。

图2为本申请实施例提供的另一种会议设备的组成结构示意图，如图2所示，该会议设备10包括：视频采集组件11、数据处理组件12以及显示组件13。

在本申请实施例中，视频采集组件11还包括第一麦克风阵列113和语音处理器114。

第一麦克风阵列113可以包括至少两个第一子麦克风。至少两个第一子麦克风中任相邻的两个麦克风之间的角度可以为特定角度，特定角度可以大于或等于5度且小于或等于180度，例如是5度、10度、15度、30度、90度或180度等。

在一些实施方式中，至少两个第一子麦克风可以呈第二预设角度排列，第二预设角度可以大于或等于第一预设角度，即至少两个第一子麦克风所排列的角度可以大于或等于与至少两个图像采集模组112所排列的角度。在实施过程中，第一预设角度的平分线可以平行于第二预设角度的平分线。在另一些实施方式中，至少两个第一子麦克风可以呈环状排列，例如，第一麦克风阵列113可以是360度的麦克风阵列。

第一麦克风阵列113可以集成在会议设备10上。在一些实施方式中，第一麦克风阵列113可以与至少两个图像采集模组112同轴设置。例如，第一麦克风阵列113可以设置在柱体上。

第一麦克风阵列113，用于采集第一声音信息，向语音处理器114发送第一声音信息。

第一麦克风阵列113采集第一声音信息可以包括：第一麦克风阵列113包括的至少两个第一子麦克风采集当前的声音信息，并将当前的声音信息发送给语音处理器114。第一声音信息可以包括至少两个第一子麦克风分别采集的至少两个当前的声音信息。

语音处理器114，用于接收第一麦克风阵列113发送的第一声音信息，基于第一声音信息，确定第一声音信息的声音方向信息。

在一些实施方式中，语音处理器114可以基于至少两个当前的声音信息，确定声音最大的声音信息所对应的麦克风的方向信息为第一声音信息的声音方向信息。声音方向信息可以是坐标信息或者方位信息。

语音处理器114，还用于向图像处理器111发送声音方向信息，以使图像处理器111基于至少两个第一视频和声音方向信息，得到携带声音方向信息的第二视频。在另一些实施方式中，语音处理器114，还用于向数据处理组件12发送声音方向信息。

在实施过程中，图像处理器111可以基于先对至少两个第一视频进行合成，得到合成视频，然后基于合成视频和声音方向信息，得到第二视频。在一些实施方式中，图像处理器111可以将声音方向信息编码至合成视频中，得到第二视频。在另一些实施方式中，图像处理器111可以在合成图像中与声音方向信息对应的位置处显示该声音方向信息。

数据处理组件12，还用于从第二视频中提取声音方向信息。在另一些实施方式中，数据处理组件12，还用于接收语音处理器114发送的声音方向信息。数据处理组件12，还用于基于声音方向信息，确定将与声音方向信息匹配的图像进行特定呈现的待显示视频。

在一些实施方式中，第一麦克风阵列113可以采集来自四面八方的声音，经由语音处理器114识别判断声音来自的方向角度，将方向数据传递给图像处理器111，即可判断图像中的哪个画面位置有声音发出，图像处理器可以将处理后的视频传输给数据处理组件。

在实施的过程中，语音处理器114可以采用通用异步收发传输器(UniversalAsynchronous Receiver/Transmitter，UART)协议将声音方向信息传输给图像处理器111。图像处理器111可以采用USB视频类(USB Video Class，UVC)协议将第二视频传输给数据处理组件12。

在一些实施方式中，数据处理组件12可以基于声音方向信息，从第二图像中确定出与声音方向信息对应的目标发声人像，然后确定出对目标发声人像进行特定呈现的待显示视频。例如，对目标发声人像进行特定呈现可以包括：将第二视频中的目标发声人像进行放大呈现。再例如，对目标发声人像进行特定呈现可以包括：将第二视频中的目标发声人像居中呈现。又例如，对目标发声人像进行特定呈现可以包括：将第二视频中的目标发声人像处添加用于标识发声的目标标识。目标标识可以是发声的小喇叭。其中，目标发声人像处可以是在目标发声人像上，或者，可以是在目标发声人像周围。

此处说明图2对应的实施例提供的会议设备10中各个部分的连接关系：第一麦克风阵列113的输出端连接语音处理器114的第一端，语音处理器114的第二端连接图像处理器111的第三端。

图3a为本申请实施例提供的一种会议设备中的视频采集组件采集视频的示意图，如图3a所示，视频采集组件11包括4个图像采集模组，4个图像采集模组分布在不同的方位，从而能够采集到位于会议设备10周围的人像A、人像B、人像C和用于书写的面板。

图3b为本申请实施例提供的一种第二视频中的一帧图像的示意图，如图3b所示，第二视频中的一帧图像为360度全景图像，第二视频中的一帧图像包括人像A、人像B、人像C和用于书写的面板。

图3c为本申请实施例提供的一种待显示视频中的一帧图像的示意图，如图3c所示，在数据处理组件12基于声音方向信息，从第二图像中确定出与声音方向信息对应的目标发声人像为人像C的时候，将对第二视频中的人像C进行放大呈现，得到待显示视频。

图3d为本申请实施例提供的另一种待显示视频中的一帧图像的示意图，如图3d所示，在数据处理组件12基于声音方向信息，从第二图像中确定出与声音方向信息对应的目标发声人像为人像C的时候，将对第二视频中的人像C居中呈现，得到待显示视频。

图3e为本申请实施例提供的又一种待显示视频中的一帧图像的示意图，如图3e所示，在数据处理组件12基于声音方向信息，从第二图像中确定出与声音方向信息对应的目标发声人像为人像C的时候，将对第二视频中的人像C处添加用于标识发声的目标标识。

图4为本申请实施例提供的又一种会议设备10的组成结构示意图，如图4所示，该会议设备10包括：视频采集组件11、数据处理组件12、显示组件13、第一麦克风阵列113和语音处理器114。视频采集组件11还包括第一麦克风阵列113和语音处理器114。

在申请实施例中，视频采集组件11还包括音频处理组件14。

音频处理组件14包括信号处理器141、第二麦克风阵列142和扬声器阵列143。

信号处理器141可以包括数字信号处理器141(Digital Signal Processor，DSP)。

第二麦克风阵列142可以包括至少两个第二子麦克风。在一些实施方式中，至少两个第二子麦克风可以分布在会议场所的第一特定位置，第一特定位置可以是会议场所中的会议桌，或者，第一特定位置可以是会议场所中的各个地方，以使至少两个第二子麦克风能够清晰的采集到会议场所中说话人的声音。在另一些实施方式中，第二麦克风阵列142可以设置或集成在会议设备10上。

扬声器阵列143可以包括至少两个子扬声器。在一些实施方式中，至少连个子扬声器可以分布在会议场所的第二特定位置，第二特定位置可以是会议场所中的会议桌，或者，第二特定位置可以是会议场所中的各个地方，以使至少两个子子扬声器播放的声音能够被会议场所中的每一人清楚地听到。在另一些实施方式中，扬声器阵列143可以设置或集成在会议设备10上。

第二麦克风阵列142可以采集会议室的声音数据，通过信号处理器141做降噪及回声消除的处理后，输出给数据处理组件12。

在一些实施方式中，会议设备10上可以设有第一特定接口，从而可以利用第一特定接口并通过线路连接至少两个第二子麦克风，和/或，会议设备10可以设有第二特定接口，从而可以利用第二特定接口并通过线路连接至少两个子扬声器。第一特定接口和第二特定接口可以是相同的接口或者不同的接口。在另一些实施方式中，至少两个第二子麦克风和/或至少两个子扬声器可以通过无线通信的方式与数据处理组件12通信。

在实施过程中，用于处理第二麦克风阵列142采集的声音信号的信号处理器141，可以与用于处理扬声器阵列143播放的声音信号的信号处理器141，可以集成在一起或者分开设置。用于处理第二麦克风阵列142采集的声音信号的信号处理器141可以与第二麦克风阵列142集成在一起，用于处理扬声器阵列143播放的声音信号的信号处理器141可以与扬声器阵列143集成在一起。

第二麦克风阵列142，用于采集第二声音信息，向信号处理器141发送第二声音信息。第二声音信息可以是用于向电子设备侧的用户传输的声音。

信号处理器141，用于接收第二麦克风阵列142发送的第二声音信息，对第二声音信息至少进行以下之一的处理：降噪、功率放大、回声消除，得到第三声音信息。

信号处理器141，还用于以下至少之一：向扬声器阵列143发送第三声音信息，以使扬声器阵列143播放第三声音信息；向数据处理组件12发送第三声音信息，以使数据处理组件12向电子设备转发第三声音信息，使电子设备播放第三声音信息。

在一些实施方式中，数据处理组件12可以接收电子设备发送的第四声音信息，并向信号处理器141发送第四声音信息，信号处理器141可以对第四声音信息进行处理，并将处理后的第四声音信息发送给扬声器阵列143，以使扬声器阵列143进行播放。其中，第四声音信息可以是电子设备端所产生的声音信息。

通过这种方式，数据处理组件12能够接收到第二麦克风阵列142采集的声音信息，然后将该声音信息发送给电子设备，从而使得电子设备能够播放第二麦克风阵列142采集的声音；进一步，数据处理组件12能够接收到电子设备发送的第四声音信息，然后通过信号处理器141将第四声音信息发送给扬声器阵列143，从而使得扬声器阵列143可以播放第四声音信息，进而可以使得会议双方可以互相的发送音频。

此处说明图4对应的实施例提供的会议设备10中各个部分的连接关系：数据处理组件12的第三端连接信号处理器141的第一端，信号处理器141的第二端连接第二麦克分阵列的输出端，信号处理器141的第三端连接扬声器阵列143的输入端。

在一些实施例中，图像处理器111可以将得到的第二视频发送给数据处理组件12，数据处理组件12可以直接交由会议软件直接调用第二视频，或者，也可以调用经由中间件软件处理后的视频。中间件软件通过虚拟摄像头驱动程序，在Windows操作系统中的设备管理器中显示为一个虚拟摄像头，会议软件可通过绑定此虚拟摄像头来读取中间件软件二次处理后的视频(即可以是上述的待显示视频)。例如，中间件软件可以将第二视频中的每个人物头像截取后，组合成一幅头像拼接图后输出给会议软件，或者中间件软件可以将360度全景画面中的某个区域截取放大，只将截取的部分输出给会议软件，又或者在截图上再叠加一个小显示窗口，用于显示指定人物的头像画面。

图5为本申请实施例提供的一种会议系统的组成结构示意图，如图5所示，该会议系统20包括电子设30备和上述任一实施例中的会议设备10。电子设备和会议设备可以是相同类型的设备或者是不同类型的设备，例如，电子设备30可以是手机，会议设备10可以是会议机，再例如，电子设备30和会议设备10均可以是会议机。

图6为本申请实施例提供的一种数据处理方法的流程示意图，如图6所示，该方法适用于会议设备中的数据处理组件，该方法包括：

S601、接收图像处理器发送的对不同方向的至少两个第一视频进行合成而得到第二视频；不同方向的至少两个第一视频分别是光轴方向不同的至少两个图像采集模组采集的。

S602、基于第二视频确定待显示视频。

在一些实施方式中，数据处理组件可以将第二视频作为待显示视频。在另一些实施方式中，数据处理组件可以对第二视频进行处理，得到待显示视频。

S603、向电子设备和/或显示组件发送待显示视频，以使电子设备和/或显示组件显示待显示视频。

在一些实施方式中，S603可以替换为：向电子设备和/或显示组件发送待显示视频，接收电子设备传输的第三视频，向显示组件输出第三视频，以使显示组件显示第三视频，且电子设备和/或显示组件显示待显示视频。

在本申请实施例中，由于数据处理组件接收的是对至少两个第一视频进行合成而得到第二视频，第二视频的视野范围大于一个图像采集模组采集的视频的视野范围，从而基于第二视频确定待显示视频也具有较大的视野范围，使得显示组件或者电子设备能够显示更大的视野范围的视频，进而使得电子设备端的用户能够更多的了解到会议设备端的情况。

图7为本申请实施例提供的另一种数据处理方法的流程示意图，如图7所示，该方法适用于会议设备中的数据处理组件，在本申请实施例中，S602可以包括S701和S702：

S701、对第二视频进行分析，确定目标发声人像。

S702、对第二视频中的目标发声人像进行特定方式呈现处理，得到待显示视频。

数据处理组件可以对第二视频中的目标发声人像进行以下至少之一的处理：放大、居中、添加目标标识，得到待显示视频。

例如，在一些实施方式中，S702可以通过以下方式实现：对第二视频帧中的目标发声人像进行放大处理，得到待显示视频。在另一些实施方式中，S702可以通过以下方式实现：对第二视频中的目标发声人像进行居中给处理，得到待显示视频。在又一些实施方式中，S703可以通过以下方式实现：向第二视频中的目标发声人像处添加目标标识，得到待显示视频。目标标识可以用于标识目标发声人像发声，例如，目标标识可以是一个发声的小喇叭。

图8为本申请实施例提供的又一种数据处理方法的流程示意图，如图8所示，该方法适用于会议设备中的数据处理组件，在本申请实施例中，S602可以包括S801至S803：

S801、截取第二视频中的全部人像。

S802、对全部人像进行排布，得到第四视频。

在一些实施方式中，数据处理组件在获取到全部人像后，在确定到全部人像中的某些人像倾斜和/或变形的情况下，可以对这些人像进行矫正，以得到第四视频。

在一些实施方式中，数据处理组件可以确定全部人像中每一人像进行特征识别，以确定每一人像的属性信息，从而基于向每一人像附近对应的位置处添加每一人像的属性信息，以得到第四视频。属性信息可以包括以下至少之一：姓名、年龄、职位、负责项目等。

在一些实施方式中，对全部人像进行排布，可以包括依据每一人像的方位信息，依次对全部人像进行排布。在另一些实施方式中，对全部人像进行排布，可以包括获取每一个人像的人像特征信息，基于每一人像特征信息确定每一人像在会议中的重要程度信息，基于重要程度信息对全部人像进行排布。例如，可以将会议中重要程度较高的人像排布在前面。

S803、将第四视频确定为待显示视频，或者，将第四视频叠加在第二视频上，得到待显示视频。

图9为本申请实施例提供的再一种数据处理方法的流程示意图，如图9所示，该方法适用于会议设备中的数据处理组件，在本申请实施例中，S802可以包括S901和S902：

S901、对第二视频进行分析，确定目标发声人像。

S902、对全部人像进行排布，并向目标发声人像处添加用于标识发声的目标标识，得到四视频。

在一些实施方式中，图7的S701和图9的S901的对第二视频进行分析，确定目标发声人像，可以包括：对第二视频中的每一人像进行视频分析，得到每一人像的视频分析结果；基于每一人像的视频分析结果，确定目标发声人像。

在这种实施方式中，数据处理组件可以基于每一人像的视频分析结果，确定目标人像发出说话的动作的情况下，将该目标人像作为目标发声人像。

在另一些实施方式中，图7的S701和图9的S901的对第二视频进行分析，确定目标发声人像，可以包括：从第二视频中提取语音处理器基于第一麦克风阵列采集的声音信息而确定的发声方向信息；确定与发声方向信息对应的人像为目标发声人像。

在又一些实施方式中，图7的S701和图9的S901的对第二视频进行分析，确定目标发声人像，可以包括：接收语音处理器发送的基于第一麦克风阵列采集的声音信息而确定的发声方向信息；基于每一人像的视频分析结果，确定发生说话动作的目标人像的位置信息；在目标人像的位置信息与发声方向信息匹配的情况下，将目标人像确定为目标发声人像。

如果仅根据视频分析结果确定目标发声人像，那么在某一个人正在嚼口香糖的情况下，数据处理组件容易将这个人的人像确定为目标发声人像，从而导致确定的目标发声人像不准确。如果仅根据发声方向信息确定目标发声人像，则有可能由于周围的杂音(例如非说话音，或者，播放器发出的声音)，导致确定目标发声人像并不是真实的正在说话的人像。而通过在目标发声人像的位置信息与发声方向信息匹配的情况下，确定目标发声人像的这一方式，使得目标发声人像的确定不仅可以基于视频分析的结果来确定，还可以根据第一麦克风阵列采集的声音信息而确定，从而第一麦克风阵列采集的声音信息，可以对基于视频分析而确定的人像进行辅助判断，从而提高了确定的目标发声人像的准确度。

本申请实施例不限于此，本申请实施例还可以提供另一些数据处理方法，如下：

在一些实施例中，数据处理组件在向电子设备和/或显示组件发送待显示视频，接收电子设备传输的第三视频，向显示组件输出第三视频之后，数据处理组件还可以执行以下步骤：获取对待显示视频中的指定区域进行触发而生成的触发指令；基于触发指令，对待显示视频中的指定区域进行截取，得到指定区域的视频；基于指定区域的视频，确定目标视频。在数据处理组件得到目标视频之后，在一些实施例中，数据处理组件可以向显示组件和/或电子设备发送目标视频，以使显示组件和/或电子设备显示。在另一些实施例中，数据处理组件还可以将目标视频叠加在待显示视频上，得到特定视频，向显示组件和/或电子设备发送特定视频，以使显示组件和/或电子设备显示。

在实施过程中，数据处理组件基于指定区域的视频，确定目标视频可以有以下的几种实施方式：

在一些实施方式中，数据处理组件可以将指定区域的视频确定为目标视频。

在另一些实施方式中，数据处理组件可以对指定区域的视频进行放大或缩小，得到目标视频。

在又一些实施方式中，数据处理组件可以将指定区域的视频叠加在待显示视频上，得到目标视频；

在再一些实施方式中，数据处理组件可以对指定区域的视频进行放大或缩小；将放大或缩小后的指定区域的视频叠加在待显示视频上，得到目标视频。

在一些实施方式中，用户可以对会议设备中的Windows下的软件或者安装在会议设备的一些软件进行操作，以使会议软件中的数据处理组件获取到触发指令。在另一些实施方式中，用户可以对会议设备上的视频会议软件进行操作，以使会议软件中的数据处理组件获取到触发指令。其中，视频会议软件可以包括以下之一：Microsoft teams、outlook、lync会议、zoom、腾讯会议、钉钉会议等。

在另一些实施例中，为了能够将显示某些特定人物，S602中的基于第二视频确定待显示视频，可以通过以下方式实现：数据处理组件获取指定人像特征；在指定人像特征与第二视频中的指定人像匹配的情况下，截取第二视频中的指定人像，得到第五视频。在一些实施方式中，数据处理组件可以将第五视频叠加在第二视频上，得到待显示视频。在另一些实施方式中，数据处理组件可以截取第二视频中的特定区域的视频，基于特定区域的视频确定第六视频，将第五视频叠加在第六视频上，得到待显示视频。

指定人像特征可以包括名字、性别、年龄、面部特征等特征。在一些实施方式中，在一场视频会议中，指定人像特征可以是固定不变的，例如，指定人像特征可以是会议发起者的特征、会议接受者的特征、会议被通知者的特征、产品经理的特征或者项目经理的特征。在另一些实施方式中，在一场视频会议中，指定人像特征可以是变化的，例如，指定人像特征可以是在会议台上的人像的特征，或者，可以是在某一座位上的人像的特征。

在一些实施方式中，基于特定区域的视频确定第六视频可以包括：将特定区域的视频确定为第六视频。

在另一些实施方式中，基于特定区域的视频确定第六视频可以包括：对特定区域的视频进行放大或缩小，得到第六视频。

在又一些实施方式中，基于特定区域的视频确定第六视频可以包括：将特定区域的视频叠加在待显示视频上，得到第六视频。

在再一些实施方式中，基于特定区域的视频确定第六视频可以包括：对特定区域的视频进行放大或缩小；将放大或缩小后的特定区域的视频叠加在待显示视频上，得到第六视频。

在又一些实施方式中，为了能够使得会议设备端的参会者或者电子设备端的参会者，能够清楚地看到用于书写和/或用于投影的面板上的内容，S602中的基于第二视频确定待显示视频，可以通过以下方式实现：在确定第二视频中存在用于书写和/或用于投影的面板，且面板为非矩形面板的情况下，对第二视频中的非矩形面板进行校正，得到包括矩形面板的待显示视频。

用于书写的面板可以是白色的面板、黑色的面板或者其它颜色的面板。

图10为本申请实施例提供的再一种待显示视频中的一帧图像的示意图，如图3b和图10所示，数据处理组件可以将第二视频中的非矩形面板矫正为矩形面板。

基于前述的实施例，本申请实施例提供一种数据处理装置，该数据处理装置包括所包括的各单元、以及各单元所包括的各模块，可以通过终端设备中的处理器来实现；当然也可通过具体的逻辑电路实现。数据处理装置可以包括：

接收单元，用于接收图像处理器发送的对不同方向的至少两个第一视频进行合成而得到第二视频；不同方向的至少两个第一视频分别是光轴方向不同的至少两个图像采集模组采集的；

确定单元，用于基于第二视频确定待显示视频；

发送单元，用于向电子设备和/或显示组件发送待显示视频，以使电子设备和/或显示组件显示待显示视频；或者，向电子设备和/或显示组件发送待显示视频，接收电子设备传输的第三视频，向显示组件输出第三视频，以使显示组件显示第三视频，且电子设备和/或显示组件显示待显示视频。

在一些实施例中，确定单元，还用于对第二视频进行分析，确定目标发声人像；对第二视频中的目标发声人像进行特定方式呈现处理，得到待显示视频。

在一些实施例中，确定单元，还用于截取第二视频中的全部人像；对全部人像进行排布，得到第四视频；将第四视频确定为待显示视频，或者，将第四视频叠加在第二视频上，得到待显示视频。

在一些实施例中，确定单元，还用于对第二视频进行分析，确定目标发声人像；对全部人像进行排布，并向目标发声人像处添加用于标识发声的目标标识，得到四视频。

在一些实施例中，确定单元，还用于以下之一：

对第二视频中的每一人像进行视频分析，得到每一人像的视频分析结果；基于每一人像的视频分析结果，确定目标发声人像；

从第二视频中提取语音处理器基于第一麦克风阵列采集的声音信息而确定的发声方向信息；确定与发声方向信息对应的人像为目标发声人像；

接收语音处理器发送的基于第一麦克风阵列采集的声音信息而确定的发声方向信息；基于每一人像的视频分析结果，确定发生说话动作的目标人像的位置信息；在目标人像的位置信息与发声方向信息匹配的情况下，将目标人像确定为目标发声人像。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的数据处理方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备执行本申请各个实施例方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

本申请实施例提供一种计算机存储介质，计算机存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一实施例的数据处理方法的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

图11为本申请实施例提供的一种会议设备的硬件实体示意图，如图11所示，会议设备10可以包括视频采集组件11、显示组件13、底座15。

视频采集组件11至少包括：光轴方向不同的至少两个图像采集模组112。

底座15内部可以设有数据处理组件。底座上可以设有扬声器阵列143。

在一些实施方式中，第一麦克风阵列可以与视频采集组件11设置在同一个轴上。在另一些实施方式中，第一麦克风阵列可以与扬声器阵列143设置在同一个轴上。

上述处理组件、图像处理器、语音处理器、信号处理器或者控制处理器可以为特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal ProcessingDevice，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“本申请实施例”或“前述实施例”或“一些实施例”或“一些实施方式”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本申请实施例”或“前述实施例”或“一些实施例”或“一些实施方式”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

值得注意的是，本申请实施例中的附图只是为了说明各个器件在终端设备上的示意位置，并不代表在终端设备中的真实位置，各器件或各个区域的真实位置可根据实际情况(例如，终端设备的结构)作出相应改变或偏移，并且，图中的终端设备中不同部分的比例并不代表真实的比例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种会议设备，包括：视频采集组件、数据处理组件以及显示组件，其中：

所述数据处理组件，用于接收所述图像处理器传输的所述第二视频，基于所述第二视频，确定待显示视频；还用于基于对所述待显示视频中指定区域的触发指令得到所述指定区域的视频，并基于所述指定区域的视频确定目标视频；

所述数据处理组件，还用于执行以下之一：

向电子设备和/或所述显示组件发送所述待显示视频和目标视频；

向电子设备和/或所述显示组件发送所述待显示视频和目标视频，接收所述电子设备传输的第三视频，向所述显示组件输出所述第三视频；

所述显示组件，用于显示所述数据处理组件输出的至少以下视频内容之一：所述待显示视频、所述第三视频、目标视频。

2.根据权利要求1所述的会议设备，所述图像采集模组的数量大于或等于2；所述第二视频的取景角度大于或等于180度。

3.根据权利要求1所述的会议设备，所述视频采集组件还包括第一麦克风阵列和语音处理器；

所述语音处理器，还用于执行以下之一：

向所述数据处理组件发送所述声音方向信息；

4.根据权利要求1至3任一项所述的会议设备，所述会议设备还包括音频处理组件；所述音频处理组件包括信号处理器、第二麦克风阵列和扬声器阵列；

所述信号处理器，还用于以下至少之一：

5.一种会议系统，包括电子设备和权利要求1至4任一项所述的会议设备。

6.一种数据处理方法，适用于会议设备中的数据处理组件，包括：

基于所述第二视频确定待显示视频；还用于基于对所述待显示视频中指定区域的触发指令得到所述指定区域的视频，并基于所述指定区域的视频确定目标视频；

向电子设备和/或显示组件发送所述待显示视频和目标视频，以使所述电子设备和/或所述显示组件显示所述待显示视频和目标视频；或者，

向电子设备和/或所述显示组件发送所述待显示视频和目标视频，接收所述电子设备传输的第三视频，向所述显示组件输出所述第三视频，以使所述显示组件显示第三视频，且所述电子设备和/或所述显示组件显示所述待显示视频和目标视频。

7.根据权利要求6所述的方法，所述基于所述第二视频确定待显示视频，包括：

对所述第二视频进行分析，确定目标发声人像；

对所述第二视频中的所述目标发声人像进行特定方式呈现处理，得到所述待显示视频。

8.根据权利要求7所述的方法，所述基于所述第二视频确定待显示视频，包括：

截取所述第二视频中的全部人像；

对所述全部人像进行排布，得到第四视频；

9.根据权利要求8所述的方法，所述对所述全部人像进行排布，得到第四视频，包括：

对所述第二视频进行分析，确定目标发声人像；

10.根据权利要求7或9所述的方法，所述对所述第二视频进行分析，确定目标发声人像，包括以下之一：