CN116016836A

CN116016836A - 会议视频处理方法及系统

Info

Publication number: CN116016836A
Application number: CN202211539810.5A
Authority: CN
Inventors: 赵志辉; 林雨波; 郑伟军
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-04-25

Abstract

本发明提供了一种会议视频处理方法及系统，该方法包括：根据会议音频数据进行声源定位，确定主讲人的第一位置信息；对第一图像进行人脸位置检测，确定主讲人的第二位置信息；拟合第一位置信息和第二位置信息，确定主讲人的三维坐标；根据三维坐标，采集以主讲人为视角中心的第二图像，作为会议视频。通过人脸位置检测和声源定位技术结合，确定主讲人准确的三维坐标，以采集到以主讲人为视角中心的第二图像，使得主讲人能够一直位于会议视频画面的中心，实现了视角自动跟随主讲人；且能够改善会议交互效果。

Description

会议视频处理方法及系统

技术领域

本发明涉及音视频处理技术领域，特别涉及一种会议视频处理方法及系统。

背景技术

随着网络技术的发展，线上会议逐渐成为常用的会议形式。在沟通过程中，与会一方的摄像头需要采集包含主讲人在内的视频，传输给与会另一方，并通过对视频的处理，尽可能使得主讲人在视频中位于容易被看到的位置。目前，有两种方式，一种是设置单摄像头进行图像采集，将人脸圈括出来，裁剪后只保留主讲人的场景或者通过数字变焦放大的方式显示主讲人图像；另一种是与会人数超过一定数量时，单摄像头视角无法囊括全部的与会人员，设置两个或者更多个定焦摄像头，且使得多个摄像头成一定角度摆放，多个摄像头采集到的图像拟合到一起形成广角视频，再通过人脸捕捉，对视频进行裁剪后，再通过数字变焦放大的方式显示主讲人图像，提供给与会另一方。

对于第一种方案而言，单定焦摄像头的视野不够大，一旦主讲人走出单摄像头的视角范围，与会另一方通过视频看不到主讲人，除非改变单摄像头的设置位置。对于第二种方案而言，数字变焦放大的方式对于人像不够清晰，噪点多，画质不好；且当主讲人位置变动时，多个定焦摄像头拍摄的图像画质融合容易出异常，故而会造成与会另一方看到的视频图像融合异常或者跳变频繁，对会另一方造成干扰。

也就是说，现有的两种方案都无法使得视频视角自动跟随主讲人，进而使得与会另一方很难专注于讲话人所讲述的会议内容，会议交互效果不佳。

发明内容

本发明的目的是提供一种视角自动跟随主讲人，改善会议交互效果的会议视频处理方法、系统、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本发明提供一种会议视频处理方法，包括：

拾取会议音频数据；

根据所述会议音频数据进行声源定位，确定主讲人的第一位置信息；

采集第一图像；所述第一图像的视角覆盖会场；

对所述第一图像进行人脸位置检测，确定主讲人的第二位置信息；

拟合所述第一位置信息和所述第二位置信息，确定主讲人的三维坐标；

根据所述三维坐标，采集以主讲人为视角中心的第二图像，作为会议视频。

第二方面，本发明提供一种会议视频处理系统，其包括：

第一摄像头、第二摄像头、音频采集阵列、处理器以及驱动模组；

所述第一摄像头的视场角大于预设阈值，用于采集覆盖会场的第一图像；

所述音频采集阵列，用于拾取会议音频数据；

所述处理器，用于根据所述会议音频数据进行声源定位，确定主讲人的第一位置信息；对所述第一图像进行人脸位置检测，确定主讲人的第二位置信息；基于所述第一位置信息和第二位置信息，控制所述驱动模组和所述第二摄像头，使得所述第二摄像头采集以主讲人为视角中心的第二图像。

第三方面，本发明提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的会议视频处理方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，响应于所述计算机程序被处理器执行，实施了上述会议视频处理方法的操作。

第五方面，本发明提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上所述的会议视频处理方法。

本发明实施例提供的会议视频处理方法，通过拾取会议音频数据；根据会议音频数据进行声源定位，确定主讲人的第一位置信息；采集第一图像；其中，第一图像的视角覆盖会场；对第一图像进行人脸位置检测，确定主讲人的第二位置信息；拟合第一位置信息和第二位置信息，确定主讲人的三维坐标；根据三维坐标，采集以主讲人为视角中心的第二图像，作为会议视频。通过人脸位置检测和声源定位技术结合，确定主讲人准确的三维坐标，以采集到以主讲人为视角中心的第二图像，使得主讲人能够一直位于会议视频画面的中心，实现了视角自动跟随主讲人；且能够使得与会另一方能够一直专注于讲话人所讲述的会议内容不被干扰，改善会议交互效果。

附图说明

以下附图仅旨在于对本发明做示意性说明和解释，并不限定本发明的范围。其中：

图1是本发明实施例的会议视频处理方法流程示意图；

图2是本发明一具体实施例中步骤104的实现过程示意图；

图3是本发明实施例中人脸检测算法输出的一张图像的检测结果示意图；

图4是本发明另一具体实施例中步骤104的实现过程示意图；

图5是本发明实施例中会议视频处理系统的简易结构示意图；

图6是本发明具体实施例中处理器404的简易结构示意图；

图7是本发明具体实例中会议终端的简易立体结构示意图；

图8是本发明具体实例中驱动模组的结构示意图；

图9是本发明实施例中一种计算机设备的结构示意图。

具体实施方式

下面通过附图和实施例对本申请进一步详细说明。通过这些说明，本申请的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

此外，下面所描述的本申请不同实施方式中涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种会议视频处理方法，用以确保视角自动跟随主讲人，改善会议交互效果，如图1所示，包括：

步骤101：拾取会议音频数据；

步骤101具体实施时，利用麦克风阵列拾取会议音频的多麦信号，其中，麦克风阵列是指以某种规则排布的多个麦克风组合，本发明具体实施例中，采用的是均匀分布的多个麦克风组成的麦克风阵列，且相邻的两个麦克风之间的距离相同。麦克风阵列中的每个麦克风都会拾取会议音频的声音信号，多麦信号是指麦克风阵列中所有麦克风所拾取的声音信号的集合。

步骤102：根据会议音频数据进行声源定位，确定主讲人的第一位置信息；

具体实施时，在麦克风阵列拾取到多麦信号后，利用声源定位算法，对多麦信号进行计算，确定声源的三维坐标，得到主讲人的第一位置信息。

其中，声源定位指的是定位声源的位置，通过利用包含多个麦克风的麦克风阵列，在不同位置点采集声源发出的声音信号，而由于声音信号到达不同麦克风的时间有不同程度的延迟，也被称为时延，利用相应算法对采集的声信号进行处理，由此获得声源点相对于麦克风的到达方向(包括方位角，俯仰角)和距离等信息。目前，声源定位在声源点相对于麦克风的到达方向上的确定是十分准确的，但在确定距离时的精度不是很高，会有一定的误差。因此，发明实施例中提供了两种人脸检测和声源定位相结合的实施方式，一种是基于声源定位确定声源点相对于麦克风的到达方向(声源点在物平面上的位置)，以及与麦克风之间的距离，基于人脸位置检测确定人脸检测框在物平面上的位置，拟合出主讲人的三维坐标；另一种实施方式是基于声源定位确定声源点相对于麦克风的到达方向，即声源点在物平面上的位置，基于人脸位置检测确定人脸检测框在物平面上的位置，并基于人脸检测框的尺寸计算确定物平面距离第一图像采集装置之间的距离，以此拟合出主讲人的三维坐标。

本发明一具体实施例中，将麦克风阵列的几何结构与所采集的多麦信号一同输入声源定位算法，例如，基于GCC(Generalized Cross-Correlation，广义互相关)的声源定位算法、基于最大输出功率的波束成形定位算法或基于信号子空间的声源定位算法，就能够估算声源的方位角信息，即声源相对于麦克风的角度范围。在确定声源的方位角估计结果后，再利用距离估计的算法，确定声源与麦克风阵列的距离估算结果，例如，可通过每个麦克风的双曲线交点对声源进行定位，或者基于直达混响比(Direct-to-Reverberantratio,DRR)来估算声源的距离。

确定了声源位于麦克风的方位和距离之后，基于一个坐标系就能够确定声源的三维坐标，后续步骤中也会利用这个坐标系表述位置，以此作为位置描述的基准，为了便于描述，可将其称之为统一坐标系。具体实施时，该统一坐标系可以是世界坐标系，以此得到声源的三维坐标，后续在使用该声源的三维坐标时，可能还需要进行世界坐标系和其他坐标系的坐标转换。另一种实施方式中，该统一坐标系可以是预先建立的成像坐标系，以此确定声源的三维坐标，且后续确定位置时也使用该成像坐标系，无需进行坐标转换，减少数据处理量。其中，成像坐标系以某一点为原点，例如可以是第一摄像头的光心或第二摄像头的光心，以摄像头拍摄时物平面中任意垂直的两个方向为X轴和Y轴，以摄像头景深方向为Z轴，建立起成像坐标系。

相应地，第一位置信息可以包括声源的三维坐标的X轴坐标、Y轴坐标和Z轴坐标，也可以只包括声源的三维坐标的Z轴坐标。

具体实施例中，为了避免除了主讲人的声音外，有别的噪音和/或别的与会人的声音的干扰，可对多麦信号先做降噪处理，以减少噪音的干扰。而若非主讲人与主讲人一同讲话时，可以采用对预设时段内的目标角度进行投票，确定主讲人的位置。例如可以是2秒时长，保留最近2秒的目标角度数据，在一个循环buf中投票，比如10ms为一帧，投票最多的角度作为目标角度，则判定主讲人在该目标角度内。对每一帧判断时，如果存在两个声音，一般将声音能量最大的角度作为目标角度结果。可以理解的是，在主讲人发生变化时，也可采用该种方法确定变更后的主讲人的位置。

步骤103：采集第一图像；该第一图像的视角覆盖会场；

具体实施时，可利用广角摄像头或超广角摄像头，对会场进行图像采集，由于广角摄像头或超广角摄像头的视场角(Field of view，FOV)比较大，能够使得所采集的第一图像的视角覆盖整个会场，以获得会议时的全景图像。

步骤104：对第一图像进行人脸位置检测，确定主讲人的第二位置信息；

在一具体实施例中，步骤104的实施过程，如图2所示，包括：

步骤201：利用人脸位置检测算法，检测第一图像中主讲人的人脸检测框位置；

步骤202：确定人脸检测框位置在物平面上的位置坐标，得到主讲人的第二位置信息。

具体实施时，利用机器学习算法，如Haar+cascade分类器，或深度学习算法，如MTCNN(Multi-task Cascaded Convolutional Networks)、YOLO、SSD(Single ShotMultiBox Detector)、RetinaFace等人脸位置检测算法，对第一图像进行分析，确定第一图像中主讲人的人脸检测框位置。在具体的算法选择上，根据实际情况确定，机器学习算法一般计算速度较快，但准确率略差，尤其是远距离、口罩、大角度等恶劣场景下对人脸检出效果较差；深度学习算法通常鲁棒性更好，恶劣场景下效果较机器学习算法更优，本发明在此不做限定。

具体实施例中，由于第一图像一般是采集的连续多帧视频图像，可根据对多帧图像进行比对，根据图像中的唇形或嘴张开的幅度等特征信息，确定图像中的多个人脸中的哪一个人脸是主讲人。若第一图像只采集了一张视频图像，则可根据声源定位得到的主讲人的第一位置信息，划定主讲人的方位，基于该方位，确定图像中的多个人脸中的哪一个人脸是主讲人，再分析确定主讲人的人脸检测框位置，一般地，人脸位置检测算法会输出人脸检测框在图像中的二维坐标，即检测框在图像中左上角及右下角的坐标，检测精度更高的人脸检测算法还能够输出人脸关键点信息，如眼睛、鼻子、嘴唇的具体坐标。举例说明，如图3所示，可以看到参与会议的有六个人，已经基于声源定位得知主讲人的大体方位，采用深度学习方法，如YOLO模型，检测到主讲人的人脸位置，输出图中方框所示的人脸检测框以及坐标位置，需要说明的是，图3是示意性图片(具体人脸未示出)，仅为说明人脸检测框的位置。

检测第一图像中主讲人的人脸检测框位置后，确定人脸检测框位置在物平面上的位置坐标，得到主讲人的第二位置信息。为了保证对位置描述所基于的坐标系是一致的，还需要根据第一图像的采集装置(第一摄像头)相对于统一坐标系的位置，将该二维坐标进行转换，得到统一坐标系下的坐标信息，即第二位置信息，也就是确定预先建立的成像坐标系或世界坐标系下的坐标。其中，物平面是指第一图像的采集装置在成像时人脸所在的二维平面，该平面与第一图像的采集装置的成像平面平行，也与成像坐标系中X轴和Y轴构成的平面平行。

具体实施例中，由于预先建立的成像坐标系的原点与第一图像的采集装置的光心一致或相差不远，后续误差可以忽略不计，且预先建立的成像坐标系中X轴和Y轴组成的平面与物平面平行，为了减少换算的计算量，可以将预先建立的成像坐标系中X轴和Y轴设置的与物平面上标记位置的坐标轴一致，故可以直接将该二维坐标转换成预先建立的成像坐标系下Z轴坐标缺失的坐标，举例说明，算法输出的二维坐标为(xi，yi)，转换成预先建立的成像坐标系下的坐标为(xi，yi，z0)，其中z0是个未知量。

步骤105：拟合第一位置信息和第二位置信息，确定主讲人的三维坐标；

在一具体实施例中，得到主讲人的第二位置信息后，拟合第一位置信息和第二位置信息，确定主讲人的三维坐标。一种实施方式为，由于对主讲人位置要求精度不是很高，可以减少一些数据处理量，即第一位置信息只包括声源的三维坐标的第一方向坐标时，拟合第一位置信息和第二位置信息，确定主讲人的三维坐标，包括：将声源的三维坐标的第一方向坐标，确定为主讲人的三维坐标的第一方向坐标；根据第二位置信息，得到主讲人的三维坐标的第二方向坐标和第三方向坐标。其中，第二方向垂直于第三方向，第二方向和第三方向构成的平面平行于物平面，且第一方向垂直于物平面。具体地，第一方向是指成像坐标系下的Z轴方向，第二方向和第三方向分别是指成像坐标系下的X轴方向和Y轴方向，可以理解的是，第二方向可以是X轴方向，也可以是Y轴方向，在此不做限定。也就是说第一方向、第二方向和第三方向构成了预先设置的成像坐标系。

另一种实施方式为，第一位置信息，包括声源的三维坐标的第一方向坐标、第二方向坐标和第三方向坐标时，拟合第一位置信息和第二位置信息，确定主讲人的三维坐标，包括：根据第二位置信息、声源的三维坐标的第二方向坐标和第三方向坐标，得到主讲人的三维坐标的第二方向坐标和第三方向坐标；将声源的三维坐标的第一方向坐标，确定为主讲人的三维坐标的第一方向坐标。其中，第二方向垂直于第三方向，第二方向和第三方向构成的平面平行于物平面，第一方向垂直于物平面。也就是说，基于声源的三维坐标第二方向坐标和第三方向坐标，修正第二位置信息，以得到更为准确的主讲人的三维坐标的第二方向坐标和第三方向坐标，而仍然以声源的三维坐标的第一方向坐标作为主讲人的三维坐标的第一方向坐标。同样地，第一方向是指成像坐标系下的Z轴方向，第二方向和第三方向分别是指成像坐标系下的X轴方向和Y轴方向。

在该具体实施例中，利用声源定位确定主讲人相对于麦克风的方位角，即确定主讲人在物平面上的大致方位，并确定主讲人相对于麦克风的距离，以此确定主讲人在垂直于物平面的方向上的位置，再以主讲人在物平面上的大致方位为基础，利用人脸位置检测，确定主讲人在物平面上准确的二维坐标。结合主讲人在垂直于物平面的方向上的位置和主讲人在物平面上准确的二维坐标，也就能够得到主讲人在统一坐标系下的三维坐标，以准确的描述主讲人的位置。或，利用声源定位确定主讲人相对于麦克风的距离，基于多张拍摄的第一图像，对人脸的特征进行判定，例如嘴张开的幅度等，确定主讲人的人脸检测框在物平面上的二维坐标，将二者结合得到主讲人在统一坐标系下的三维坐标。声源定位所估算的距离虽然精度不高，但在空间不大的会场场景下，其精度能够满足使用要求，且计算数据量较少，能够使得视频处理速度较快，满足实时跟踪主讲人的要求，设置常见器件就能够实现上述实施过程，实施成本较低。

为了提高主讲人三维坐标的精度，在另一具体实施例中，步骤101实施与上述一具体实施例的实施过程一致，步骤102至步骤105的实施过程有所区别，具体实施过程为：

步骤102具体实施时，利用麦克风阵列拾取会议音频的多麦信号，利用声源定位算法，对上述多麦信号进行计算，确定声源在物平面上的方位，得到主讲人的第一位置信息，在此实施例中，主讲人的第一位置信息仅包括声源在物平面上的位置信息，即声源相对于麦克风阵列的方位。

步骤103具体实施时，采集视角覆盖会场的第一图像。

步骤104具体实施时，如图4所示，包括：

步骤401：利用人脸位置检测算法，检测第一图像中主讲人的人脸检测框位置，确定人脸检测框的尺寸；

步骤402：确定人脸检测框位置在物平面上的位置坐标；

步骤403：基于人脸检测框的尺寸，确定人脸检测框与第一图像采集装置之间的距离；

步骤404：整合人脸检测框位置在物平面上的位置坐标和物平面与第一图像采集装置之间的距离，得到主讲人的第二位置信息。

具体实施时，基于声源定位得到的主讲人的第一位置信息，确定第一图像中的多个人脸中哪一个为主讲人，并基于人脸位置检测算法，确定主讲人的人脸检测框位置，并确定人脸检测框的尺寸，即长和宽的尺寸。由成像原理可得知，在不改变摄像头参数设置的情况下，距离摄像头不同的距离，被拍摄的人脸所成像的大小是不同的，故可以基于一个预先拍摄好的基准图像，计算得到主讲人人脸所在的物平面距离第一图像采集装置(第一摄像头)之间的距离，也就得到了主讲人在垂直于物平面方向上的位置，再结合人脸检测框位置，就能够得到主讲人的第二位置信息，在该具体实施例中，主讲人的第二位置信息是指主讲人在三维上的空间位置。

进一步地，为了尽可能提高主讲人在垂直于物平面方向上的位置精度，可以将第一图像采集装置设置为FOV满足要求的3D相机，比如使用双目相机，既能够采集视角足够覆盖会场的第一图像，还能够获取拍的第一图像中每个人脸相对摄像头的距离信息，也就是说确定的主讲人人脸所在的物平面距离第一图像采集装置(第一摄像头)之间的距离更为精准，进而保证主讲人的三维坐标足够准确。

其中，3D相机的工作原理主要是对拍摄场景进行三维重建，简单的说就是可以获取所拍的图像中每个物体相对摄像头的距离信息。3D相机可以有不同的原理，目前在用的细分有多种，大体有三种原理：结构光、TOF、双目相机。双目相机一般还可以有RGB或IR图像，可以在图像中检测人脸，确定每个人脸的坐标，然后针对每个人脸计算到双目相机的距离。计算距离的原理主要是通过三角法，即搜索两张图像的视差，来计算深度距离。

相应地，步骤105具体实施时，根据第二位置信息中第二方向坐标和第三方向坐标，以及第一位置信息，得到主讲人的三维坐标的第二方向坐标和第三方向坐标；将第二位置信息中第一方向坐标，确定为主讲人的三维坐标的第一方向坐标；其中，第二方向垂直于第三方向，第二方向和第三方向构成的平面平行于物平面；第一方向垂直于物平面。具体地，第一方向是指成像坐标系下的Z轴方向，第二方向和第三方向分别是指成像坐标系下的X轴方向和Y轴方向，可以理解的是，第二方向可以是X轴方向，也可以是Y轴方向，在此不做限定。也就是说第一方向、第二方向和第三方向构成了预先设置的成像坐标系。

在该具体实施例中，利用声源定位确定主讲人相对于麦克风的方位角，即确定主讲人在物平面上的大致方位，以主讲人在物平面上的大致方位为基础，利用人脸位置检测，确定主讲人在物平面上准确的二维坐标，并确定人脸检测框的尺寸确定主讲人相对于第一图像采集装置的距离。或利用3D相机直接准确确定主讲人相对于镜头的距离。最终确定三维坐标更为精准的主讲人位置，确保主讲人能够一直处于视频画面的中心。

本领域技术人员可以理解的是，上述两种具体实施例所提供的主讲人三维坐标的确定，可按照实际情况进行选择，例如对精度要求的情况下，可选择后一个具体实施例所提供的实施方案；对处理速度或成本有要求的情况下，可选择前一个具体实施例所提供的实施方案。

步骤106：根据三维坐标，采集以主讲人为视角中心的第二图像，作为会议视频。

步骤106具体实施时，根据三维坐标，调整图像采集参数，以采集主讲人位于图像中心的第二图像。具体地，调整第二图像的图像采集装置(第二摄像头)的视场和焦距，以使得主讲人位于第二图像的图像采集装置的成像画面的中心。

由图1的步骤可知，本发明实施例提供的会议视频处理方法，通过拾取会议音频数据；根据会议音频数据进行声源定位，确定主讲人的第一位置信息；采集第一图像；其中，第一图像的视角覆盖会场；对第一图像进行人脸位置检测，确定主讲人的第二位置信息；拟合第一位置信息和第二位置信息，确定主讲人的三维坐标；根据三维坐标，采集以主讲人为视角中心的第二图像，作为会议视频。通过获取覆盖整个会场的第一图像，并结合会议音频数据，确定主讲人在物平面上的位置，利用声源定位技术或人脸检测框的尺寸，确定主讲人在摄像头景深方向上的位置，从而确定主讲人准确的三维坐标，以采集到以主讲人为视角中心的第二图像，使得主讲人能够一直位于会议视频画面的中心，实现了视角自动跟随主讲人；且能够使得与会另一方能够一直专注于讲话人所讲述的会议内容不被干扰，改善会议交互效果。

基于同样发明构思，本发明实施例还提供一种会议视频处理系统，所解决问题的原理与会议视频处理方法相似，重复之处不再赘述，具体结构如图5所示，包括：

第一摄像头501、第二摄像头502、音频采集阵列503、处理器504以及驱动模组505；

第一摄像头501的视场角大于预设阈值，用于采集覆盖会场的第一图像；具体实施例中，一般将第一摄像头501设置为高清广角摄像头或超高清广角摄像头。

音频采集阵列503，用于拾取会议音频数据；具体实施例中，音频采集阵列503可以设置为麦克风阵列，麦克风阵列中每个麦克风都能够拾取会议音频的声音信号，麦克风阵列最终拾取到的是多麦信号。

处理器504，用于根据会议音频数据进行声源定位，确定主讲人的第一位置信息；对第一图像进行人脸位置检测，确定主讲人的第二位置信息；基于第一位置信息和第二位置信息，控制驱动模组505和第二摄像头502，使得第二摄像头502采集以主讲人为视角中心的第二图像。

具体实施例中，如图6所示，处理器504，包括：

音频处理模块601，用于根据会议音频数据进行声源定位，确定主讲人的第一位置信息；

图像处理模块602，用于对第一图像进行人脸位置检测，确定主讲人的第二位置信息；

定位模块603，用于拟合第一位置信息和第二位置信息，确定主讲人的三维坐标；

控制模块604，用于根据主讲人的三维坐标，确定第一控制信号发送给驱动模组505；确定第二控制信号发送给第二摄像头502。

相应地，驱动模组505，具体用于根据第一控制信号，驱动第二摄像头502调整视场，即带动第二摄像头502移动至合适位置，使其视场能够将主讲人容纳在视场内且位于视场的中心。第二摄像头502，具体用于根据第二控制信号，调整焦距，以对焦至主讲人，使得主讲人在会议视频画面中的呈现比例固定。具体实施例中，一般将第二摄像头502设置为自动对焦(Auto Focus)摄像头，以实现快速对焦，且将驱动模组505集成在Auto Focus摄像头内，Auto Focus摄像头与处理器504电连接，接收到处理器504的控制指令后，将第一控制信号传送给内置的驱动电机，驱动电机根据第一控制信号，驱动两个垂直方向上设置的转动轴转动，从而带动Auto Focus摄像头的镜头旋转到合适的位置，再基于第二控制信号，调整焦距，快速对焦到主讲人。具体实施时，驱动电机使用步进电机并配合定子调压调速方法，可以实现转速无级调节，使第二摄像头502调整角度时图像输出不卡滞。

在一具体实施例中，图像处理模块602，具体用于：

利用人脸位置检测算法，检测第一图像中主讲人的人脸检测框位置；

确定人脸检测框位置在物平面上的位置坐标，得到主讲人的第二位置信息。

相应地，音频处理模块601，具体用于：

利用声源定位算法，对多麦信号进行计算，确定声源的三维坐标，得到主讲人的第一位置信息。

在另一具体实施例中，图像处理模块602，具体用于：

利用人脸位置检测算法，检测第一图像中主讲人的人脸检测框位置，确定人脸检测框的尺寸；

确定人脸检测框位置在物平面上的位置坐标；

基于人脸检测框的尺寸，确定人脸检测框与第一摄像头501之间的距离；

整合人脸检测框位置在物平面上的位置坐标和物平面与第一摄像头之间的距离，得到主讲人的第二位置信息。

此时，可以将第一摄像头501设置为广角或超广角的3D相机。

相应地，音频处理模块601，具体用于：

利用声源定位算法，对多麦信号进行计算，确定声源在物平面上的方位，得到主讲人的第一位置信息。

为了更好地理解本发明实施例提供的会议视频处理方法和系统，以一具体实例为例说明，该具体实例是基于本发明实施例提供的会议视频处理方法和系统所设计的会议终端，如图7所示，包括：广角摄像头、阵列拾音麦克风、处理器、音箱、驱动模组、主摄像头(Auto Focus摄像头)和电源等，驱动模组内置在Auto Focus摄像头内。

广角摄像头拍摄会场的全景照片，阵列拾音麦克风拾取会议音频，全景照片和多麦信号形式的会议音频都被传输给处理器产生主讲人的相关位置信息，并计算得到主讲人的三维坐标。其中，阵列拾音麦克风是设置的固定间距的8麦克阵列，但此种排布方式只适用于12平米内的会议室环境，面积更大的会议室需要扩展麦克风阵列来获取更好的定位效果。

处理器基于主讲人的三维坐标，进行驱动分配，分别实现精准调节驱动模组中的马达的转速和工作时间，实现主摄像头平滑旋转到合适位置，同时主摄像头的Auto focus功能会配合处理器的控制信号调焦，以清晰捕捉到主讲人的图像。

处理器在处理会议音频时，若存在两个或两个以上的人同时讲话，对2秒时长内的目标角度进行投票，10ms为一帧，投票最多的角度作为目标角度，则判定主讲人在该目标角度内。对每一帧判断时，如果存在两个声音，一般将声音能量最大的角度作为目标角度结果，以此确定主讲人的位置。

为了减少数据处理量，减少数据换算量，可以将驱动模组的两个驱动方向设置为互相垂直的X向和Y向，例如，如图8所示，驱动模组外面包裹有壳体(图中未示出)，设置有X向旋转支架、X向驱动电机和X向转动轴，通过齿轮的配合，实现主摄像头在X向上的旋转；还设置有Y向旋转支架、Y向驱动电机和Y向转动轴，通过齿轮的配合，实现主摄像头在Y向上的旋转，从而确保其旋转后，主摄像头的取景范围将主讲人囊括在内，且使主讲人位于中心位置处。且设置X向驱动电机和Y向驱动电机，使用步进电机并配合定子调压调速方法。

并配合阵列拾音麦克风拾取的会议音频，将会议音频数据和主摄像头拍摄的图像数据整合后，输出给会议参与的另一方，从而实现音视频流的顺滑输出。

为了避免卡顿，从广角摄像头拍摄图像开始到主摄像头位置调整完毕为止，时长不超过200ms。

且该终端集成了音箱，用于向会场输送会议另一方的声音，为了避免音箱外放带来的回响，一方面，对阵列拾音麦克风拾取的会议音频数据做回声消除处理，以减少音箱外放声音带来的干扰；另一方面，利用tpu软胶等材料做减震结构，以尽量隔绝音箱对阵列拾音麦克风收声的影响。其中，tpu是一种热塑性弹性体材料，主要分为聚酯和聚醚2大类，tpu是一种弹性体材料，其硬度范围可以在60A到80D之间，现改良性甚至能达到50A柔软度。

由此可以看出，本发明具体实例提供的会议终端，通过在音箱和阵列拾音麦克风之间设置减震结构，并利用算法对阵列拾音麦克风拾取的声音信号做回声消除处理，极大程度减少了音箱外放声音对会议音频数据的影响；通过对阵列拾音麦克风拾取的声音信号做降噪处理，且通过在区分主讲人和非主讲人的声音，保证主讲人声源定位准确，避免了杂音干扰；通过广角摄像头和主摄像头的图像比对后自动校准视场，保证主讲人位于视频画面的中心，也避免了主摄像头位置进行机械归零后所导致的校准偏差；通过图像和声音双重定位，确保主讲人位置定位准确；通过各部件的精密配合，形成音频清晰图像流畅稳定的视频流输出给会议的另一方，保证视频画面实时跟踪主讲人，从而保证类似现场摄像师控制水平的持续稳定图像输出，给人一种身临其境的感觉，极大改善线上会议使用人员的使用感。

本发明实施例还提供一种计算机设备，图9为本发明实施例中计算机设备的示意图，该计算机设备能够实现上述实施例中的会议视频处理方法中全部步骤，该计算机设备具体包括如下内容：

处理器(processor)901、存储器(memory)902、通信接口(CommunicationsInterface)903和通信总线904；

其中，所述处理器901、存储器902、通信接口903通过所述通信总线904完成相互间的通信；所述通信接口903用于实现相关设备之间的信息传输；

所述处理器901用于调用所述存储器902中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的会议视频处理方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，响应于所述计算机程序被处理器执行，实施了上述的会议视频处理方法的操作。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现：上述的会议视频处理方法。

虽然本发明提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员应明白，本说明书的实施例可提供为方法、装置(系统)或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种会议视频处理方法，其特征在于，包括：

拾取会议音频数据；

采集第一图像；所述第一图像的视角覆盖会场；

2.根据权利要求1所述的会议视频处理方法，其特征在于，对所述第一图像进行人脸位置检测，确定主讲人的第二位置信息，包括：

利用人脸位置检测算法，检测所述第一图像中主讲人的人脸检测框位置，确定人脸检测框的尺寸；

确定所述人脸检测框位置在物平面上的位置坐标；

基于所述人脸检测框的尺寸，确定人脸检测框与第一图像采集装置之间的距离；

整合所述人脸检测框位置在物平面上的位置坐标和所述物平面与第一图像采集装置之间的距离，得到主讲人的第二位置信息。

3.根据权利要求2所述的会议视频处理方法，其特征在于，拾取会议音频数据，包括：

利用麦克风阵列拾取会议音频的多麦信号；

根据所述会议音频数据进行声源定位，确定主讲人的第一位置信息，包括：

利用声源定位算法，对所述多麦信号进行计算，确定声源在所述物平面上的方位，得到主讲人的第一位置信息。

4.根据权利要求3所述的会议视频处理方法，其特征在于，拟合所述第一位置信息和所述第二位置信息，确定主讲人的三维坐标，包括：

根据所述第二位置信息中第二方向坐标和第三方向坐标，以及所述第一位置信息，得到主讲人的三维坐标的第二方向坐标和第三方向坐标；

将所述第二位置信息中第一方向坐标，确定为主讲人的三维坐标的第一方向坐标；

其中，第二方向垂直于所述第三方向，所述第二方向和所述第三方向构成的平面平行于所述物平面；

所述第一方向垂直于所述物平面。

5.根据权利要求1所述的会议视频处理方法，其特征在于，对所述第一图像进行人脸位置检测，确定主讲人的第二位置信息，包括：

利用人脸位置检测算法，检测所述第一图像中主讲人的人脸检测框位置；

确定所述人脸检测框位置在物平面上的位置坐标，得到主讲人的第二位置信息。

6.根据权利要求5所述的会议视频处理方法，其特征在于，拾取会议音频数据，包括：

利用麦克风阵列拾取会议音频的多麦信号；

利用声源定位算法，对所述多麦信号进行计算，确定声源的三维坐标，得到主讲人的第一位置信息。

7.根据权利要求6所述的会议视频处理方法，其特征在于，所述第一位置信息，包括声源的三维坐标的第一方向坐标时，

拟合所述第一位置信息和所述第二位置信息，确定主讲人的三维坐标，包括：

将声源的三维坐标的第一方向坐标，确定为主讲人的三维坐标的第一方向坐标；

根据所述第二位置信息，得到主讲人的三维坐标的第二方向坐标和第三方向坐标；

其中，所述第二方向垂直于所述第三方向，所述第二方向和所述第三方向构成的平面平行于所述物平面；

所述第一方向垂直于所述物平面。

8.根据权利要求6所述的会议视频处理方法，其特征在于，所述第一位置信息，包括声源的三维坐标的第一方向坐标、第二方向坐标和第三方向坐标时，

根据所述第二位置信息、声源的三维坐标的第二方向坐标和第三方向坐标，得到主讲人的三维坐标的第二方向坐标和第三方向坐标；

所述第一方向垂直于所述物平面。

9.根据权利要求1所述的会议视频处理方法，其特征在于，根据所述三维坐标，采集以主讲人为视角中心的第二图像，包括：

根据所述三维坐标，调整图像采集参数，以采集主讲人位于图像中心的所述第二图像。

10.一种会议视频处理系统，其特征在于，包括：

所述音频采集阵列，用于拾取会议音频数据；

11.根据权利要求10所述的会议视频处理系统，其特征在于，所述处理器，包括：

音频处理模块，用于根据所述会议音频数据进行声源定位，确定主讲人的第一位置信息；

图像处理模块，用于对所述第一图像进行人脸位置检测，确定主讲人的第二位置信息；

定位模块，用于拟合所述第一位置信息和所述第二位置信息，确定主讲人的三维坐标；

控制模块，用于根据主讲人的三维坐标，确定第一控制信号发送给所述驱动模组；确定第二控制信号发送给所述第二摄像头。

12.根据权利要求11所述的会议视频处理系统，其特征在于，所述驱动模组，用于根据所述第一控制信号，驱动所述第二摄像头调整视场。

13.根据权利要求11所述的会议视频处理系统，其特征在于，所述第二摄像头，用于根据所述第二控制信号，调整焦距，以对焦至所述主讲人。

14.根据权利要求11所述的会议视频处理系统，其特征在于，所述图像处理模块用于：

确定所述人脸检测框位置在物平面上的位置坐标；

基于所述人脸检测框的尺寸，确定人脸检测框与所述第一摄像头之间的距离；

整合所述人脸检测框位置在物平面上的位置坐标和所述物平面与所述第一摄像头之间的距离，得到主讲人的第二位置信息。

15.根据权利要求14所述的会议视频处理系统，其特征在于，所述音频处理模块用于：

利用声源定位算法，对多麦信号进行计算，确定声源在所述物平面上的方位，得到主讲人的第一位置信息。

16.根据权利要求11所述的会议视频处理系统，其特征在于，所述图像处理模块用于：

17.根据权利要求16所述的会议视频处理系统，其特征在于，所述音频处理模块用于：

18.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一所述方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，响应于所述计算机程序被处理器执行，实施了权利要求1至9任一所述的会议视频处理方法的操作。

20.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现：权利要求1至9任一所述的会议视频处理方法。