CN116761004A

CN116761004A - 一种基于固定轨道摄像设备的实时直播方法，系统，设备和介质

Info

Publication number: CN116761004A
Application number: CN202310531363.7A
Authority: CN
Inventors: 綦琳
Original assignee: Beijing Chexun Internet Co ltd
Current assignee: Beijing Chexun Internet Co ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-09-15
Anticipated expiration: 2043-05-12
Also published as: CN116761004B

Abstract

一种基于固定轨道摄像设备的实时直播方法，系统，设备和介质，包括摄像机基于固定轨道的动力学模型、人物动作捕捉算法模型和实时通信模型。针对现有商业直播中主播的活动受限，手动调节媒体设备费时费力和摄像形式单一等问题，基于机械动力学模型，视觉传感器和人物动作捕捉算法模型相结合，实现可控制的实时直播方法。

Description

一种基于固定轨道摄像设备的实时直播方法，系统，设备和介质

技术领域

本发明涉及商业直播领域，具体地说，涉及一种基于固定轨道摄像设备的实时直播方法，系统，设备和介质。

背景技术

直播行业已经被社会大范围接受并逐渐走进许多人的日常生活里。通过直播，库存方可以用最短的时间把库存货给销售出去，购买的用户也享受到了物美价廉的商品。但在现有商业直播过程中，主播的活动受限，手动调节媒体设备费时费力且摄像形式单一。固定轨道摄像设备具有拍摄稳定、定位精准等优点，因此在直播领域具有重要的研究和应用价值。人工智能技术的飞速发展，对直播过程中实现自动定位及人物捕捉的要求越来越高。为解决这一问题，本发明提出了一种基于固定轨道摄像设备的实时直播方法，通过机械动力学模型，视觉传感器和人物动作捕捉算法模型相结合，实现可控制的实时直播方法。使用基于改进ICP算法的人体运动训练动作捕捉模型实现动作捕捉，利用改进ICP算法获取人体运动训练动作连特征点作为匹配基础，组建人体运动训练动作模型，完成捕捉过程。通过动作捕捉模型，使得设备可以自动识别人物目标、根据目标状态自动调整设备位置，形成一套可持续、有效的技术方案，设计、实施了本方法，其应用层面广，经济成本低，可以推广至社会应用，带来良好的社会和经济效益。

发明内容

本发明的目的在于提供一种基于固定轨道摄像设备的实时直播方法，系统，设备和介质，以解决上述背景技术中提出的问题。

为实现上述目的，提供了一种基于固定轨道摄像设备的实时直播方法，系统，设备和介质，包括摄像机基于固定轨道的动力学模型、人物动作捕捉算法模型和实时通信模型。

S1. 度量直播室空间几何参数，铺设符合直播效益的固定轨道，明确轨道参数；

S2. 引入机械臂通用模型作为控制直播摄像设备的机械基础，并构建可以适应空间六自由度的机械动力学模型；

S3. 将主播常用于直播过程的常规性动作进行采集，构建系统数据库，并基于此数据库训练基于摄像设备响应的人员动作捕捉模型；

S4. 将训练好的模型部署至连接云服务的摄像设备的控制芯片中，基于本地计算机进行实时的数据处理，以实时的主播动作为输入数据，输出直播间有益于收益的效果。

S5. 将固定轨道摄像系统作为外接硬件连接至直播室用于直播的计算机系统，将视频流接入公共网络通道内，与直播平台所提供的API相连接，实现实时直播。

针对现有商业直播中主播的活动受限，手动调节媒体设备费时费力和摄像形式单一等问题，基于机械动力学模型，视觉传感器和人物动作捕捉算法模型相结合，实现可控制的实时直播方法。

进一步的，所述S1中直播室空间几何参数和轨道参数是针对基于任何应用本系统的直播室和所需轨道轨迹的几何参数的集合；

进一步的，所述S2中适应直播所涉及空间维度是三维空间中六个自由度的空间捕捉机制；

进一步的，所述S2中机械动力学模型详细过程如下：对于本发明中涉及空间维度是三维空间中六个自由度的空间捕捉机制，六自由度的机器臂系统的动力学模型可以写出如下的拉格朗日形式： />，/>, />∈ />表示系统相对的位置、速度和加速度;/>表示对称正定惯性矩阵; />表示向心力和科里奥利力矩阵； />为引力矩阵；/>是/>的雅可比矩阵，/>矩阵表示扰动比；/>表示输入力矩。设机械臂位置/>，/> 代表机械臂的位置坐标，系统需要追踪的设定轨迹和加速度定义为：代表轨迹矩阵，/>代表加速度矩阵，/>代表各个位置上的坐标，/>代表各个位置上的加速度，在进行控制设计之前，对系统作出如下定义：e=， />]=/>, e、z代表位置差组成的矩阵，对于一个n关节的机器臂，考虑一个BLF候选方程/>如下：/> 求导可得：设计一个实际的加速度控制器为：/> 其中，/>是一个对角矩阵，其对角的元素均>0。带入/>可得：/> 接着考虑BLF方程/>：对/>求导，可得：/>+/>为了进一步求解，对z求导得：/>=/>将其带入/>整理得：/>+/>设计控制输入： /> /> 其中，/>是一个对角矩阵，其对角的元素均>0；/>是总输入，/>是神经网络的拟合输出；/>是一个符号函数，当/>,/>,根据芭芭拉特引理，系统具有渐进稳定性。当/>,可以得到如下的/>：

]自适应律给出如下：/> /> /> /> 其中，CMAC神经网络的权重，ζ是CMAC的中心点，Δ是CMAC神经网络的带宽，/>是修订后的自适应率，Q_1i，Q₂，Q₃，Q₄都是正常数，Z=[e^T，z^T，α^T，/>]是神经网络的输入，是小于Q_1i，Q₂，Q₃，Q₄的正常数。神经网络的实际输出/>(Z，/>，/>)；用来拟合理想值,/>)。神经网络的理想值即为最接近实际系统的拟合值，理想值与实际值的误差为：/>,/>= /> Z，ζ*，Δ*/>Z，/>，/>令/>=-/>(Z，/>，/>)表示神经网络的输出，而整个控制输出如下：/>(Z，/>，/>)。

进一步的，所述S3中系统数据库是用非关系型数据库，主要是MongoDB数据库，其中包含将视频流和图像矩阵化的数据信息；

进一步的，所述S3中人员动作捕捉是基于动作捕捉算法实现的，详细过程如下：本发明使用基于改进ICP算法的人体运动训练动作捕捉模型设计，ICP算法主要通过最小二乘方法的优化方法进行计算，其中最小化函数能够表示为：其中，/>代表初始数据对应的点集；/>代表目标数据点中距离/>的最近点；R代表一个规格为3×3的旋转矩阵；T代表平移矢量。由于/>代表的是源点集经过旋转以及平移操作后，各个节点和目标点集中对应的距离平方和。当/>的取值达到最小时，能够满足最小二乘的要求。使用改进的IK算法，基于机械臂关节和臂身构成运动链，根据已知的末端子关节的位置信息，反求其父关节的旋转角，通过子机械臂的变换推导父机械臂由此产生的变换。

设定点云为P和Q，通过k-Dtree的空间搜索算法获取Q和欧式距离最近的三个点，设定三个点分别为/>、/>和/>，假设/>和/>的距离超过阈值T_h=m×d，通过上述的去噪操作，点云间的对应点对仍然可能存在噪声，由于点云的对应点集并不在相同的坐标下中，所以需要确保拓扑关系一致。设定点/>=（/>），利用其对应的邻近点集获取点/>的近似切平面，进一步求解/>的近似法向量，具体的计算式如下：/> 以下通过最小二乘方法，获取以下的矩阵C：/> 过上述操作的过程中，使用欧式距离阈值剔除过大距离后的两个对应点集；

通过计算获取欧式距离的判定依据后，能够得到两对对应点集P'和Q'，根据邻域协方差分析法计算不同对应点对的法向量和/>。将全部的对应点进行法向量处理，同时计算获取不同法向量的余弦值，假设余弦值明显小于设定的阈值，则需要将这一点对删除;反之，则保留。

进一步的，所述S3中动作捕捉主要是使用SVM分类方法。在训练视频数据的过程中，统计全部描述子搭建训练模型，并且将描述子对应的特征向量组合在一起，形成特征向量集合，使用K-Meana方法进行聚类，得到对应的聚类中心集合，以此为依据，组建视觉词典。将不同的训练视频量化为视觉单词频率直方图，即针对连续帧进行训练，分别计算不同描述子特征向量和对应词典中各个单词的距离，构建频率直方图，将其进行连接，构建直方图形式。将不同训练视频的直方图向量输入到支持向量机中，进而实现分类器的训练，得到训练好的分类器。在视频中直接检测特征点可以有效避免运动分割，同时也十分容易实现，并且在噪声以及复杂场景下仍然具有良好的表现。

进一步的，所述S4中实时的主播动作为输入数据，主播动作体现于不同类型主播展示不同内容时所需的动作指令，这些动作与训练集中的动作相应一致；

进一步的，所述S4中输出直播间有益于收益的效果，体现在观看直播者的平台界面的静态和动态响应的效果，包括文字，视频，指令和链接中的一种或多种组合的展示；

进一步的，所述S5中公共网络通道指的是所属直播平台所应用的网络环境，主要应用于局域无线网；

进一步的，所述S5中与直播平台所提供的API相连接，特别地指明是将动作捕捉算法的识别结果调用直播平台的API，确保适用性。

本发明有益效果：本发明提供了一种基于固定轨道摄像设备的实时直播方法，通过机械动力学模型，视觉传感器和人物动作捕捉算法模型相结合，引入机械臂通用模型作为控制直播摄像设备的机械基础，并构建可以适应直播所涉及空间维度的机械动力学模型，并将主播常用于直播过程的常规性动作进行采集，构建系统数据库，并基于此数据库训练基于摄像设备响应的人员动作捕捉模型，将训练好的模型部署至连接云服务的摄像设备的控制芯片中，基于本地计算机进行实时的数据处理，以实时的主播动作为输入数据，输出直播间有益于收益的效果，实现可控制的实时直播方法，将固定轨道摄像系统作为外接硬件连接至直播室用于直播的计算机系统，将视频流接入公共网络通道内，与直播平台所提供的API相连接，实现实时直播。使用基于改进ICP算法的人体运动训练动作捕捉模型实现动作捕捉，利用改进ICP算法获取人体运动训练动作连特征点作为匹配基础，组建人体运动训练动作模型，完成捕捉过程。通过动作捕捉模型，使得设备可以自动识别人物目标、根据目标状态自动调整设备位置。使用SVM分类方法。在训练视频数据的过程中，统计全部描述子搭建训练模型，并且将描述子对应的特征向量组合在一起，形成特征向量集合，使用K-Meana方法进行聚类，得到对应的聚类中心集合，以此为依据，组建视觉词典。使得设备可以自动识别人物目标、根据目标状态自动调整设备位置，形成一套可持续、有效的技术方案，设计、实施了本方法，其应用层面广，经济成本低，可以推广至社会应用，带来良好的社会和经济效益。

附图说明

利用附图对发明创造作进一步说明，但附图中的实施例不构成对本发明创造的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明结构示意图。

具体实施方式

结合以下实例对本发明作进一步描述。

参见图1，本发明旨在提供一种基于固定轨道摄像设备的实时直播方法，系统，设备和介质，以解决上述背景技术中提出的问题。

S1. 度量直播室空间几何参数，主要是基于任何应用本系统的直播室和所需轨道轨迹的几何参数的集合，铺设符合直播效益的固定轨道，明确轨道参数；

S2. 引入机械臂通用模型作为控制直播摄像设备的机械基础，并构建可以适应三维空间中六个自由度的空间捕捉机制的机械动力学模型： />，/>, />∈ />表示系统相对的位置、速度和加速度;/>表示对称正定惯性矩阵; />表示向心力和科里奥利力矩阵； />为引力矩阵；/>是/>的雅可比矩阵，/>矩阵表示扰动比；/>表示输入力矩。设机械臂位置，/> />代表机械臂的位置坐标，系统需要追踪的设定轨迹和加速度定义为：代表轨迹矩阵，/>代表加速度矩阵，/>代表各个位置上的坐标，/>代表各个位置上的加速度，在进行控制设计之前，对系统作出如下定义：e=， />]=/>, e、z代表位置差组成的矩阵，对于一个n关节的机器臂，考虑一个BLF候选方程/>如下：/> 求导可得：设计一个实际的加速度控制器为：/> 其中，/>是一个对角矩阵，其对角的元素均>0。带入/>可得：/> 接着考虑BLF方程/>：对/>求导，可得：/>+/>为了进一步求解，对z求导得：/>=/>将其带入/>整理得：/>+/>设计控制输入：/> /> 其中，/>是一个对角矩阵，其对角的元素均>0；/>是总输入，是神经网络的拟合输出；/>是一个符号函数，/> 当,/>,根据芭芭拉特引理，系统的渐进稳定性仍然可以获得。当,可以得到如下的/>：

]自适应律给出如下：/> /> /> /> 其中，CMAC神经网络的权重，ζ是CMAC的中心点，Δ是CMAC神经网络的带宽，/>是修订后的自适应率，Q_1i，Q₂，Q₃，Q₄都是正常数，Z=[e^T，z^T，α^T，/>]是神经网络的输入，是小于Q_1i，Q₂，Q₃，Q₄的正常数。神经网络的实际输出/>(Z，/>，/>)用来拟合理想值,/>)。神经网络的理想值即为最接近实际系统的拟合值，理想值与实际值的误差为：/>,/>= /> Z，ζ*，Δ*/>Z，/>，/>令/>=-/>(Z，/>，/>)表示神经网络的输出，而整个控制输出如下：/>(Z，/>，/>)

S3. 将主播常用于直播过程的常规性动作进行采集，采用MongoDB数据库构建系统数据库，其中包含将视频流和图像矩阵化的数据信息，并基于此数据库训练基于摄像设备响应的人员动作捕捉模型：本发明使用基于改进ICP算法的人体运动训练动作捕捉模型设计，ICP算法主要通过最小二乘方法的优化方法进行计算，其中最小化函数能够表示为：其中，/>代表初始数据对应的点集；/>代表目标数据点中距离/>的最近点；R代表一个规格为3×3的旋转矩阵；T代表平移矢量。由于/>代表的是源点集经过旋转以及平移操作后，各个节点和目标点集中对应的距离平方和。当/>的取值达到最小时，能够满足最小二乘的要求。使用改进的IK算法，基于机械臂关节和臂身构成运动链，根据已知的末端子关节的位置信息，反求其父关节的旋转角，通过子机械臂的变换推导父机械臂由此产生的变换。本发明基于关键节点信息，通过 IK 算法解算出动作捕捉对象的全身姿态信息。例如，先基于头部节点和胸部节点位置解算得到双肩节点和骨盆节点位置，再通过手部节点和双肩节点位置，计算出小臂和大臂节点位置。

设定点云为P和Q，通过k-Dtree的空间搜索算法获取Q和欧式距离最近的三个点，设定三个点分别为/>、/>和/>。假设/>和/>的距离超过阈值T_h=m×d，通过上述的去噪操作，点云间的对应点对仍然可能存在噪声，由于点云的对应点集并不在相同的坐标下中，所以需要确保拓扑关系一致。设定点/>=（/>），利用其对应的邻近点集获取点/>的近似切平面，进一步求解/>的近似法向量，具体的计算式如下：/>

以下通过最小二乘方法，获取以下的矩阵C：

过上述操作的过程中，可以使用欧式距离阈值剔除过大距离后的两个对应点集。

通过计算获取欧式距离的判定依据后，能够得到两对对应点集P'和Q'，根据邻域协方差分析法计算不同对应点对的法向量和/>。将全部的对应点进行法向量处理，同时计算获取不同法向量的余弦值，假设余弦值明显小于设定的阈值，则需要将这一点对删除;反之，则保留；

动作捕捉主要是使用SVM分类方法。在训练视频数据的过程中，统计全部描述子搭建训练模型，并且将描述子对应的特征向量组合在一起，形成特征向量集合，使用K-Meana方法进行聚类，得到对应的聚类中心集合，以此为依据，组建视觉词典。将不同的训练视频量化为视觉单词频率直方图，即针对连续帧进行训练，分别计算不同描述子特征向量和对应词典中各个单词的距离，构建频率直方图，将其进行连接，构建直方图形式。将不同训练视频的直方图向量输入到支持向量机中，进而实现分类器的训练，得到训练好的分类器。在视频中直接检测特征点可以有效避免运动分割，同时也十分容易实现，并且在噪声以及复杂场景下仍然具有良好的表现。

S4. 将训练好的模型部署至连接云服务的摄像设备的控制芯片中，基于本地计算机进行实时的数据处理，以实时的主播动作为输入数据，输出直播间有益于收益的效果，包括在观看直播者的平台界面的静态和动态响应的效果，包括文字，视频，指令和链接中的一种或多种组合的展示；

本发明还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，该指令由处理器加载并执行，以实现上述方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

本发明实施方式是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于固定轨道摄像设备的实时直播系统，其特征在于，包括摄像机基于固定轨道的动力学模型、人物动作捕捉算法模型和实时通信模型；其具体工作步骤如下：

S2. 引入机械臂通用模型作为控制直播摄像设备的机械基础，并构建适应直播所涉及空间维度的机械动力学模型；

S4. 将训练好的模型部署至连接云服务的摄像设备的控制芯片中，基于本地计算机进行实时的数据处理，以实时的主播动作为输入数据，输出直播间有益于收益的效果；

S5. 将固定轨道摄像系统作为外接硬件连接至直播室用于直播的计算机系统，将视频流接入公共网络通道内，与直播平台所提供的API相连接，实现实时直播；

2.根据权利要求1所述一种基于固定轨道摄像设备的实时直播系统，其特征在于，所述S1中直播室空间几何参数和轨道参数是针对基于任何应用本系统的直播室和所需轨道轨迹的几何参数的集合。

3.根据权利要求1所述基于固定轨道摄像设备的实时直播系统，其特征在于，所述S2中适应直播所涉及空间维度是三维空间中六个自由度的空间捕捉机制。

4.根据权利要求1所述一种基于固定轨道摄像设备的实时直播系统，其特征在于，所述S2中机械动力学模型详细过程如下：

对于涉及空间维度是三维空间中六个自由度的空间捕捉机制，六自由度的机器臂系统的动力学模型构造如下的拉格朗日形式：

，/>, />表示系统相对的位置、速度和加速度；/>表示对称正定惯性矩阵; />表示向心力和科里奥利力矩阵； />为引力矩阵；/>是/>的雅可比矩阵，/>矩阵表示扰动比；/>表示输入力矩，设机械臂位置/>，代表机械臂的位置坐标，x1=q，x2=q/>则x1/>=x2，系统需要追踪的设定轨迹和加速度定义为：代表轨迹矩阵，/>代表加速度矩阵，/>代表各个位置上的坐标，/>代表各个位置上的加速度，在进行控制设计之前，对系统作出如下定义：e=， />]=/>，e、z代表位置差组成的矩阵，对于一个n关节的机器臂，考虑BLF候选方程/>如下：/> 求导可得：设计实际的加速度控制器为：/> 其中，/>是对角矩阵，其对角的元素均>0，带入/>得：/> 接着考虑BLF方程/>：对/>求导，则：/>+设计控制输入：其中，/>是对角矩阵，其对角的元素均>0；/>是总输入，/>是神经网络的拟合输出；/>是符号函数，当/>,/>,根据芭芭拉特引理，系统具有渐进稳定性；当/>，得到如下的/>：

]自适应律给出如下：/> 其中，CMAC神经网络的权重，ζ是CMAC的中心点，Δ是CMAC神经网络的带宽，/>是修订后的自适应率，Q_1i，Q₂，Q₃，Q₄都是正常数，Z=[e^T，z^T，α^T，/>]是神经网络的输入，是小于Q_1i，Q₂，Q₃，Q₄的正常数，神经网络的实际输出/>(Z，/>，/>)；用来拟合理想值,/>，神经网络的理想值即为最接近实际系统的拟合值，理想值与实际值的误差为：/>,/>= /> Z，ζ*，Δ*/>Z，/>，/>令/>=-/>(Z，/>，/>)表示神经网络的输出，整个控制输出如下：/>(Z，/>，/>)。

5.根据权利要求1所述一种基于固定轨道摄像设备的实时直播系统，其特征在于，所述S3中系统数据库是用非关系型数据库，包括MongoDB数据库，其中包含将视频流和图像矩阵化的数据信息。

6.根据权利要求1所述一种基于固定轨道摄像设备的实时直播系统，其特征在于，所述S3中人员动作捕捉是基于动作捕捉算法实现的，详细过程如下：使用基于改进ICP算法的人体运动训练动作捕捉模型设计，ICP算法通过最小二乘方法的优化方法进行计算，其中最小化函数能够表示为：其中，/>代表初始数据对应的点集；代表目标数据点中距离/>的最近点；R代表一个规格为3×3的旋转矩阵；T代表平移矢量，使用改进的IK算法，基于机械臂关节和臂身构成运动链，根据已知的末端子关节的位置信息，反求其父关节的旋转角，通过子机械臂的变换推导父机械臂由此产生的变换,通过IK 算法解算出动作捕捉对象的全身姿态信息。

7.根据权利要求1所述一种基于固定轨道摄像设备的实时直播系统，其特征在于，所述S3中动作捕捉使用SVM分类方法；在训练视频数据的过程中，统计全部描述子搭建训练模型，并且将描述子对应的特征向量组合在一起，形成特征向量集合，使用K-Meana方法进行聚类，得到对应的聚类中心集合，以此为依据，组建视觉词典；将不同的训练视频量化为视觉单词频率直方图，即针对连续帧进行训练，分别计算不同描述子特征向量和对应词典中各个单词的距离，构建频率直方图，将其进行连接，构建直方图形式；将不同训练视频的直方图向量输入到支持向量机中，进而实现分类器的训练，得到训练好的分类器，在视频中直接检测特征点可以有效避免运动分割。

8.根据权利要求1所述一种基于固定轨道摄像设备的实时直播系统，其特征在于，所述S4中输出直播间有益于收益的效果，体现在观看直播者的平台界面的静态和动态响应的效果，包括文字，视频，指令和链接中的一种或多种组合的展示。

9.根据权利要求1所述一种基于固定轨道摄像设备的实时直播系统，其特征在于，所述S5中公共网络通道指的是所属直播平台所应用的网络环境，应用于局域无线网。

10.根据权利要求1所述一种基于固定轨道摄像设备的实时直播系统，其特征在于，所述S5中与直播平台所提供的API相连接。