CN116684647B

CN116684647B - 视频实时传输场景下的设备控制方法、系统及设备

Info

Publication number: CN116684647B
Application number: CN202310767346.3A
Authority: CN
Inventors: 张明艳
Original assignee: Shanghai Baojiu Digital Technology Co ltd
Current assignee: Shanghai Baojiu Digital Technology Co ltd
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2024-01-26
Anticipated expiration: 2043-06-27
Also published as: CN116684647A

Abstract

本申请提供一种视频实时传输场景下的设备控制方法、系统及设备。该方法通过摄像头序列中的第一摄像头获取目标区域的第一图像，若根据第一图像以及预设手势识别模型确定第一图像中存在目标手势元素，则通过摄像头序列中的第二摄像头获取目标区域的第二图像，并且，将用于进行视频实时传输的图像切换为至少包括第二图像，此外，在预设时长内，第一摄像头持续获取目标区域的第一图像，若根据第一图像以及预设手势识别模型确定第一图像在预设时长内未存在目标手势元素，则将第一图像切换为用于进行视频实时传输的图像，从而实现在视频实时传输场景下，可以响应于手势来进行摄像头的自动切换。

Description

视频实时传输场景下的设备控制方法、系统及设备

技术领域

本申请涉及数据处理技术，尤其涉及一种视频实时传输场景下的设备控制方法、系统及设备。

背景技术

网络直播是指通过互联网将现场视频、音频和数据内容传输到观众，实现实时在线播放的一种互动式媒体形式。随着互联网技术的发展和普及，网络直播已成为新兴的娱乐和传媒形式。

在现有的直播过程中，通常是由导播配合主播进行协同直播，导播在主播的指示下对展示的视角进行切换，从而对直播过程中所展示的对象具有更佳的展示效果。

而在仅只有主播的场景下，往往就会因为无人对直播设备进行对应控制，而导致直播的展示视角单一的问题。

发明内容

本申请提供一种高延时网络状态下的直播信息展示方法、系统及电子设备，用以解决单人直播时因为无人对直播设备进行对应控制，而导致直播的展示视角单一的问题。

第一方面，本申请提供一种视频实时传输场景下的设备控制方法，应用于视频实时传输场景下的设备控制系统，所述系统包括控制器以及与所述控制器连接的设备序列，所述设备序列包括摄像头序列，所述摄像头序列包括多个摄像头，其中，所述摄像头序列中的不同摄像头用于获取目标区域不同拍摄角度的图像，所述方法，包括：

通过所述摄像头序列中的第一摄像头获取所述目标区域的第一图像，所述第一图像为所述目标区域在第一拍摄角度下所拍摄的图像，所述第一图像为当前用于进行视频实时传输的图像；

若根据所述第一图像以及预设手势识别模型确定所述第一图像中存在目标手势元素，则通过所述摄像头序列中的第二摄像头获取所述目标区域的第二图像；

将用于进行视频实时传输的图像切换为至少包括所述第二图像；

在预设时长内，所述第一摄像头持续获取所述目标区域的所述第一图像，若根据所述第一图像以及所述预设手势识别模型确定所述第一图像在所述预设时长内未存在所述目标手势元素，则将所述第一图像切换为用于进行视频实时传输的图像。

在一种可能的设计中，若所述目标手势元素为第一切换手势元素，则所述第二摄像头为所述摄像头序列中排序位于所述第一摄像头的上一个摄像头；若所述目标手势元素为第二切换手势元素，则所述第二摄像头为所述摄像头序列中排序位于所述第一摄像头的下一个摄像头；或者，若所述目标手势元素为指示手势元素，则所述第二摄像头为所述摄像头序列中与所述指示手势元素映射对应的摄像头；

对应的，所述将用于进行视频实时传输的图像切换为至少包括所述第二图像，包括：

将用于进行视频实时传输的图像切换为所述第二图像；或者，

若所述目标手势元素为模式手势元素，则所述第二摄像头为所述摄像头序列中除所述第一摄像头外的至少一个摄像头；

将用于进行视频实时传输的图像切换为所述第一图像与所述第二图像进行图像融合处理后的融合图像。

在一种可能的设计中，在所述将用于进行视频实时传输的图像切换为所述第一图像与所述第二图像进行图像融合处理后的融合图像之前，还包括：

对所述第一图像与所述第二图像进行预处理，以生成第一调整图像与第二调整图像；

通过预设SURF算法从所述第一调整图像与所述第二调整图像中提取特征点对集合；

根据所述特征点对集合对所述第一调整图像与所述第二调整图像进行拼接，以形成所述融合图像。

在一种可能的设计中，所述对所述第一图像与所述第二图像进行预处理，以生成第一调整图像与第二调整图像，包括：

将待处理图像划分为M*N个图形区块，以形成图形区块矩阵P，所述待处理图像包括所述第一图像与所述第二图像，所述图形区块矩阵P为：

，

根据所述图形区块矩阵P生成待校正图形区块集合J，所述待校正图形区块集合J为：

，

其中，；

根据预设变形校正模型对所述待校正图形区块集合J中的各个图形区块进行变形校正处理，以生成校正后图形区块集合；

根据所述校正后图形区块集合以及所述图形区块矩阵P生成调整图像，所述调整图像包括所述第一调整图像与所述第二调整图像，其中，所述校正后图形区块集合中的各个校正后图形区块用于替换所述待校正图形区块集合中对应的图形区块。

在一种可能的设计中，所述根据所述预设变形校正模型对所述待校正图形区块集合J中的各个图形区块进行变形校正处理，以生成校正后图形区块集合，包括：

根据公式1以及所述待校正图形区块集合J中的任一待校正图形区块确定所述待校正图形区块对应的校正后图形区块,所述公式1为：

，

其中，为所述校正后图形区块中横坐标为i，纵坐标为j的像素点的坐标；为所述待校正图形区块中横坐标为i，纵坐标为j的像素点的坐标；为所述待校正图形区块的中心像素点的坐标；为用于拍摄所述待处理图像的目标摄像头的当前焦距，为所述目标摄像头的最小焦距，为所述目标摄像头的最大焦距；为所述待校正图形区块中横坐标为i，纵坐标为j的像素点与中心像素点之间的欧氏距离；为第一变形系数，的取值大小与所述待处理图像的长宽比成正比；为第二变形系数，的取值大小与所述待处理图像的面积成正比；

根据各个待校正图形区块确定对应的校正后图形区块，以生成所述校正后图形区块集合。

在一种可能的设计中，所述设备序列还包括麦克风序列以及显示器，所述麦克风序列包括多个麦克风，其中，所述麦克风序列中的不同麦克风对应不同的声音处理效果；所述方法，还包括：

通过所述麦克风序列中的第一麦克风获取第一音频；

对所述第一音频进行语音识别，以获得文字识别信息；

若所述文字识别信息中存在预设敏感词汇列表中的目标词汇时，将用于进行视频实时传输的音频切换为第二麦克风所获取的第二音频，并在所述显示器中显示所述目标词汇，其中，所述第二麦克风所对应的声音处理效果为变声效果或消声效果；

在预设等待时长后，将所述第一音频切换为用于进行视频实时传输的音频，其中，所述预设等待时长大于当前网络延迟时长。

在一种可能的设计中，在对所述第一音频进行语音识别，以获得文字识别信息之后，还包括：

若所述文字识别信息中存在目标指令元素，则所述第二麦克风为所述麦克风序列中与所述目标指令元素映射对应的麦克风；

在所述显示器上显示所述第二麦克风对应的声音处理效果；

当通过根据所述第一图像以及预设手势识别模型确定所述第一图像中存在确认手势元素后，将所述用于进行视频实时传输的音频切换为所述第二麦克风所获取的所述第二音频。

第二方面，本申请提供一种视频实时传输场景下的设备控制系统，包括：控制器以及与所述控制器连接的设备序列，所述设备序列包括摄像头序列，所述摄像头序列包括多个摄像头，其中，所述摄像头序列中的不同摄像头用于获取目标区域不同拍摄角度的图像；

若所述控制器根据所述第一图像以及预设手势识别模型确定所述第一图像中存在目标手势元素，则通过所述摄像头序列中的第二摄像头获取所述目标区域的第二图像；

通过所述控制器将用于进行视频实时传输的图像切换为至少包括所述第二图像；

在预设时长内，所述第一摄像头持续获取所述目标区域的所述第一图像，若根据所述第一图像以及所述预设手势识别模型确定所述第一图像在所述预设时长内未存在所述目标手势元素，则通过所述控制器将所述第一图像切换为用于进行视频实时传输的图像。

所述控制器，用于将用于进行视频实时传输的图像切换为所述第二图像；或者，

所述控制器，用于将用于进行视频实时传输的图像切换为所述第一图像与所述第二图像进行图像融合处理后的融合图像。

在一种可能的设计中，所述控制器，具体用于：

，

根据所述图形区块矩阵P生成待校正图形区块集合J，所述待校正图形区块集合为：

，

其中，；

在一种可能的设计中，所述控制器，具体用于：

，

通过所述麦克风序列中的第一麦克风获取第一音频；

对所述第一音频进行语音识别，以获得文字识别信息；

在一种可能的设计中，若所述文字识别信息中存在目标指令元素，则所述第二麦克风为所述麦克风序列中与所述目标指令元素映射对应的麦克风；

在所述显示器上显示所述第二麦克风对应的声音处理效果；

当通过根据所述第一图像以及预设手势识别模型确定所述第一图像中存在确认手势元素后，所述控制器，用于将所述用于进行视频实时传输的音频切换为所述第二麦克风所获取的所述第二音频。

第三方面，本申请提供一种电子设备，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中所述的任一种可能的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现第一方面中所述的任一种可能的方法。

本申请提供的一种视频实时传输场景下的设备控制方法、系统及设备，通过摄像头序列中的第一摄像头获取目标区域的第一图像，若根据第一图像以及预设手势识别模型确定第一图像中存在目标手势元素，则通过摄像头序列中的第二摄像头获取目标区域的第二图像，并且，将用于进行视频实时传输的图像切换为至少包括第二图像，此外，在预设时长内，第一摄像头持续获取目标区域的第一图像，若根据第一图像以及预设手势识别模型确定第一图像在预设时长内未存在目标手势元素，则将第一图像切换为用于进行视频实时传输的图像，从而实现在视频实时传输场景下，可以响应于手势来进行摄像头的自动切换。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例实施例示出的视频实时传输场景下的设备控制方法的流程示意图;

图2是本申请根据另一示例实施例示出的视频实时传输场景下的设备控制方法的流程示意图;

图3是本申请根据一示例实施例示出的视频实时传输场景下的设备控制系统的结构示意图；

图4是本申请根据一示例实施例示出的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是本申请根据一示例实施例示出的视频实时传输场景下的设备控制方法的流程示意图。如图1所示，本实施例提供的方法，包括：

S101、通过摄像头序列中的第一摄像头获取目标区域的第一图像。

本实施例提供的方法应用于视频实时传输场景下的设备控制系统，该系统包括控制器以及与控制器连接的设备序列，设备序列包括摄像头序列，摄像头序列包括多个摄像头，其中，摄像头序列中的不同摄像头用于获取目标区域不同拍摄角度的图像。

在本步骤中，可以是通过摄像头序列中的第一摄像头获取目标区域的第一图像，第一图像为目标区域在第一拍摄角度下所拍摄的图像，第一图像为当前用于进行视频实时传输的图像。

S102、通过摄像头序列中的第二摄像头获取目标区域的第二图像。

若根据第一图像以及预设手势识别模型确定第一图像中存在目标手势元素，则通过摄像头序列中的第二摄像头获取目标区域的第二图像。值得说明的，上述的预设手势识别模型可以是基于深度学习的卷积神经网络，将手势图像作为输入，通过多层卷积网络来学习特征并进行分类；也可以是基于深度学习的循环神经网络，将时间序列中的手势数据作为输入，通过循环神经网络来学习特征并进行分类；还可以是基于隐马尔可夫模型，将手势动作序列作为输入，使用隐马尔可夫模型来建模并分类；还可以是基于支持向量机，将手势特征作为输入，使用支持向量机来进行分类；还可以是基于人体姿态估计，通过捕捉人体姿态信息来分析手部动作；另外，还可以是基于传统图像处理和计算机视觉技术，通过手工设计的滤波器、边缘检测、轮廓提取等技术来提取手势特征并进行分类。

S103、将用于进行视频实时传输的图像切换为至少包括第二图像。

在通过摄像头序列中的第二摄像头获取目标区域的第二图像之后，将用于进行视频实时传输的图像切换为至少包括第二图像。

具体的，若目标手势元素为第一切换手势元素，则第二摄像头为摄像头序列中排序位于第一摄像头的上一个摄像头；若目标手势元素为第二切换手势元素，则第二摄像头为摄像头序列中排序位于第一摄像头的下一个摄像头；或者，若目标手势元素为指示手势元素，则第二摄像头为摄像头序列中与指示手势元素映射对应的摄像头；对应的，上述将用于进行视频实时传输的图像切换为至少包括第二图像，包括：

将用于进行视频实时传输的图像切换为第二图像。

或者，若目标手势元素为模式手势元素，则第二摄像头为摄像头序列中除第一摄像头外的至少一个摄像头；对应的，将用于进行视频实时传输的图像切换为至少包括第二图像，包括：将用于进行视频实时传输的图像切换为第一图像与第二图像进行图像融合处理后的融合图像。

又或者，若目标手势元素为缩放手势元素，则可以不进行摄像头的切换，而是直接调整第一摄像头的焦距从而实现放大。此外，还可以同样进行摄像头的切换，从而切换至第二摄像头，其中，第二摄像头的拍摄视角为第一摄像头的放大视角。

而在将用于进行视频实时传输的图像切换为第一图像与第二图像进行图像融合处理后的融合图像之前，还包括：对第一图像与第二图像进行预处理，以生成第一调整图像与第二调整图像；通过预设SURF算法从第一调整图像与第二调整图像中提取特征点对集合；根据特征点对集合对第一调整图像与第二调整图像进行拼接，以形成融合图像。其中，SURF算法的主要步骤包括：对原始图像进行尺度空间变换，生成一系列尺度不同的图像。在每个尺度的图像上使用Hessian矩阵来检测关键点。对检测到的关键点进行定位和精细化筛选，排除较差的关键点，并计算关键点的方向。在关键点的周围区域内计算局部特征向量，并使用主方向进行描述子的旋转不变性处理。对所有关键点的局部特征向量进行聚类和降维，生成用于图像匹配的描述子。此外，值得说明地，本实施例中所适用的预设SURF算法可以是现有技术中的任一基于SURF算法所建立的特征点提取算法。

此外，由于通过摄像头所获取的图像边缘容易发生畸变，会影响特征匹配结果，因此，需要对第一图像与第二图像进行预处理，以生成第一调整图像与第二调整图像。而对于上述预处理，可以包括：将待处理图像划分为M*N个图形区块，以形成图形区块矩阵P，待处理图像包括第一图像与第二图像，图形区块矩阵P为：

，

根据图形区块矩阵P生成待校正图形区块集合J，待校正图形区块集为：

，

其中，；

根据预设变形校正模型对待校正图形区块集合J中的各个图形区块进行变形校正处理，以生成校正后图形区块集合；

根据校正后图形区块集合以及图形区块矩阵P生成调整图像，调整图像包括第一调整图像与第二调整图像，其中，校正后图形区块集合中的各个校正后图形区块用于替换待校正图形区块集合中对应的图形区块。

具体的，对于上述根据预设变形校正模型对待校正图形区块集合J中的各个图形区块进行变形校正处理，以生成校正后图形区块集合，具体可以包括：

根据公式1以及待校正图形区块集合J中的任一待校正图形区块确定待校正图形区块对应的校正后图形区块,公式1为：

，

其中，为校正后图形区块中横坐标为i，纵坐标为j的像素点的坐标；为待校正图形区块中横坐标为i，纵坐标为j的像素点的坐标；为待校正图形区块的中心像素点的坐标；为用于拍摄待处理图像的目标摄像头的当前焦距，为目标摄像头的最小焦距，为目标摄像头的最大焦距；为待校正图形区块中横坐标为i，纵坐标为j的像素点与中心像素点之间的欧氏距离；为第一变形系数，的取值大小与待处理图像的长宽比成正比；为第二变形系数，的取值大小与待处理图像的面积成正比；

根据各个待校正图形区块确定对应的校正后图形区块，以生成校正后图形区块集合。

S104、将第一图像切换为用于进行视频实时传输的图像。

在预设时长内，第一摄像头持续获取目标区域的第一图像，若根据第一图像以及预设手势识别模型确定第一图像在预设时长内未存在目标手势元素，则将第一图像切换为用于进行视频实时传输的图像。

在本实施例中，通过摄像头序列中的第一摄像头获取目标区域的第一图像，若根据第一图像以及预设手势识别模型确定第一图像中存在目标手势元素，则通过摄像头序列中的第二摄像头获取目标区域的第二图像，并且，将用于进行视频实时传输的图像切换为至少包括第二图像，此外，在预设时长内，第一摄像头持续获取目标区域的第一图像，若根据第一图像以及预设手势识别模型确定第一图像在预设时长内未存在目标手势元素，则将第一图像切换为用于进行视频实时传输的图像，从而实现在视频实时传输场景下，可以响应于手势来进行摄像头的自动切换。

具体的，在直播场景中，通常是由导播来配合主播的指示进行摄像头的切换，从而实现对于展示角度的切换，而通过本实施例提供的方法，主播则可以通过手势来控制摄像头进行自动切换。尤其是对于只有主播单人进行直播的场景，能够大大提高直播中信息展示的多元化。

图2是本申请根据另一示例实施例示出的视频实时传输场景下的设备控制方法的流程示意图。如图2所示，本实施例提供的方法，包括：

S201、通过麦克风序列中的第一麦克风获取第一音频。

在图1所示实施例的基础上，本实施例中的设备序列还可以包括麦克风序列以及显示器，麦克风序列包括多个麦克风，其中，麦克风序列中的不同麦克风对应不同的声音处理效果。

S202、对第一音频进行语音识别，以获得文字识别信息。

若文字识别信息中存在目标指令元素，则第二麦克风为麦克风序列中与目标指令元素映射对应的麦克风，例如，当主播需要进行唱歌时，就可以进行语音指示，当文字识别信息中存在的目标指令元素为音乐麦克风或者变声麦克风时，则可以切换至对应的麦克风。

并且，还可以在显示器上显示第二麦克风对应的声音处理效果，当通过根据第一图像以及预设手势识别模型确定第一图像中存在确认手势元素后，即通过主播的手势进行确认后，将用于进行视频实时传输的音频切换为第二麦克风所获取的第二音频。

S203、将用于进行视频实时传输的音频切换为第二麦克风所获取的第二音频，并在显示器中显示目标词汇。

若文字识别信息中存在预设敏感词汇列表中的目标词汇时，将用于进行视频实时传输的音频切换为第二麦克风所获取的第二音频，并在显示器中显示目标词汇，其中，第二麦克风所对应的声音处理效果为变声效果或消声效果。

值得说明的，直播过程中，主播会因为说出敏感词汇，例如一些功效的词汇而导致不合规。现有技术中，往往是在检测出敏感词汇之后，通过声音处理的方法对主播的语音进行处理，例如将该部分的语音处理为“哔”，或者直接对该段语音进行消声处理后，再通过网络设备传输至服务端。但是，该处理过程需要消耗计算资源，容易导致直播的卡顿与延时，而在本步骤中，直接通过切换声音信号，切换至预设的静音麦克风，则可以减少语音处理时间，进而提高直播的实时性。

S204、在预设等待时长后，将第一音频切换为用于进行视频实时传输的音频。

在预设等待时长后，将所述第一音频切换为用于进行视频实时传输的音频，其中，预设等待时长大于当前网络延迟时长。

图3是本申请根据一示例实施例示出的视频实时传输场景下的设备控制系统的结构示意图。如图3所示，本实施例提供的系统300，包括：

控制器310以及与所述控制器310连接的设备序列，所述设备序列包括摄像头序列320，所述摄像头序列320包括多个摄像头，其中，所述摄像头序列320中的不同摄像头用于获取目标区域不同拍摄角度的图像；

通过所述摄像头序列320中的第一摄像头获取所述目标区域的第一图像，所述第一图像为所述目标区域在第一拍摄角度下所拍摄的图像，所述第一图像为当前用于进行视频实时传输的图像；

若所述控制器310根据所述第一图像以及预设手势识别模型确定所述第一图像中存在目标手势元素，则通过所述摄像头序列320中的第二摄像头获取所述目标区域的第二图像；

通过所述控制器310将用于进行视频实时传输的图像切换为至少包括所述第二图像；

在预设时长内，所述第一摄像头持续获取所述目标区域的所述第一图像，若根据所述第一图像以及所述预设手势识别模型确定所述第一图像在所述预设时长内未存在所述目标手势元素，则通过所述控制器310将所述第一图像切换为用于进行视频实时传输的图像。

在一种可能的设计中，若所述目标手势元素为第一切换手势元素，则所述第二摄像头为所述摄像头序列320中排序位于所述第一摄像头的上一个摄像头；若所述目标手势元素为第二切换手势元素，则所述第二摄像头为所述摄像头序列320中排序位于所述第一摄像头的下一个摄像头；或者，若所述目标手势元素为指示手势元素，则所述第二摄像头为所述摄像头序列320中与所述指示手势元素映射对应的摄像头；

所述控制器310，用于将用于进行视频实时传输的图像切换为所述第二图像；或者，

若所述目标手势元素为模式手势元素，则所述第二摄像头为所述摄像头序列320中除所述第一摄像头外的至少一个摄像头；

所述控制器310，用于将用于进行视频实时传输的图像切换为所述第一图像与所述第二图像进行图像融合处理后的融合图像。

在一种可能的设计中，所述控制器310，具体用于：

，

其中，；

在一种可能的设计中，所述控制器310，具体用于：

，

根据各个待校正图形区块确定对应的校正后图形区块，以生成所述校正后图形区块集合；

在一种可能的设计中，所述设备序列还包括麦克风序列330以及显示器，所述麦克风序列330包括多个麦克风，其中，所述麦克风序列330中的不同麦克风对应不同的声音处理效果；所述方法，还包括：

通过所述麦克风序列330中的第一麦克风获取第一音频；

对所述第一音频进行语音识别，以获得文字识别信息；

在一种可能的设计中，若所述文字识别信息中存在目标指令元素，则所述第二麦克风为所述麦克风序列330中与所述目标指令元素映射对应的麦克风；

在所述显示器上显示所述第二麦克风对应的声音处理效果；

当通过根据所述第一图像以及预设手势识别模型确定所述第一图像中存在确认手势元素后，所述控制器310，用于将所述用于进行视频实时传输的音频切换为所述第二麦克风所获取的所述第二音频。

图4是本申请根据一示例实施例示出的电子设备的结构示意图。如图4所示，本实施例提供的一种电子设备400包括：处理器401以及存储器402；其中：

存储器402，用于存储计算机程序，该存储器还可以是flash（闪存）。

处理器401，用于执行存储器存储的执行指令，以实现上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器402既可以是独立的，也可以跟处理器401集成在一起。

当所述存储器402是独立于处理器401之外的器件时，所述电子设备400还可以包括：

总线403，用于连接所述存储器402和处理器401。

本实施例还提供一种可读存储介质，可读存储介质中存储有计算机程序，当电子设备的至少一个处理器执行该计算机程序时，电子设备执行上述的各种实施方式提供的方法。

本实施例还提供一种程序产品，该程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种视频实时传输场景下的设备控制方法，其特征在于，应用于视频实时传输场景下的设备控制系统，所述系统包括控制器以及与所述控制器连接的设备序列，所述设备序列包括摄像头序列，所述摄像头序列包括多个摄像头，其中，所述摄像头序列中的不同摄像头用于获取目标区域不同拍摄角度的图像，所述方法，包括：

在预设时长内，所述第一摄像头持续获取所述目标区域的所述第一图像，若根据所述第一图像以及所述预设手势识别模型确定所述第一图像在所述预设时长内未存在所述目标手势元素，则将所述第一图像切换为用于进行视频实时传输的图像；

若所述目标手势元素为第一切换手势元素，则所述第二摄像头为所述摄像头序列中排序位于所述第一摄像头的上一个摄像头；若所述目标手势元素为第二切换手势元素，则所述第二摄像头为所述摄像头序列中排序位于所述第一摄像头的下一个摄像头；或者，若所述目标手势元素为指示手势元素，则所述第二摄像头为所述摄像头序列中与所述指示手势元素映射对应的摄像头；

将用于进行视频实时传输的图像切换为所述第一图像与所述第二图像进行图像融合处理后的融合图像；

在所述将用于进行视频实时传输的图像切换为所述第一图像与所述第二图像进行图像融合处理后的融合图像之前，还包括：

根据所述特征点对集合对所述第一调整图像与所述第二调整图像进行拼接，以形成所述融合图像；

所述对所述第一图像与所述第二图像进行预处理，以生成第一调整图像与第二调整图像，包括：

，

其中，；

，

2.根据权利要求1所述的视频实时传输场景下的设备控制方法，其特征在于，所述设备序列还包括麦克风序列以及显示器，所述麦克风序列包括多个麦克风，其中，所述麦克风序列中的不同麦克风对应不同的声音处理效果；所述方法，还包括：

通过所述麦克风序列中的第一麦克风获取第一音频；

对所述第一音频进行语音识别，以获得文字识别信息；

3.根据权利要求2所述的视频实时传输场景下的设备控制方法，其特征在于，在对所述第一音频进行语音识别，以获得文字识别信息之后，还包括：

在所述显示器上显示所述第二麦克风对应的声音处理效果；

4.一种视频实时传输场景下的设备控制系统，其特征在于，包括：控制器以及与所述控制器连接的设备序列，所述设备序列包括摄像头序列，所述摄像头序列包括多个摄像头，其中，所述摄像头序列中的不同摄像头用于获取目标区域不同拍摄角度的图像；

在预设时长内，所述第一摄像头持续获取所述目标区域的所述第一图像，若根据所述第一图像以及所述预设手势识别模型确定所述第一图像在所述预设时长内未存在所述目标手势元素，则通过所述控制器将所述第一图像切换为用于进行视频实时传输的图像；

，

其中，；

，

5.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至3任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至3任一项所述的方法。