CN117156258A

CN117156258A - 一种基于全景直播的多视角自切换系统

Info

Publication number: CN117156258A
Application number: CN202311378228.XA
Authority: CN
Inventors: 陈建臣; 杨中岗; 刘宏明; 李欢欢; 李建龙; 蒋勇
Original assignee: Beijing Youbei Online Network Technology Co ltd
Current assignee: Beijing Youbei Online Network Technology Co ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2023-12-01
Anticipated expiration: 2043-10-24
Also published as: CN117156258B

Abstract

本发明涉及直播领域，具体提供了一种基于全景直播的多视角自切换系统；包括：视频采集模块：在全景设备中植入配置球型全景空间，并将采集到的视频数据植入球形全景空间；全景捕捉模块：在球形全景空间中模拟人类视角模型，通过人类视角模型识别球形全景空间的区域影像；意向识别模块：用于获取实时主播数据，判断主播数据中是否存在当前球形全景空间的关联性元素，并确定关联性元素的目标对应视角；视角切换模块：根据目标对应视角，在球形全景空间进行视角自动切换。

Description

一种基于全景直播的多视角自切换系统

技术领域

本发明涉及直播技术领域，特别涉及一种基于全景直播的多视角自切换系统。

背景技术

目前，随着各种直播平台的兴起，出现了很多的直播，室内直播、户外直播以及游戏直播，对于这些直播。在这些直播的过程中，我们都需要进行视角的切换。

对于游戏直播，直接播放游戏界面，对接对应的游戏终端界面皆可以进行直播，不存在太多的视角切换；

但是，针对户外直播和室内直播，如果只是直播播放设备当时拍摄的界面，通过普通的直播终端设备就可以实现。但是，针对一些全景直播的场景界面，对于主播想要直播不同的视角，需要进行人工操作，生成对应的指令，从而需要通过视角切换的方式，实现视角变换。

但是，这种视角切换往往需要主动控制，而无法达到通过AR设备这种预先设置场景空间，通过AR设备的感应信息实现视角的切换，AR设备的视角需要进行预先设置是这种技术的障碍。

在申请号为：202010430991.2，专利名称为基于视角切换的视频直播方法、系统、存储介质及终端，提出可一种通过主播的视角切换指令进行视角变换的方式，由于需要在直播的博主和直播的元素之间进行指令传输，所以还是需要人工操作，在人工输入指令的过程中，可能直播想要的直播的视角方向的元素已经消失，错过了精彩的情节。

另外，虽然上述专利技术是圆形的视角切换，只能实现远景切换，无法实现近景切换，也无法根据主播当时的动作进行视角的切换。

发明内容

本发明提供一种基于全景直播的多视角自切换系统，用以解决视角切换的时候，无法根据主播当时的动作进行视角的切换的情况。

本申请提出了一种基于全景直播的多视角自切换系统，其包括：

视频采集模块：在全景设备中植入配置球型全景空间，并将采集到的视频数据植入球形全景空间；

全景捕捉模块：在球形全景空间中植入模拟人类视角模型，通过人类视角模型识别球形全景空间的区域影像；

意向识别模块：用于获取实时主播数据，判断实时主播数据中是否存在当前球形全景空间的指向性关联指令，并确定指向性关联指令的目标对应视角；

视角切换模块：根据目标对应视角，在球形全景空间进行视角自动切换。

优选的，所述视频采集模块包括：

空间搭建单元：用于预先设置球形全景模型，并将球形全景模型按照视角搭建数据排布位置；

视频采集单元：用于通过全景设备拍摄当前场景的目标场景视频，并按照数据排布位置进行场景视频划分；其中，

全景设备包括深度相机和图像传感相机；

视角构建单元：用于根据场景视频划分，视角分布，确定不同视角的场景视频；

空间植入单元：将不同场景视频按照视角分布植入球形全景空间，生成球形全景。

优选的，所述视频采集单元还用于：

根据全景设备，搭建当前场景的光影场景，并按照相对于主播位置的视角距离，获取不同视角的视角深度值；

根据视角深度值，进行场景元素的划分，并将划分后相同深度值的场景元素进行聚类，生成场景群组；

基于场景群组，确定每个场景群对的初始深度信息；

根据初始深度信息，控制深度相机进行深度对焦处理；

在对焦处理完成后，通过图像传感相机对每个场景群组进行色彩捕捉，确定色彩渲染基准参数；

根据色彩基准参数，进行场景视频采集；其中，

当采集的当前场景视频色彩参数大于等于色彩基准参数，将当前场景视频作为目标场景视频；

当采集的当前场景视频色彩参数小于色彩基准参数，根据色彩基准参数对当前场景视频进行渲染优化，并在渲染优化完成后，作为目标场景视频。

优选的，所述全景捕捉模块包括：

视角模拟单元：用于采集主播信息，确定主播视角宽度，构建视角模拟模型；

全景划分单元：用于通过视角模拟模型，搭建不同视角下，球形全景空间的全景范围，进行全景划分。

识别单元：用于根据全景划分，确定不同视角下的全景元素，识别不同视角的区域影像。

优选的，所述视角模拟包括：

获取主播当前直播场景下各视角的场景视频以及主播的视角宽度；其中，

视角宽度包括视角上下宽度和视角左右宽度；

根据视角宽度，确定主播的生理视域；

根据生理视域，在球形全景空间中适配主播立体视角，以生成视角模拟。

优选的，所述意向识别模块：

语音意向识别单元：用于实时采集主播语音数据，并判断语音数据中是否存在视角意向指令，并根据视角意向指令切换当前视角；

姿态意向识别单元：用于采集主播的实时头部姿态，确定姿态方向，并基于姿态方向切换当前视角；

虹膜意向识别单元：用于实时采集主播虹膜信息，根据虹膜信息，确定视角方向，并基于视角方向切换当前视角。

优选的，所述语音意向识别单元包括如下执行步骤：

预先构建的语音视角库中；其中，

语音视角库基于当前球形全景空间的场景元素构建；

根据语音视角库，捕捉主播语音中的元素信息；

根据元素信息，确定元素轮廓，并基于元素轮廓，在球形全景空间中切换主播视角。

优选的，所述姿态意向识别单元包括：

获取主播的头部偏向姿态和肢体指向姿态；

根据主播的头部偏向姿态，确定视角方位信息；

根据肢体指向姿态，确定视角方位内的元素信息；

根据视角方位信息和元素信息，生成字体指引指令，进行视角切换。

优选的，所述虹膜意向识别单元包括如下执行步骤：

获取主播脸部图像，进行虹膜和脸部相对位置的立体建模，生成虹膜动态模型；

基于虹膜动态模型，构建人脸立体坐标系；

根据虹膜信息，判断人脸立体坐标系中，虹膜坐标变化；

根据虹膜坐标变化，确定对应虹膜坐标的视角内的场景信息，并生成虹膜视角切换指令；

根据虹膜视角切换指令，进行视角切换。

优选的，所述视角切换模块包括：

视角定位单元：用于根据目标对应视角，确定在球形全景空间的目标视角元素；

空间转换单元：获取主播的视力数据，根据视力数据将目标视角元素对应的视角区域切换至主播视角的正前方。

本发明的有益效果在于：

本申请能够通过球形空间控制直播全景的变化，从而实现多视角的自动切换，在切换的过程中，基于主播的视角控制和方向控制，从而得到的直播视角自适应程度更高，更加的智能化，也能解决现有技术中依靠人工发出指令无法实现实时自动切换变换的方法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于全景直播的多视角自切换系统的系统组成图。

图2为本发明实施例中多视角自动切换的全过程图。

图3为本发明实施例中目标场景视频的获取步骤。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本申请应用于全景直播的技术领域，具体提出一种基于全景直播的多视角自切换系统，包括：

意向识别模块：用于获取实时主播数据，判断主播数据中是否存在当前球形全景空间的关联性元素，并确定关联性元素的目标对应视角；

上述技术方案的原理在于：

如附图1和附图2所示，本申请在进行直播的过程中，首先会在全景设备中植入一个球型全景空间，球型全景空间包括主播直播周围的所有可视场景，全景设备为全景直播设备。

通过全景捕捉模块，模拟人类的视角，随着主播的姿态、语音和动作，进行视角的转动，从而使得视角自适应的切换，确定每个视角区域。人类视角模型是基于主播姿态捕捉、虹膜视角捕捉等等捕捉技术实现人类视角转换，确定全景空间中对应区域的区域影响。

全景捕捉模块是对主播进行直播的全景场景进行采集，从而然后自动计算不同视角，存在的对应区域景象，从而保证在用户视角转换的时候，可以直接通过动作姿态进行视角切换。

通过意向识别模块，可以识别主播实时的直播意向，即需要进行转动视角的角度，从而实现角度切换，实时主播数据为主播的姿态数据，姿态数据中存在指向性关联指令，指向性关联指令为主播当前动作下，切换的视角。

视角切换模块用于进行视角的切换控制，会根据对应的视角指令，转动球形全景空间，从而实现视角的变化。

本申请的视角变化，变化的是主播进行直播的视角方向，本申请的适用范围包括但不限于产品直播和户外直播。

上述技术方案的有益效果在于：

具体的，所述视频采集模块包括：

视频采集单元：用于通过全景设备拍摄当前场景的场景视频，并按照数据排布位置进行场景视频划分；

空间植入单元：将不同场景视频按照视角交底植入球形全景空间，生成球形全景。

上述技术方案的原理在于：

本申请在场景采集的过程中，通过搭建球形全景模型，按照主播的视角进行视角搭建，从而通过视角搭建，确定不同视角的角度，进行视角分布，从而将场景视频植入不同的视角，从而实现球形全景排布。

数据排布位置为全景中按照直播视角呈钟表状排序的视角顺序，按照最精细的刻度，随着主播视角，在球形场景空间中进行变换。

场景视频划分是按钟表状排序进行视角顺序排序，从而实现球形全景的直播全景数据植入。

全景设备包括但不限于全景摄像机和全景直播设备，以及多个摄像装置采集的全景。

上述技术方案的有益效果在于：

本申请可以通过球形全景的排布，在一个球形空间内，实现主播的可直播全部场景的植入，从而实现多角度视角的自适应切换，从而实现全景直播。

具体的，所述视频采集单元还用于：

基于场景群组，确定每个场景群对的初始深度信息；

根据初始深度信息，控制深度相机进行深度对焦处理；

根据色彩基准参数，进行场景视频采集；其中，

上述技术方案的原理在于：

如附图3所示，本申请通过全景设备，构建当前场景，即直播场景的光影场景，光影场景的优点在于可以发现遮挡元素，还能够在进行元素深度值计算的时候，根据光影场景，对相同元素因为不同光照亮度，即不同曝光度下的相同元素进行统一识别。对于光影场景进行遮挡的判定，直接通过深度值就可以进行被遮挡的元素的判断，而且本申请要模拟主播视角，所以在被遮挡的时候，被遮挡的元素也是无法在视角上看到，但是可以显示。

此外，本申请通过主播视角的视角距离和视角深度值，视角深度值，可以对不同的场景元素，即场景中进行直播的环境元素、实体元素进行显示，而且在光影场景下，不必考量光亮度对深度值的影响，然后通过深度值进行相同场景元素的区分，在区分之后，生成场景群组，场景群组的作用是在场景元素需要进行渲染的时候，进行统一渲染。

通过深度信息，可以让全景设备在进行周围元素采集的时候，进行场景内元素的深度对焦处理，对焦处理之后，不同的场景元素通过色彩传感相机可以采集到更加精确的色彩参数，通过色彩参数在进行全景视频植入球星空间的时候进行场景视频的渲染，从而获取最终能够进行直播的目标场景视频。

本申请在目标场景视频的获取上，通过光影场景可以降低光强对不同场景元素识别的影响，通过深度对焦和色彩捕捉，可以实现更好的对采集的全景视频进行渲染和优化，从而得到更加清晰的目标场景视频，让球形空间的场景更加全面。

具体的，所述全景捕捉模块包括：

上述技术方案的原理在于：

本申请在全景捕捉的过程中，会通过主播视角宽度的计算，从而实现视角模拟模型的搭建，基于视角模拟模型的处理，进行全景划分，确定不同视角的区域影像。

视角模拟模型是椭圆形的，可以仿真主播实时看到的具体画面，以主播视角进行场景放送。

通过不同视角下，全景划分，可以快速的将不同的场景元素进行划分，从而实现快速的场景对比植入，保证场景数据植入的准确度。

上述技术方案的有益效果在于：

本申请可以进行视角划分，从而实现区域影像的渲染处理，更好的仿真视角，播放直播画面，也能保证数据植入球形空间的准确度。

具体的，所述视角模拟包括：

视角宽度包括视角上下宽度和视角左右宽度；

根据视角宽度，确定主播的生理视域；

上述技术方案的原理在于：

本申请在进行视角模拟的过程中，通过不同视角的场景视频和视角宽度，可以形成椭圆形的生理视域，通过生理视域和球形全景空间适配，从而实现视角的精确模拟，能够直接传到主播最直观的实时视角，包括其视角范围。

上述技术方案的有益效果在于：

有利于主播在直播的时候，直播场景和生理视域场景相同，更能够让观看直播的人员感受到主播的直接视角观感。

具体的，所述意向识别模块：

上述技术方案的原理在于：

本申请的意向识别模块可以通过主播的语音数据，姿态意识和虹膜意向三方面信息的采集进行视角的切换，三种不同的模式可以通过主播进行设定，每一种模式只能单一实施。

上述技术方案的有益效果在于：

本申请可以实现不同意向的识别处理，进行视角的切换，通过不同意向识别模式，可以适应于不同的人群，包括残障人士。

具体的，所述语音意向识别单元包括如下执行步骤：

预先构建的语音视角库中；其中，

语音视角库基于当前球形全景空间的场景元素构建；

根据语音视角库，捕捉主播语音中的元素信息；

上述技术方案的原理在于：

本申请通过语音意向识别的方式，在语音视角库中通过捕捉主播直播中语音中能够识别的元素信息，立刻将视角转换到对应的场景元素上，在场景元素的识别上，是基于元素轮廓，而语音视角库又是基于当前球形全景空间的场景元素构建，所以不会出现视角切换错误，语音的方式，也方便于主播更加便捷的智能化控制。

上述技术方案的有益效果在于

本身可以实现语音的智能化意向识别控制，通过语音控制的方式进行视角的切换和视角远近距离的变化。

具体的，所述姿态意向识别单元包括：

获取主播的头部偏向姿态和肢体指向姿态；

根据主播的头部偏向姿态，确定视角方位信息；

根据肢体指向姿态，确定视角方位内的元素信息；

上述技术方案的原理在于：

本申请可以通过主播的头部偏向字体和肢体的指向姿态自动变换当前的视角，然后通过识别肢体指向字体，可以进行直播镜头的拉近和远离，从而通过视角方位的信息识别和元素指向识别的方式，进行视角切换，在这个过程中还可以生成字体指引指令，字体指引指令会显示在主播的直播界面，然后基于主播的实时指向性姿态进行字体指引指令的确认和取消。字体指引指令是通过字体显示的方式，实现简短指令的生成。

上述技术方案的有益效果在于：

本申请可以通过指向性的姿态和肢体动作，进行视角的切换，从而进行对应的元素信息和视角方位信息的切换。

具体的，所述虹膜意向识别单元包括如下执行步骤：

基于虹膜动态模型，构建人脸立体坐标系；

根据虹膜信息，判断人脸立体坐标系中，虹膜坐标变化；

根据虹膜视角切换指令，进行视角切换。

上述技术方案的原理在于：

本申请在针对一些特殊的场景下，例如：主播的姿态识别不方便，运动场景下，以及水下主播无法说话的直播场景，也设置了具有虹膜动态识别的虹膜识别的视角切换方式；

在这个过程中，通过虹膜和脸部的相对位置建模，可以精确判断在虹膜角度变化的时候，具体的虹膜角度，基于构建的人脸立体坐标系，可以识别虹膜整体坐标的位移变化。

通过位移变化，确定对应视角区域和视角角度的切换指令，从而实现视角的切换。

上述技术方案的有益效果在于：

本申请可以适用于一些特殊场景，通过虹膜控制视角的切换。

具体的，所述视角切换模块包括：

上述技术方案的原理在于：

在一些特殊的场景中，本申请还可以在视角切换的过程中，根据主播的意向信息，确定目标对应视角，从而在球形全景空间中确定目标视角元素，通过目标视角元素进行主播视角的切换，将主播视角切换至正前方。

上述技术方案的有益效果在于：

本申请可以通过球形全景空间的角度自动调整，从而实现角度调整，进而实现视角自适应切换。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于全景直播的多视角自切换系统，其特征在于，包括：

2.如权利要求1所述的一种基于全景直播的多视角自切换系统，其特征在于，所述视频采集模块包括：

全景设备包括深度相机和图像传感相机；

3.如权利要求2所述的一种基于全景直播的多视角自切换系统，其特征在于，所述视频采集单元还用于：

基于场景群组，确定每个场景群对的初始深度信息；

根据初始深度信息，控制深度相机进行深度对焦处理；

根据色彩基准参数，进行场景视频采集；其中，

4.如权利要求1所述的一种基于全景直播的多视角自切换系统，其特征在于，所述全景捕捉模块包括：

全景划分单元：用于通过视角模拟模型，搭建不同视角下，球形全景空间的全景范围，进行全景划分；

5.如权利要求4所述的一种基于全景直播的多视角自切换系统，其特征在于，所述视角模拟包括：

视角宽度包括视角上下宽度和视角左右宽度；

根据视角宽度，确定主播的生理视域；

6.如权利要求1所述的一种基于全景直播的多视角自切换系统，其特征在于，所述意向识别模块：

7.如权利要求6所述的一种基于全景直播的多视角自切换系统，其特征在于，所述语音意向识别单元包括如下执行步骤：

预先构建的语音视角库中；其中，

语音视角库基于当前球形全景空间的场景元素构建；

根据语音视角库，捕捉主播语音中的元素信息；

8.如权利要求6所述的一种基于全景直播的多视角自切换系统，其特征在于，所述姿态意向识别单元包括：

获取主播的头部偏向姿态和肢体指向姿态；

根据主播的头部偏向姿态，确定视角方位信息；

根据肢体指向姿态，确定视角方位内的元素信息；

9.如权利要求6所述的一种基于全景直播的多视角自切换系统，其特征在于，所述虹膜意向识别单元包括如下执行步骤：

基于虹膜动态模型，构建人脸立体坐标系；

根据虹膜信息，判断人脸立体坐标系中，虹膜坐标变化；

根据虹膜视角切换指令，进行视角切换。

10.如权利要求1所述的一种基于全景直播的多视角自切换系统，其特征在于，所述视角切换模块包括：