CN108377407A

CN108377407A - 全景视频的处理方法、装置及电子设备

Info

Publication number: CN108377407A
Application number: CN201610963524.XA
Authority: CN
Inventors: 赵颖
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2018-08-07
Anticipated expiration: 2036-11-04
Also published as: CN108377407B

Abstract

本发明提供了一种全景视频的处理方法、装置及电子设备，属于视频处理技术领域。其中，全景视频的处理方法，包括：根据全景视频的图像数据获取所述全景视频对应的场景信息，所述场景信息至少包括场景类别、场景中每一区域的类别以及出席者和物体的分布信息；根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为；根据出席者行为与场景的相关性计算每一出席者行为的显著度。安装本发明技术方案的系统，在播放全景视频时，能够自动检测出全景视频中发生的显著行为，并据此切换视频播放的视角，使得用户能够以更加自然的方式观看全景视频并且不错过其中的关键内容。

Description

全景视频的处理方法、装置及电子设备

技术领域

本发明涉及视频处理技术领域，特别是指一种全景视频的处理方法、装置及电子设备。

背景技术

近些年，随着虚拟现实(VR)技术的迅猛发展，用于播放虚拟内容的VR头盔受到了越来越广泛地关注，全景视频无疑是最适合于在VR头盔上播放的素材之一。

目前，用户在佩戴VR头盔时大都需要通过转动头部等主动操作来切换全景视频的视角，这样的操作不仅没有带给用户良好的体验，而且还有可以能导致用户错过视频中的关键内容。

发明内容

本发明要解决的技术问题是提供一种全景视频的处理方法、装置及电子设备，能够自动检测全景视频中发生的显著行为，并据此切换视频播放的视角，使得用户能够以更加自然的方式观看全景视频并且不错过其中的关键内容。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种全景视频的处理方法，包括：

根据全景视频的图像数据获取所述全景视频对应的场景信息，所述场景信息至少包括场景类别、场景中每一区域的类别以及出席者和物体的分布信息；

根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为；

根据出席者行为与场景的相关性计算每一出席者行为的显著度。

进一步地，所述根据出席者行为与场景的相关性计算每一出席者行为的显著度之后，所述方法还包括：

变换全景视频的视角，使得显著度最大的出席者行为对应于观看者正面的视角方向。

进一步地，所述根据全景视频的图像数据获取所述全景视频对应的场景信息包括：

根据所述图像数据确定场景中出席者和物体的分布信息，根据所述分布信息确定场景的类别；

将场景划分成多个区域，根据每一区域内的运动累积信息、出席者和物体的分布信息对每一区域进行分类。

进一步地，所述根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为包括：

根据出席者所在区域的类别、场景中出席者和物体的分布信息对场景中的出席者进行分类；

根据出席者的类别和出席者的运动特征识别场景中的出席者行为。

进一步地，所述根据出席者行为与场景的相关性计算每一出席者行为的显著度包括：

计算每一出席者行为与所述场景的相关性；

筛选出与所述场景的相关性大于阈值的出席者行为；

计算筛选出的每一出席者行为的显著度。

本发明实施例还提供了一种全景视频的处理装置，包括：

获取模块，用于根据全景视频的图像数据获取所述全景视频对应的场景信息，所述场景信息至少包括场景类别、场景中每一区域的类别以及出席者和物体的分布信息；

识别模块，用于根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为；

计算模块，用于根据出席者行为与场景的相关性计算每一出席者行为的显著度。

进一步地，所述装置还包括：

视角变换模块，用于变换全景视频的视角，使得显著度最大的出席者行为对应于观看者正面的视角方向。

进一步地，所述获取模块包括：

场景类别识别单元，用于根据所述图像数据确定场景中出席者和物体的分布信息，根据所述分布信息确定场景的类别；

区域分类单元，用于将场景划分成多个区域，根据每一区域内的运动累积信息、出席者和物体的分布信息对每一区域进行分类。

进一步地，所述识别模块包括：

出席者分类单元，用于根据出席者所在区域的类别、场景中出席者和物体的分布信息对场景中的出席者进行分类；

出席者行为识别单元，用于根据出席者的类别和出席者的运动特征识别场景中的出席者行为。

进一步地，所述计算模块包括：

第一计算单元，用于计算每一出席者行为与所述场景的相关性；

筛选单元，用于筛选出与所述场景的相关性大于阈值的出席者行为；

第二计算单元，用于计算筛选出的每一出席者行为的显著度。

本发明实施例还提供了一种处理全景视频的电子设备，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

本发明的实施例具有以下有益效果：

上述方案中，对全景视频的图像数据进行分析，计算场景中出席者行为与场景的相关性，进而计算出席者行为的显著度，以便变换全景视频的视角，使得显著度最大的出席者行为对应于观看者正面的视角方向。安装本发明技术方案的系统，在播放全景视频时，能够自动检测出全景视频中发生的显著行为，并据此切换视频播放的视角，使得用户能够以更加自然的方式观看全景视频并且不错过其中的关键内容。

附图说明

图1为本发明实施例全景视频的处理方法的流程示意图；

图2为本发明实施例根据全景视频的图像数据获取全景视频对应的场景信息的流程示意图；

图3为本发明实施例根据场景信息和场景中出席者的运动特征识别场景中的出席者行为的流程示意图；

图4为本发明实施例根据出席者行为与场景的相关性计算每一出席者行为的显著度的流程示意图；

图5为本发明实施例全景视频的处理装置的结构示意图；

图6为本发明实施例获取模块的结构示意图；

图7为本发明实施例识别模块的结构示意图；

图8为本发明实施例计算模块的结构示意图；

图9为本发明实施例处理全景视频的电子设备的结构示意图；

图10为本发明具体实施例全景视频的处理方法的流程示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供一种全景视频的处理方法、装置及电子设备，能够自动检测全景视频中发生的显著行为并切换到相应的视角，使得用户能够以更加自然的方式观看全景视频并且不错过其中的关键内容。

实施例一

本实施例提供一种全景视频的处理方法，如图1所示，本实施例包括：

步骤101：根据全景视频的图像数据获取所述全景视频对应的场景信息，所述场景信息至少包括场景类别、场景中每一区域的类别以及出席者和物体的分布信息；

步骤102：根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为；

步骤103：根据出席者行为与场景的相关性计算每一出席者行为的显著度。

本实施例中，对全景视频的图像数据进行分析，计算场景中出席者行为与场景的相关性，进而计算出席者行为的显著度，以便变换全景视频的视角，使得显著度最大的出席者行为对应于观看者正面的视角方向。安装本发明技术方案的系统，在播放全景视频时，能够自动检测出全景视频中发生的显著行为，并据此切换视频播放的视角，使得用户能够以更加自然的方式观看全景视频并且不错过其中的关键内容。

进一步地，所述根据全景视频的图像数据获取所述全景视频对应的场景信息之前，所述方法还包括：

接收输入的全景视频的图像数据。

作为一个示例，如图2所示，所述根据全景视频的图像数据获取所述全景视频对应的场景信息包括：

步骤201：根据所述图像数据确定场景中出席者和物体的分布信息，根据所述分布信息确定场景的类别；

步骤202：将场景划分成多个区域，根据每一区域内的运动累积信息、出席者和物体的分布信息对每一区域进行分类。

作为一个示例，如图3所示，所述根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为包括：

步骤301：根据出席者所在区域的类别、场景中出席者和物体的分布信息对场景中的出席者进行分类；

步骤302：根据出席者的类别和出席者的运动特征识别场景中的出席者行为。

作为一个示例，如图4所示，所述根据出席者行为与场景的相关性计算每一出席者行为的显著度包括：

步骤401：计算每一出席者行为与所述场景的相关性；

步骤402：筛选出与所述场景的相关性大于阈值的出席者行为；

步骤403：计算筛选出的每一出席者行为的显著度。

进一步地，所述计算每一出席者行为与所述场景的相关性具体为：

利用公式计算每一出席者行为与所述场景的相关性；

其中，Action(H)为出席者行为H，Scene(S)为场景S的类别，ActionModel(S)为预定义的场景S的行为库，Match(Action(H)，ActionModel(S))为出席者行为H与场景S的行为库的匹配度，Distance(H,O∈S)表示出席者行为H对应的出席者与场景S中关键物体O的距离。

进一步地，所述计算筛选出的每一出席者行为的显著度具体为：

利用公式

计算筛选出的每一出席者行为的显著度；

其中，n为筛选出的出席者行为的个数，Action(H_i)和Action(H_j)选自筛选出的n个出席者行为。

实施例二

本实施例提供了一种全景视频的处理装置，如图5所示，本实施例的全景视频的处理装置50包括：

获取模块51，用于根据全景视频的图像数据获取所述全景视频对应的场景信息，所述场景信息至少包括场景类别、场景中每一区域的类别以及出席者和物体的分布信息；

识别模块52，用于根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为；

计算模块53，用于根据出席者行为与场景的相关性计算每一出席者行为的显著度。

进一步地，所述装置还包括：

作为一个示例，如图6所示，所述获取模块51包括：

场景类别识别单元511，用于根据所述图像数据确定场景中出席者和物体的分布信息，根据所述分布信息确定场景的类别；

区域分类单元512，用于将场景划分成多个区域，根据每一区域内的运动累积信息、出席者和物体的分布信息对每一区域进行分类。

作为一个示例，如图7所示，所述识别模块52包括：

出席者分类单元521，用于根据出席者所在区域的类别、场景中出席者和物体的分布信息对场景中的出席者进行分类；

出席者行为识别单元522，用于根据出席者的类别和出席者的运动特征识别场景中的出席者行为。

作为一个示例，如图8所示，所述计算模块53包括：

第一计算单元531，用于计算每一出席者行为与所述场景的相关性；

筛选单元532，用于筛选出与所述场景的相关性大于阈值的出席者行为；

第二计算单元533，用于计算筛选出的每一出席者行为的显著度。

实施例三

本实施例提供了一种处理全景视频的电子设备，如图9所示，包括：

处理器62；和

存储器64，在所述存储器64中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器62执行以下步骤：

进一步地，如图9所示，处理全景视频的电子设备还包括网络接口61、输入设备63、硬盘65、和显示设备66。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器62代表的一个或者多个中央处理器(CPU)，以及由存储器64代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口61，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，例如全景视频的图像数据，并可以保存在硬盘65中。

所述输入设备63，可以接收操作人员输入的各种指令，并发送给处理器62以供执行。所述输入设备63可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备66，可以将处理器62执行指令获得的结果进行显示。

所述存储器64，用于存储操作系统运行所必须的程序和数据，以及处理器62计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器64可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器64旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器64存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统641和应用程序642。

其中，操作系统641，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序642，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序642中。

上述处理器62，当调用并执行所述存储器64中所存储的应用程序和数据，具体的，可以是应用程序642中存储的程序或指令时，可以根据全景视频的图像数据获取所述全景视频对应的场景信息，所述场景信息至少包括场景类别、场景中每一区域的类别以及出席者和物体的分布信息；根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为；根据出席者行为与场景的相关性计算每一出席者行为的显著度。

本发明上述实施例揭示的方法可以应用于处理器62中，或者由处理器62实现。处理器62可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器62中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器62可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器64，处理器62读取存储器64中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器62根据所述图像数据确定场景中出席者和物体的分布信息，根据所述分布信息确定场景的类别；将场景划分成多个区域，根据每一区域内的运动累积信息、出席者和物体的分布信息对每一区域进行分类。

具体地，处理器62根据出席者所在区域的类别、场景中出席者和物体的分布信息对场景中的出席者进行分类；根据出席者的类别和出席者的运动特征识别场景中的出席者行为。

具体地，处理器62计算每一出席者行为与所述场景的相关性；筛选出与所述场景的相关性大于阈值的出席者行为；计算筛选出的每一出席者行为的显著度。

实施例四

如图10所示，本实施例的全景视频的处理方法包括以下步骤：

步骤501：接收输入的全景视频的图像数据；

该图像数据由360度全景相机采集得到。

步骤502：根据图像数据确定场景中出席者和物体的分布信息，根据分布信息确定场景的类别；

为了判定场景的类别，可以将全景视频帧形变成小行星视角的图像，并在此图像上分析物体及出席者的分布情况。检测的出席者为场景中的人，检测的物体包括属于场景的物体和属于出席者的物体。在讲座或者会议室场景中，一些物体如屏幕、白板、桌子、椅子等是场景中固有的，其位置不会发生改变。因此，可以利用外观特征检测场景中的物体。类似地，电脑、笔记本等物体是属于出席者的，其位置可能随着出席者的行为发生变化。因此，可以利用出席者的位置及场景固有物体的位置估计属于出席者的物体。由于360度全景相机的摆放位置，一部分出席者会面对相机而另一部分出席者会背对相机，因此，可以利用人脸及头肩模型两种特征来检测出席者。

由于场景是由物体及出席者构成，因此，物体及出席者在场景中的分布信息揭示了场景的结构及类别，如讲座场景、会议室场景等。本实施例对场景进行分类的依据为出席者的分布图和物体分布图，其中，根据出席者的位置和脸部朝向，计算出席者分布图；根据物体的从属类别和相对位置，计算物体分布图。比如检测到一个出席者与多个出席者面部相对，并且检测到屏幕、白板环绕该与多个出席者相对的出席者，则可以判定为讲座场景；再比如检测多个出席者和多个出席者面部相对，并且多个出席者和多个出席者之间设置有会议桌，则可以判定为会议室场景。

步骤503：将场景划分成多个区域，根据每一区域内的运动累积信息、出席者和物体的分布信息对每一区域进行分类；

由于出席者的行为发生在场景中的某个区域，因此，可以将场景划分成若干个功能区域来描述场景的结构。具体地，可以利用一个三级分类器对场景进行建模，第一级由一个检测器构成，用于检测场景中的物体及出席者；第二级为一个分类器，用于判别场景的类别；第三级为一个分类器，用于判别场景中区域的功能。

场景一般是由具有特定功能的区域构成的，如讲座厅通常包括演讲区、观众区、出入口区域。通常情况下，观众区的人数多于演讲区，出入口区域发生的运动强度要大于其他区域。具体地，在将场景划分成若干区域之后，根据区域内的运动累积图、物体分布图和出席者分布图对区域进行分类，其中，运动累积图描述了区域内历史运动的累积信息，比如，在判定为讲座场景之后，发现一个区域经常出现人员走动，则可以判断该区域为出入口区域；再比如，在判定为讲座场景之后，发现一个区域分布有演讲台，则可以判断该区域为演讲区；再比如，在判定为讲座场景之后，发现一个区域的人数明显多于其他区域的人数，则可以判断该区域为观众区。

步骤504：根据出席者所在区域的类别、场景中出席者和物体的分布信息对场景中的出席者进行分类；

在判断区域的类别之后，就可以根据场景中出席者和物体的分布信息对区域内出席者的类别进行判定，比如在判定为讲座场景之后，发现一个出席者位于演讲区，且与演讲台的距离很近，则可以判断该出席者为演讲者；发现一个出席者位于观众区，并且与座椅的距离很近，则可以判断该出席者为观众。

另外，由于出席者有可能在场景内的不同区域之间走动，因此，仅根据区域的类别来判断出席者的类别可能不准确。为了避免此类噪声的影响，可以对分类结果在邻域内做平滑处理。比如在一帧图像数据内，出席者位于观众区且与座椅的距离很近，则可以将结合上下帧的内容进行综合判断，如果在前后若干帧图像数据内，出席者均位于观众区且与座椅的距离很近，则可以判断出席者为观众；如果在前后若干帧图像数据内，出席者均位于演讲区且与演讲台的距离很近，则可以判断出席者为演讲者，仅是走动到观众区。

步骤505：根据出席者的类别和出席者的运动特征识别场景中的出席者行为；

具体地，可以结合出席者的类别、出席者的运动情况以及与物体的交互情况识别场景中的出席者行为。比如，判断出席者为演讲者后，如果演讲者在白板上写字，则可以识别出席者行为为在书写。

步骤506：计算每一出席者行为与场景的相关性；

需要注意的是，出席者有可能发出显著的但与场景无关的行为，比如观众走出讲座厅。因此，需要首先分析出席者行为与场景的相关性。如果出席者的行为包含与场景物体的交互，比如出席者在白板上写字，则该出席者行为与场景具有较高的相关性。出席者行为与场景的相关性描述了出席者的行为对场景的影响程度。

作为一个示例，可以利用公式

计算每一出席者行为与场景的相关性；

其中，Action(H)为出席者行为H，Scene(S)为场景S的类别，ActionModel(S)为预定义的场景S的行为库，Match(Action(H)，ActionModel(S))为出席者行为H与场景S的行为库的匹配度，Distance(H,O∈S)表示出席者行为H对应的出席者与场景S中关键物体O的距离，在讲座场景中，白板、演讲台、椅子这些是关键物体，在会议室场景中，会议桌、座椅这些是关键物体。

步骤507：筛选出与场景的相关性大于阈值的出席者行为；

如果一些出席者行为与场景的相关性不大，则可以排除这一部分出席者行为。

步骤508：计算筛选出的每一出席者行为的显著度。

具体地，可以依据出席者行为的强度及持续时间，该出席者行为与其他出席者行为的区别程度或与场景的相关性来计算出席者行为的显著度。

作为一个示例，可以利用公式

计算筛选出的每一出席者行为的显著度；其中，n为筛选出的出席者行为的个数，Action(Hi)和Action(Hj)选自筛选出的n个出席者行为。

在计算出每一出席者行为的显著度之后，可以变换全景视频的视角，使得显著度最大的出席者行为对应于观看者正面的视角方向。

现有技术中，在用户佩戴VR头盔观看一场讲座的全景视频时，一般是将演讲台所在区域对应于用户正面的视角方向，如果有观众向演讲者提问，则用户需要转动头部才能看到提问的观众。通过本实施例的技术方案，不需要用户主动转动头部，能够自动检测到“观众向演讲者提问”这一显著行为并切换到相应的视角，使得用户不用转动头部就能观看到提问的观众，提高了用户的体验。

进一步地，在计算出每一出席者行为的显著度之后，还可以将显著度最大的出席者行为相关的图像数据作为关键数据存储。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种全景视频的处理方法，其特征在于，包括：

2.根据权利要求1所述的全景视频的处理方法，其特征在于，所述根据出席者行为与场景的相关性计算每一出席者行为的显著度之后，所述方法还包括：

3.根据权利要求1所述的全景视频的处理方法，其特征在于，所述根据全景视频的图像数据获取所述全景视频对应的场景信息包括：

4.根据权利要求1所述的全景视频的处理方法，其特征在于，所述根据所述场景信息和场景中出席者的运动特征识别场景中的出席者行为包括：

5.根据权利要求1所述的全景视频的处理方法，其特征在于，所述根据出席者行为与场景的相关性计算每一出席者行为的显著度包括：

计算每一出席者行为与所述场景的相关性；

筛选出与所述场景的相关性大于阈值的出席者行为；

计算筛选出的每一出席者行为的显著度。

6.一种全景视频的处理装置，其特征在于，包括：

7.根据权利要求6所述的全景视频的处理装置，其特征在于，还包括：

8.根据权利要求6所述的全景视频的处理装置，其特征在于，所述获取模块包括：

9.根据权利要求6所述的全景视频的处理装置，其特征在于，所述识别模块包括：

10.根据权利要求6所述的全景视频的处理装置，其特征在于，所述计算模块包括：

11.一种处理全景视频的电子设备，其特征在于，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，