CN112804455A

CN112804455A - 远程交互方法、装置、视频设备和计算机可读存储介质

Info

Publication number: CN112804455A
Application number: CN202110024897.1A
Authority: CN
Inventors: 蔡蓉; 李廷
Original assignee: Chongqing Chuangtong Lianzhi Internet Of Things Co ltd
Current assignee: Chongqing Chuangtong Lianzhi Internet Of Things Co ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-14

Abstract

本申请公开了一种远程交互方法、装置及视频设备、计算机可读存储介质，所述方法应用于视频设备中，所述方法包括：获取所述视频设备采集的交互数据；接收远程终端的交互请求；根据所述交互请求确定与所述远程终端的交互模式，所述交互模式包括全局视角模式和/或局部视角模式；根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端。本申请的远程交互方法可以根据远程终端的交互请求对视频设备采集的交互数据进行调整，进而可以根据远程终端用户的实际需要在全局视角模式和局部视角模式之间进行切换，利用虚拟方式实现了类似于物理运镜的效果，大大丰富了用户的远程交互需求，提高了用户的远程交互体验。

Description

远程交互方法、装置、视频设备和计算机可读存储介质

技术领域

本申请涉及远程交互技术领域，具体涉及一种远程交互方法、装置、视频设备和计算机可读存储介质。

背景技术

随着跨公司、跨地区协作办公的普及，远程交互的场景应用越来越丰富，例如在多人远程视频会议场景下，为了保证视频会议中所有与会人员都有机会发言，需要与会人员都配备有相应的设备，且都要统一接入平台，而且会议期间每个发言人都需要频繁启用或停用自己的麦克风，操作复杂。

此外，一些视频会议场景下还采用了摄像头和投影的组合设备，现场的与会人员需要尽可能分布在摄像头的同一侧以保证可以被远程与会人员看到，但当画面中人数较多时，将不利于远程与会人员将注意力集中于发言人员，进而影响远程会议体验。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的远程交互方法、装置、视频设备和计算机可读存储介质。

依据本申请的第一方面，提供了一种远程交互方法，所述方法应用于视频设备中，所述方法包括：

获取所述视频设备采集的交互数据；

接收远程终端的交互请求；

根据所述交互请求确定与所述远程终端的交互模式，所述交互模式包括全局视角模式和/或局部视角模式；

根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端。

可选地，所述交互数据包括通过所述视频设备中的全景相机采集的全景图像，以及通过所述视频设备中的麦克风阵列采集的声源信号。

可选地，所述根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端包括：

若根据所述交互请求确定与所述远程终端的交互模式为所述全局视角模式，则对所述全景图像进行反畸变处理，得到第一反畸变图像；

将所述第一反畸变图像发送至所述远程终端，以使所述远程终端进入所述全局视角模式。

可选地，所述局部视角模式包括自由视角模式，所述根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端包括：

接收所述远程终端的屏幕操作指令；

根据所述屏幕操作指令对所述全景图像进行调整，得到自由视角图像；

将所述自由视角图像发送至所述远程终端，以使所述远程终端进入所述自由视角模式。

可选地，所述根据所述屏幕操作指令对所述全景图像进行调整，得到自由视角图像包括：

若所述屏幕操作指令为方向调整指令，则确定所述全景图像的像素中心，并将所述全景图像的像素中心作为反畸变中心；

根据所述方向调整指令对所述反畸变中心进行调整，根据调整后的反畸变中心得到所述自由视角图像。

若所述屏幕操作指令为图像缩放指令，则根据所述图像缩放指令确定在所述全景图像上的选定区域；

根据所述图像缩放指令对所述选定区域进行放大或缩小，得到所述自由视角图像。

可选地，所述局部视角模式包括自动视角模式，所述根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端包括：

根据所述声源信号确定声源方向；

根据所述声源方向对所述全景图像进行调整，得到自动视角图像；

将所述自动视角图像发送至所述远程终端，以使所述远程终端进入所述自动视角模式。

可选地，所述根据所述声源方向对所述全景图像进行调整，得到自动视角图像包括：

根据所述声源方向对所述全景图像进行裁剪，得到裁剪图像；

对所述裁剪图像进行反畸变处理，得到第二反畸变图像；

对所述第二反畸变图像进行人脸识别，根据人脸识别结果确定所述第二反畸变图像中的人脸区域；

对所述第二反畸变图像中的人脸区域进行尺寸调整，得到所述自动视角图像。

可选地，所述方法还包括：

对所述声源信号进行降噪处理；

将降噪处理后的声源信号发送至所述远程终端。

可选地，所述方法还包括：

与外部音视频播放设备进行连接，以使所述外部音视频播放设备接收所述交互数据。

依据本申请的第二方面，提供了一种远程交互装置，其特征在于，所述装置应用于视频设备中，所述装置包括：

获取单元，用于获取所述视频设备采集的交互数据；

接收单元，用于接收远程终端的交互请求；

确定单元，用于根据所述交互请求确定与所述远程终端的交互模式，所述交互模式包括全局视角模式和/或局部视角模式；

调整单元，用于根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端。

依据本申请的第三方面，提供了一种视频设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一所述的远程交互方法。

可选地，所述视频设备还包括：全景相机、麦克风阵列模块、触摸显示屏、扬声器、无线通信模块和上位机，所述上位机包括所述处理器和所述存储器，所述全景相机、所述麦克风阵列模块、所述触摸显示屏、所述扬声器和所述无线通信模块分别与所述上位机连接；

所述全景相机，用于采集全景图像；

所述麦克风阵列模块，用于采集声源信号；

所述触摸显示屏，用于提供控制界面；

所述扬声器，用于播放所述声源信号；

所述无线通信模块，用于与远程终端或者外部音视频播放设备进行交互。

依据本申请的第四方面，提供了一种远程交互系统，所述远程交互系统包括如前任一项所述的视频设备，以及一个或多个远程终端。

依据本申请的第五方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一所述的远程交互方法。

由上述可知，本申请的技术方案至少达到了如下的技术效果：本申请实施例的远程交互方法，主要应用于视频设备中，在进行远程交互时，先获取视频设备采集的交互数据；接收远程终端的交互请求；然后根据交互请求确定与远程终端的交互模式，这里的交互模式包括全局视角模式和/或局部视角模式；最后根据交互模式对交互数据进行调整，并将调整后的交互数据发送至远程终端。根据本申请实施例的远程交互方法，当实际应用场景下的相关人员没有或无法聚集到视频设备的同一侧的情况下，视频设备也能够获取到全局视角下的交互数据，进而为远程终端的用户展示现实场景下的全局视角，而当实际应用场景下的相关人员较多时，还能够通过局部视角模式使得远程终端的用户将注意力集中于需要重点关注的人员，大大提高了用户的远程交互体验。本申请实施例的远程交互方法可以根据远程终端的交互请求对视频设备采集的交互数据进行调整，进而可以根据远程终端用户的实际需要在全局视角模式和局部视角模式之间进行切换，利用虚拟方式实现了类似于物理运镜的效果，大大丰富了用户的远程交互需求。此外，本申请实施例的远程交互方法不需要相关人员均配备有终端设备，也能够采集相关人员的音频。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的远程交互系统的结构示意图；

图2示出了根据本申请一个实施例的远程交互方法的流程示意图；

图3示出了根据本申请一个实施例的全局视角模式下的远程交互流程框图；

图4示出了根据本申请一个实施例的自由视角模式下的远程交互流程框图；

图5示出了根据本申请一个实施例的自动视角模式下的远程交互流程框图；

图6示出了根据本申请一个实施例的远程交互流程框图；

图7示出了根据本申请一个实施例的远程交互装置的结构示意图；

图8示出了根据本申请一个实施例的视频设备的结构示意图；

图9示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

如图1所示，提供了一种远程交互系统的结构示意图，该远程交互系统包括视频设备，以及一个或多个远程终端。

本申请的视频设备主要包括全景相机，麦克风阵列模块，上位机，触摸显示屏，扬声器和无线通信模块等。全景相机可以采用在多个方向上分布有多个摄像头的摄像头模组的结构来实现，全景相机主要用于采集全景图像。麦克风阵列模块的本质是一个声音采集的系统，该系统使用多个麦克风采集来自于不同空间方向的声音，各个麦克风按照指定要求排列后，加上相应的算法(排列+算法)就可以解决很多室内声学问题，比如声源定位、去混响、语音增强、盲源分离等。上位机与全景相机和麦克风阵列模块分别连接，主要用于对全景相机采集的全景图像以及麦克风阵列模块采集的声源信号进行分析处理，以及控制全景相机、麦克风阵列模块以及扬声器等模块的工作。

触摸显示屏主要用于用户输入对视频设备的控制指令等，扬声器主要用于将采集到的声源信号进行播放，无线通信模块则主要用于与一个或多个远程终端，或者其他外部音视频播放设备进行通信连接和数据交互，以上这三个结构均与上位机进行连接，以使上位机进行数据的集中处理和控制。

基于此，本申请实施例提供了一种远程交互方法，所述方法应用于上述视频设备中，如图2所示，所述方法包括如下的步骤S210至步骤S240：

步骤S210，获取所述视频设备采集的交互数据。

在进行远程交互时，可以先获取上述视频设备采集的交互数据，作为后续进行远程交互的基础。视频设备对于交互数据的采集可以是实时采集，例如在远程视频会议场景下，可以实时采集会议现场的图像和声音等信息发送至远程终端，以使远程终端的用户能够实时了解到会议现场的情况。当然，也可以是每隔一段时间进行一次采集，例如在远程监控场景下，可以每隔一段时间采集一次被监控现场的图像并上传，既满足了实际的监控需求，同时也能够在一定程度上节省设备的运行资源。

步骤S220，接收远程终端的交互请求。

在实际应用场景下，远程终端的用户可以通过远程终端触发与视频设备的交互请求。这里的远程终端可以有一个或者多个，可以理解为是任何一个存在与视频设备进行远程交互需求的终端设备，这里并不局限于地理位置上的远近。例如，在远程视频会议的场景下，当会议现场人数较多时，一些用户可能同样存在观看整个会议现场场景的实际需要，因此这些用户同样也可以利用其终端设备触发与视频设备的交互请求。

步骤S230，根据所述交互请求确定与所述远程终端的交互模式，所述交互模式包括全局视角模式和/或局部视角模式。

本申请实施例的远程交互方法提供了多种与远程终端的交互模式，包括全局视角模式和/或局部视角模式，这里的全局视角模式可以理解是为远程终端的用户展示的现实场景下的全局信息，这里的局部视角模式可以理解为是为远程终端的用户展示的现实场景下的局部信息，如需要远程终端的用户重点关注的信息。由于用户可根据实际需要选择相应的交互模式，因此这里可以根据远程终端发送过来的交互请求确定用户需要的交互模式。

步骤S240，根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端。

本申请实施例的视频设备在开启后，会按照预设的初始交互模式将采集到的交互数据发送至远程终端进行显示，这里的初始交互模式可以设置为全局视角模式，也可以设置为局部视角模式，在此不作具体限定。

实际应用场景下，如果能够接收到远程终端的交互请求，则说明用户想要对当前的交互模式进行切换或调整，因此在根据交互请求确定了与远程终端的交互模式后，则可以对当前的交互模式下的交互数据进行调整，然后将调整后的交互数据发送至远程终端，进而满足远程终端的交互需求。

需要说明的是，上述步骤S210和步骤S220之间没有严格的先后顺序之分，二者是并列的关系。

根据本申请实施例的远程交互方法，当实际应用场景下的相关人员没有或无法聚集到视频设备的同一侧的情况下，视频设备也能够获取到全局视角下的交互数据，进而为远程终端的用户展示现实场景下的全局视角，而当实际应用场景下的相关人员较多时，还能够通过局部视角模式使得远程终端的用户将注意力集中于需要重点关注的人员，大大提高了用户的远程交互体验。本申请实施例的远程交互方法可以根据远程终端的交互请求对视频设备采集的交互数据进行调整，进而可以根据远程终端用户的实际需要在全局视角模式和局部视角模式之间进行切换，大大丰富了用户的远程交互需求。此外，本申请实施例的远程交互方法不需要相关人员均配备有终端设备，也能够采集相关人员的音频。

此外，现有的图像采集方法需要在一个镜头中通过移动摄像机机位，或者改变镜头光轴，或者变化镜头焦距等物理运镜方式采集全景图像，这种方式需要专业摄影人员来实现，成本较高且效率低下。而本申请的远程交互方法所采用的视频设备，在不采用上述物理运镜方式的情况下也能够采集到全景图像，即同样能够实现类似于物理运镜的效果，该过程不需要专业摄影人员的参与，即能够实现图像的自动采集，降低了图像采集成本，且提高了图像采集效率。

在本申请的一个实施例中，在接收远程终端的交互请求之前，还需要建立视频设备与远程终端的连接关系。例如在远程视频会议场景下，在视频设备开启后，可以在视频设备的触摸显示屏中生成一个接入码，然后可以将该接入码分享给需要参加此次会议的用户，用户以此接入码作为准入凭证在远程终端进行登录，登录成功则建立起远程终端与视频设备的连接关系。

在本申请的一个实施例中，视频设备采集的交互数据具体可以包括通过视频设备中的全景相机采集的全景图像，以及通过视频设备中的麦克风阵列采集的声源信号。全景图像可以理解为是在全方位视角下采集到的图像，也即本申请实施例的全景相机具有全方向采集图像的能力，进而可以避免当现实场景下人员较多时，由于相机镜头视角的限制而需要所有人拥挤出现在镜头的同一侧的问题，导致拍摄到的图像效果较差。

声源信号主要用于向远程终端的用户传递音频，另一方面也可作为局部视角模式下的基础数据。在实际应用场景下，现有技术中的远程视频会议方法针对现场的每个发言人员，均需要配备有能够采集声源信号的终端设备，而本申请实施例通过视频设备中的麦克风阵列就可以实现对现场各个方位传来的声源信号的采集，使用更加方便，且成本较低。

由于本申请实施例采用的是全景相机进行图像的采集，采集到的图像即为全景图像。因此在本申请的一个实施例中，如果根据接收到的远程终端的交互请求确定与远程终端的交互模式为全局视角模式，则可以直接将全景相机采集到的全景图像作为全局视角模式下的基础交互数据。

在实际应用场景下，如果是使用广角镜头(如180°的鱼眼镜头)来实现全景相机的效果，虽然广角镜头可提供大视角、宽视野的环景图像，但由于广角镜头拍摄的图像变形厉害，即容易出现图像“畸变”，导致对细节处难以辨识和分析，进而影响用户的视觉感受。因此为了解决图像畸变的问题，可以对上述得到的全景图像进行反畸变处理，进而得到第一反畸变图像；最后将第一反畸变图像发送至远程终端，使得远程终端的用户能够体验全局视角模式，提高用户的远程交互体验。如图3所示，提供了一种全局交互模式下的远程交互流程框图。

上述的反畸变处理具体可以包括径向畸变处理和切向畸变处理等，具体可依据现有技术中的反畸变算法来实现，例如可以采用如下方法：1)将全景图像的像素坐标转换到摄像机坐标系下(通过相机内参实现)；2)计算畸变量；3)确定畸变位置；4)将该摄像机坐标系下的坐标转到像素坐标系下，得到反畸变图像。当然，除了上述列举的方法，本领域技术人员也可以根据实际需求选择其他的反畸变算法，在此不作具体限定。

如图4所示，在本申请的一个实施例中，局部视角模式具体可以包括自由视角模式，自由视角模式可以理解为是用户可根据自己的实际需要灵活选择所要观看的视角或者图像区域。如果根据当前接收到的远程终端的交互请求确定与远程终端的交互模式为自由视角模式，则可以接收远程终端发送过来的屏幕操作指令，该屏幕操作指令可以理解为是用户对远程终端的显示界面上显示的全景图像所做出的调整指令，因此可以根据该屏幕操作指令对全景图像进行相应的调整，进而得到自由视角图像，最后将该自由视角图像发送至远程终端，使得远程终端的用户可以体验自由视角模式，提高用户的远程交互体验。

在本申请的一个实施例中，上述屏幕操作指令可以是方向调整指令，这里的方向调整指令可以理解为用户在远程终端的显示界面上对图像进行上下、左右方向调整的指令。如图4所示，如果接收到的屏幕操作指令为方向调整指令，则可以先确定全景图像的像素中心，并将全景图像的像素中心作为反畸变中心，然后根据方向调整指令对反畸变中心进行调整，进而根据调整后的反畸变中心得到自由视角图像。

在本申请的一个实施例中，上述屏幕操作指令还可以是图像缩放指令，这里的图像缩放指令可以理解为是对全景图像上的选定区域进行缩小或放大的调整指令。如图4所示，如果接收到的屏幕操作指令为图像缩放指令，则可以先根据图像缩放指令确定用户在全景图像上的选定区域，然后根据图像缩放指令对选定区域进行放大或缩小，进而得到自由视角图像。

例如，假设用户用单手拇指和食指触摸远程终端的显示界面，则单手的拇指和食指之间围成的区域就可以作为全景图像的选定区域，当用户的拇指和食指向在显示界面上相向滑动时，对应触发的是对全景图像上的选定区域进行缩小的调整指令，当用户的拇指和食指向在显示界面上向相反方向滑动时，对应触发的是对全景图像上的选定区域进行放大的调整指令。

在本申请的一个实施例中，局部视角模式还可以包括自动视角模式，这里的自动视角模式可以理解为是根据实际场景需要自动调整所要显示的图像。如图5所示，在自动视角模式下，可以先根据麦克风阵列采集到的声源信号确定声源方向，然后根据声源方向对全景图像进行调整，得到自动视角图像，最后将自动视角图像发送至远程终端，使得远程终端的用户能够进入到自动视角模式，该过程符合实际场景的需要，进而可以提高用户的远程交互体验。

上述根据麦克风阵列采集到的声源信号确定声源方向本质上是一种声源定位的手段，声源定位在视频电话会议、人工智能、语音追踪与识别、监控系统等多个领域都有着广泛的应用。具体地，通过将一组麦克风传感器按一定方式布置在空间不同位置上，形成麦克风阵列，然后利用麦克风阵列接收空间声源信号，再对阵列接收的信号进行处理，提取信号的有用特征，再通过一定计算方法得到声源的方向信息。

当然除了上述列举的声源定位方法，本领域技术人员也可以根据实际需求选择其他的方法，在此不做具体的限定。

如图5所示，在本申请的一个实施例中，在根据声源方向对全景图像进行调整时，可以先根据确定好的声源方向对全景图像进行裁剪，得到裁剪图像。这里裁剪的区域大小和形状可根据实际应用场景自定义设置，只要能够覆盖到实际应用场景下的目标对象即可。例如，在远程视频会议场景下，可以将裁剪的区域大小设置为全景图像的三分之一，将裁剪的区域形状设置为矩形框等等，以尽可能覆盖到会议上的发言人员。

在得到裁剪图像后，可以对裁剪图像进行反畸变处理，得到第二反畸变图像。相比于直接对全景图像进行反畸变处理，更具有针对性，且处理效率也更高。

为了使远程终端的用户能够聚焦到实际应用场景下的目标对象，这里在得到第二反畸变图像后，可以进一步对第二反畸变图像的目标人脸进行识别，然后根据人脸识别结果确定第二反畸变图像中的人脸区域；对第二反畸变图像中的人脸区域进行尺寸调整，例如将人脸区域放大至全景图像的尺寸，得到最终的自动视角图像，进而可以使远程终端的用户能够将注意力集中到目标对象上，提高远程交互效率。

上述人脸识别的方法具体可以是指人脸骨骼识别算法，具体过程可以包括图像处理、骨骼特征提取和人脸骨骼识别几个步骤。由于现有技术中在人脸识别方面具有非常成熟的算法，且本申请实施例适用于任意的人脸识别算法，所以在此不做具体限定，本领域技术人员可根据实际需求灵活选择。

如前所述，交互数据中可以包括麦克风阵列采集的声源信号，声源信号除了可以用于确定声源方向，也可以作为音频数据发送到远程终端，以使远程终端的用户能够听到实际应用场景下的声音，因此在上述的任意一种交互模式下，都可以将麦克风阵列采集的声源信号同步发送给远程终端。

然而当麦克风阵列采集声源信号时，容易受到周围环境因素的影响，使采集的声源信号包含噪声，影响声音的品质，因此在本申请的一个实施例中，可以先对麦克风阵列采集到的声源信号先进行降噪处理，然后再将降噪处理后的声源信号发送至远程终端，进而可以保证用户的远程交互体验。

由于现有技术中在声音降噪处理方面具有较为成熟的算法，如自适应滤波算法、谱减法等等，且本申请实施例适用于任意的降噪处理算法，所以在此不做具体限定，本领域技术人员可根据实际需求灵活选择。

在本申请的一个实施例中，上述视频设备除了可以与远程终端建立连接，还可以与外部音视频播放设备进行连接，使得外部音视频播放设备也能够接收到实时的交互数据。例如在视频会议场景下，如果会议现场设置有外部音视频播放设备如投影仪等，为了确保现场参会人员都能更好地了解整个会议现场的实况，可以将视频设备与投影仪建立连接，然后向投影仪发送采集到的会议现场的全景图像和声源信号等，使得投影仪可以将全景图像实时投影到屏幕上，并实时播放会议现场的音频，提高会议现场人员的会议体验。

如图6所示，提供了一种远程交互流程框图。首先启动视频设备，与远程终端和外部音视频播放设备(如果有)进行通信连接；然后使视频设备的全景相机进入初始交互模式，将初始交互模式下采集到的交互数据发送至远程终端；之后持续监听远程终端的交互请求，如果能够监听到，则根据交互请求对初始交互模式进行切换或调整，具体可以切换为全局视角模式、自由视角模式或自动视角模式；最后再将调整后的交互数据发送至远程终端，以使远程终端进入到相应的交互模式中，满足用户的远程交互需求。

本申请实施例提供了一种远程交互装置700，所述装置700应用于视频设备中，如图7所示，所述装置700包括：

获取单元710，用于获取所述视频设备采集的交互数据；

接收单元720，用于接收远程终端的交互请求；

确定单元730，用于根据所述交互请求确定与所述远程终端的交互模式，所述交互模式包括全局视角模式和/或局部视角模式；

调整单元740，用于根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端。

在本申请的一个实施例中，所述调整单元740具体用于：若根据所述交互请求确定与所述远程终端的交互模式为所述全局视角模式，则对所述全景图像进行反畸变处理，得到第一反畸变图像；将所述第一反畸变图像发送至所述远程终端，以使所述远程终端进入所述全局视角模式。

在本申请的一个实施例中，所述局部视角模式包括自由视角模式，所述调整单元740具体用于：接收所述远程终端的屏幕操作指令；根据所述屏幕操作指令对所述全景图像进行调整，得到自由视角图像；将所述自由视角图像发送至所述远程终端，以使所述远程终端进入所述自由视角模式。

在本申请的一个实施例中，所述调整单元740具体用于：若所述屏幕操作指令为方向调整指令，则确定所述全景图像的像素中心，并将所述全景图像的像素中心作为反畸变中心；根据所述方向调整指令对所述反畸变中心进行调整，根据调整后的反畸变中心得到所述自由视角图像。

在本申请的一个实施例中，所述调整单元740具体用于：若所述屏幕操作指令为图像缩放指令，则根据所述图像缩放指令确定在所述全景图像上的选定区域；根据所述图像缩放指令对所述选定区域进行放大或缩小，得到所述自由视角图像。

在本申请的一个实施例中，所述局部视角模式包括自动视角模式，所述调整单元740具体用于：根据所述声源信号确定声源方向；根据所述声源方向对所述全景图像进行调整，得到自动视角图像；将所述自动视角图像发送至所述远程终端，以使所述远程终端进入所述自动视角模式。

在本申请的一个实施例中，所述调整单元740具体用于：根据所述声源方向对所述全景图像进行裁剪，得到裁剪图像；对所述裁剪图像进行反畸变处理，得到第二反畸变图像；对所述第二反畸变图像进行人脸识别，根据人脸识别结果确定所述第二反畸变图像中的人脸区域；对所述第二反畸变图像中的人脸区域进行尺寸调整，得到所述自动视角图像。

在本申请的一个实施例中，所述装置还包括：降噪处理单元，用于对所述声源信号进行降噪处理；发送单元，用于将降噪处理后的声源信号发送至所述远程终端。

在本申请的一个实施例中，所述装置还包括：连接单元，用于与外部音视频播放设备进行连接，以使所述外部音视频播放设备接收所述交互数据。

需要说明的是，上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

综上所述，本申请的技术方案至少达到了如下的技术效果：本申请实施例的远程交互方法当实际应用场景下的相关人员没有或无法聚集到视频设备的同一侧的情况下，也能够获取到全局视角下的交互数据，进而为远程终端的用户展示现实场景下的全局视角，而当实际应用场景下的相关人员较多时，还能够通过局部视角模式使得远程终端的用户将注意力集中于需要重点关注的人员，大大提高了用户的远程交互体验。本申请实施例的远程交互方法可以根据远程终端的交互请求对视频设备采集的交互数据进行调整，进而可以根据远程终端用户的实际需要在全局视角模式和局部视角模式之间进行切换，利用虚拟方式实现了类似于物理运镜的效果，大大丰富了用户的远程交互需求。此外，本申请实施例的远程交互方法不需要相关人员均配备有终端设备，也能够采集相关人员的音频。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的远程交互装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图8示出了根据本申请一个实施例的视频设备的结构示意图。该视频设备800包括处理器810和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器820。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码831的存储空间830。例如，用于存储计算机可读程序代码的存储空间830可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码831。计算机可读程序代码831可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图9所示的计算机可读存储介质。图9示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质900存储有用于执行根据本申请的远程交互方法步骤的计算机可读程序代码831，可以被视频设备800的处理器810读取，当计算机可读程序代码831由视频设备800运行时，导致该视频设备300执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码831可以执行上述任一实施例中示出的方法。计算机可读程序代码831可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种远程交互方法，其特征在于，所述方法应用于视频设备中，所述方法包括：

获取所述视频设备采集的交互数据；

接收远程终端的交互请求；

2.根据权利要求1所述的方法，其特征在于，所述交互数据包括通过所述视频设备中的全景相机采集的全景图像，以及通过所述视频设备中的麦克风阵列采集的声源信号。

3.根据权利要求2所述的方法，其特征在于，所述根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端包括：

4.根据权利要求2所述的方法，其特征在于，所述局部视角模式包括自由视角模式，所述根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端包括：

接收所述远程终端的屏幕操作指令；

5.根据权利要求4所述的方法，其特征在于，所述根据所述屏幕操作指令对所述全景图像进行调整，得到自由视角图像包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述屏幕操作指令对所述全景图像进行调整，得到自由视角图像包括：

7.根据权利要求2所述的方法，其特征在于，所述局部视角模式包括自动视角模式，所述根据所述交互模式对所述交互数据进行调整，并将调整后的交互数据发送至所述远程终端包括：

根据所述声源信号确定声源方向；

8.根据权利要求7所述的方法，其特征在于，所述根据所述声源方向对所述全景图像进行调整，得到自动视角图像包括：

对所述裁剪图像进行反畸变处理，得到第二反畸变图像；

9.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述声源信号进行降噪处理；

将降噪处理后的声源信号发送至所述远程终端。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述方法还包括：

11.一种远程交互装置，其特征在于，所述装置应用于视频设备中，所述装置包括：

获取单元，用于获取所述视频设备采集的交互数据；

接收单元，用于接收远程终端的交互请求；

12.一种视频设备，其中，该视频设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至10中任一项所述的远程交互方法。

13.根据权利要求12所述的视频设备，其特征在于，所述视频设备还包括：全景相机、麦克风阵列模块、触摸显示屏、扬声器、无线通信模块和上位机，所述上位机包括所述处理器和所述存储器，所述全景相机、所述麦克风阵列模块、所述触摸显示屏、所述扬声器和所述无线通信模块分别与所述上位机连接；

所述全景相机，用于采集全景图像；

所述麦克风阵列模块，用于采集声源信号；

所述触摸显示屏，用于提供控制界面；

所述扬声器，用于播放所述声源信号；

14.一种远程交互系统，其特征在于，所述远程交互系统包括如权利要求12至13任一项所述的视频设备，以及一个或多个远程终端。

15.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1至10中任一项所述的远程交互方法。