CN110673811B

CN110673811B - 基于声音信息定位的全景画面展示方法、装置及存储介质

Info

Publication number: CN110673811B
Application number: CN201910927508.9A
Authority: CN
Inventors: 陈丹; 熊垚森; 杨海军; 邓辉中
Original assignee: Kandao Technology Co Ltd
Current assignee: Kandao Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2024-04-16
Anticipated expiration: 2039-09-27
Also published as: CN110673811A

Abstract

本发明提供一种基于声音信息定位的全景画面展示方法，其包括：获取当前场景的全景画面信息以及全景声音信息；对全景画面信息进行人脸识别操作，获取当前场景的用户面部图像以及对应的图像位置信息；将图像位置信息以及声音位置信息进行对比操作，获取待展示的用户面部图像；对待展示的用户面部图像进行展示操作。本发明还提供一种全景画面展示装置，本发明通过用户面部图像的图像位置信息以及声音位置信息，确定需要展示的用户面部图像，基于用户的声音实现了对用户画面的有效切换，提高了整体画面的展示效率。

Description

基于声音信息定位的全景画面展示方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种全景画面展示方法、装置及对应的存储介质。

背景技术

随着社会的发展，人们之间的交互越来越紧密，但是同一产品的不同部件的生产地却越来越分散，因此公司产品领导经常需要为了某个生产计划需要和各地的不同公司员工进行联系，或电话会议等。

现有的电话会议系统中对话双方只能看到摄像头正在拍摄的用户，需要通过切换摄像头的镜头拍摄角度对拍摄的用户进行切换；且如果一方有多人在对话时，无法实现对不同对话用户的及时切换，也无法及时对画面进行缩放操作，以便同时展示多个对话用户；因此现有的电视会议系统不能实现对用户画面的及时切换，导致画面展示效率较低。

故，有必要提供一种基于声音信息定位的全景画面展示方法以及装置，以解决现有技术所存在的问题。

发明内容

本发明实施例提供一种可实现对用户画面的有效切换且画面展示效率较高的基于声音信息定位的全景画面展示方法以及装置，以解决现有的全景画面展示方法以及装置不能实现对用户的画面的及时切换，导致画面展示效率较低的技术问题。

本发明实施例提供一种基于声音信息定位的全景画面展示方法，其包括：

获取当前场景的全景画面信息以及全景声音信息；其中所述全景声音信息包括声音位置信息；

对所述全景画面信息进行人脸识别操作，获取所述当前场景的用户面部图像以及对应的图像位置信息；

将所述图像位置信息以及所述声音位置信息进行对比操作，获取待展示的用户面部图像；以及

对所述待展示的用户面部图像进行展示操作。

在本发明所述的基于声音信息定位的全景画面展示方法中，所述对所述待展示的用户面部图像进行展示操作的步骤还包括：如所述用户面部图像对应的用户正在移动，则通过所述固定用户展示位对移动中的用户的用户面部图像进行展示，通过全景画面展示位对移动中的用户的周围场景进行展示，其中所述移动中的用户的用户面部图像位于所述全景画面展示位的中部。

在本发明所述的基于声音信息定位的全景画面展示方法中，所述全景画面展示方法还包括：当所述用户面部图像进行切换时，获取切换后的用户面部图像与当前用户面部图像在全景画面中的距离；如切换后的用户面部图像与当前用户面部图像的距离大于等于设置值，则通过固定用户展示位对切换后的用户面部图像进行展示；如切换后的用户面部图像与当前用户面部图像的距离小于设定值，则通过固定用户展示位对当前用户面部图像到切换后的用户面部图像的切换过程进行展示后，再对切换后的用户面部图像进行展示，通过全景画面展示位对切换后的用户面部图像对应的周围场景进行展示。

本发明实施例还提供一种基于声音信息定位的全景画面展示装置，其包括：

画面信息及声音信息获取模块，用于获取当前场景的全景画面信息以及全景声音信息；其中所述全景声音信息包括声音位置信息；

用户面部信息获取模块，用于对所述全景画面信息进行人脸识别操作，获取所述当前场景的用户面部图像以及对应的图像位置信息；

对比模块，用于将所述图像位置信息以及所述声音位置信息进行对比操作，获取待展示的用户面部图像；以及

用户展示模块，用于对所述待展示的用户面部图像进行展示操作。

本发明还提供一种计算机可读存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器加载，以执行上述任一的基于声音信息定位的全景画面展示方法。

相较于现有技术的全景画面展示方法及装置，本发明的全景画面展示方法及装置通过用户面部图像的图像位置信息以及声音位置信息，确定需要展示的用户面部图像，基于用户的声音实现了对用户画面的有效切换，提高了整体画面的展示效率，有效解决了现有的全景画面展示方法以及装置不能实现对用户的画面的及时切换，导致画面展示效率较低的技术问题。

附图说明

图1为本发明的基于声音信息定位的全景画面展示方法的第一实施例的流程图；

图2为本发明的基于声音信息定位的全景画面展示方法的第二实施例的流程图；

图3为本发明的基于声音信息定位的全景画面展示装置的第一实施例的结构示意图；

图4为本发明的基于声音信息定位的全景画面展示装置的第二实施例的结构示意图；

图5为本发明的基于声音信息定位的全景画面展示装置的第二实施例的对比模块的结构示意图；

图6为本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的具体实施例的全景画面展示流程图；

图7a-图7e为本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的具体实施例的全景画面展示示意图；

图8为本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的另一具体实施例的全景画面展示流程图；

图9a-9c为本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的另一具体实施例的全景画面展示示意图；

图10为本发明的全景画面展示装置所在的电子设备的工作环境结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基于声音信息定位的全景画面展示方法及装置用于对当前场景下的用户画面进行有效展示的电子设备。该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。该电子设备优选为接收全景画面信息、并通过显示屏对该全景画面信息进行展示的电子终端，即用户可通过固定终端或移动终端查看全景相机实时拍摄的全景画面信息，如会议场景的用户画面等。

请参照图1，图1为本发明的基于声音信息定位的全景画面展示方法的第一实施例的流程图。本实施例的全景画面展示方法可使用上述的电子设备进行实施，本实施例的全景画面展示方法包括：

步骤S101，获取当前场景的全景画面信息以及全景声音信息；其中全景声音信息包括声音位置信息；

步骤S102，对全景画面信息进行人脸识别操作，获取当前场景的用户面部图像以及对应的图像位置信息；

步骤S103，将图像位置信息以及声音位置信息进行对比操作，获取待展示的用户面部图像；

步骤S104，对待展示的用户面部图像进行展示操作。

下面详细说明本实施例的基于声音信息定位的全景画面展示方法的各步骤的具体流程。

在步骤S101中，电子设备(如用户固定终端)获取当前场景的全景画面信息以及全景声音信息。其中全景画面信息以及全景声音信息由全景相机进行采集，全景画面信息包括以全景相机为中心360度范围内的画面信息，全景声音信息包括以全景相机为中心360度范围内的声音信息，其中全景画面信息包括用于表示画面信息对应的位置信息的画面位置信息，全景声音信息包括用于表示声音信息对应的位置信息的声音位置信息。

在步骤S102中，电子设备对步骤S101中获取的全景画面信息进行人脸识别操作，从而可获取当前场景中所有用户的用户面部图像以及该用户面部图像在全景画面中对应的图像位置信息。

这里的人脸识别可通过用户的面部特征点(如五官等)进行人脸识别，也可通过用户的面部轮廓进行人脸识别，设置通过人脸在人体的相对位置关系进行人脸识别等。

在步骤S103中，电子设备将步骤S102获取的图像位置信息与步骤S101获取的声音位置信息(这里默认当前只有一个用户正在发言，即当前全景声音信息只有一个声音位置信息)进行对比操作，即将用户面部图像的图像位置信息与全景声音信息的声音位置信息进行位置比对，将匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像。

在步骤S104中，电子设备对步骤S103获取的待展示的用户面部图像进行展示操作。具体的，电子设备可按设定图像大小对待展示的用户面部图像进行调整，以使得调整后的用户面部图像可较好的通过固定用户展示位进行展示操作。

这样即完成了本实施例的基于声音信息定位的全景画面展示方法的全景画面中用户面部图像的展示过程。

本实施例的基于声音信息定位的全景画面展示方法通过用户面部图像的图像位置信息以及声音位置信息，确定需要展示的用户面部图像，基于用户的声音实现了对用户画面的有效切换，提高了整体画面的展示效率。

请参照图2，图2为本发明的基于声音信息定位的全景画面展示方法的第二实施例的流程图。本实施例的全景画面展示方法可使用上述的电子设备进行实施，本实施例的全景画面展示方法包括：

步骤S201，获取当前场景的全景画面信息以及全景声音信息；其中全景声音信息包括声音位置信息；

步骤S202，对全景画面信息进行人脸识别操作，获取当前场景的用户面部图像，并把用户面部图像对应的画面位置信息作为用户面部图像的图像位置信息；

步骤S203，获取所有的声音位置信息；

步骤S204，确定与所述声音位置信息匹配的图像位置信息，并将匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像；

步骤S205，将待展示的用户面部图像调整为设定大小的用户面部图像；

步骤S206，使用固定用户展示位对最近发言或最高发言频率的n个用户的用户面部图像进行展示操作，其中n为用户展示位的数量。

在步骤S201中，电子设备获取当前场景的全景画面信息以及全景声音信息。其中全景画面信息以及全景声音信息由全景相机进行采集，全景画面信息包括以全景相机为中心360度范围内的画面信息，全景声音信息包括以全景相机为中心360度范围内的声音信息。

在步骤S202中，电子设备对步骤S201中获取的全景画面信息进行人脸识别操作，从而可获取当前场景中所有用户的用户面部图像。随后把用户面部图像在全景画面中的画面位置信息作为用户面部图像的图像位置信息。

进一步的，这里还可使用全景画面的一端的端画面，对全景画面的另一端画面帧边缘进行画面扩充，得到扩充后的全景画面帧。这里的端画面可为全景画面一端的展示角度为10度至30度的部分全景画面。

随后对扩充后的全景画面帧(全景画面信息)进行人脸识别操作，从而得到全景画面中所有用户的人脸特征点。当检测到具有相同画面位置信息的人脸特征点时，可对具有相同画面位置信息的人脸特征点进行排重处理。进而通过获取的人脸特征点来获取当前场景中所有用户的用户面部图像。这里通过画面边缘扩充，避免了用户面部图像被画面边缘分割而导致的无法识别，进一步提高了用户面部图像识别的准确性。

在步骤S203中，电子设备获取步骤S201中的所有的全景声音信息；

在步骤S204中，电子设备确定步骤S203中的全景声音信息的声音位置信息匹配的图像位置信息，即当声音位置信息与图像位置信息的位置差异值小于设定值时，电子设备认定声音位置信息与该图像位置信息匹配。随后电子设备将匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像。

具体的，如果这里电子设备同时获取了多个声音位置信息，则可同时将多个匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像。如当前场景中两个用户在对话时，则可将这两个用户对应的用户面部图像均作为待展示的用户面部图像。

由于全景相机采集到的声音位置信息具有一定的精度，如有多个用户的图像位置信息之间的距离差异较小，仅仅通过声音位置信息，还是无法区分对应的图像位置信息，则电子设备可通过识别全景画面中的用户动作信息来确定该声音位置信息对应的图像位置信息，进而确定待展示的用户面部图像。该用户动作信息可为用户的举手动作或嘴部动作等。如电子设备识别出某个声音位置信息匹配了两个用户面部图像，则可将正在做举手动作的用户或具有嘴部动作的用户对应的用户面部图像设置为待展示的用户面部图像。

同时如多个用户同时发言，电子设备可能会同时采集到多个声音位置信息，进而获取多个图像位置信息以及用户面部图像。为了避免其他用户的交谈杂音对用户面部图像展示的干扰，只有当用户对应的声音音量信息大于设定值，其对应的声音位置信息才会被采集，以便查找对应的图像位置信息以及用户面部图像。

在步骤S205中，电子设备可按设定图像大小对待展示的用户面部图像进行调整，以使得调整后的用户面部图像可较好的通过固定用户展示位进行展示操作。

在步骤S206中，由于电子设备的展示画面包括多个固定用户展示位。这里电子设备可使用固定展示位对最近发言或最高发言频率的n个用户的用户面部图像进行展示，其中n为用户展示位的数量。这样可有效的避免多个用户交谈时，对用户面部图像的频繁切换。

这样即完成了本实施例的全景画面展示方法的全景画面中用户面部图像的展示过程。

优选的，本实施例的电子设备的展示画面还可包括活动用户展示位。这样当待展示的用户面部图像具有邻近用户面部图像，且该邻近用户面部图像与待展示的用户面部图像之间距离小于设定值，则可将邻近用户面部图像与待展示用户面部图像均设置为待展示的用户面部图像，且可使用该活动用户展示位对该合并后的待展示的用户面部图像进行展示操作。如两个固定用户展示位分别展示两个相邻的用户面部图像，则可将两个固定用户展示位合并为一个活动用户展示位，并使用该活动用户展示位对该合并后的用户面部图像进行展示操作。

优选的，本实施例的电子设备的展示画面还包括一全景画面展示位，本实施例的全景画面展示方法还包括：

使用全景画面展示位对全景画面信息的至少部分全景画面进行等矩形投影展示。这样可在全景画面中将展示中的用户面部图像高亮显示出来，让其他用户更快的找到展示中的用户。同时也方便电子设备端的用户尽快了解当前场景中的全部场景信息。这里可以将全部的全景画面进行投影展示，也可将部分重要区域的全景画面进行投影展示。

另外，还可使用全景画面展示位对全景画面信息的部分全景画面进行透视投影轮询展示。即电子设备对所有的全景画面以轮询的方式进行展示，这样可使得用户可以清楚的了解当前场景中的场景细节信息，当然电子设备可根据用户的指令对全景画面的投影展示模式进行切换。

在第一实施例的基础上，本实施例的基于声音信息定位的全景画面展示方法可基于固定用户展示为对多个用户面部图像进行展示，进一步提高了整体画面的展示效率；同时基于用户动作信息以及声音音量信息来确定待展示的用户面部图像，保证了获取的待展示的用户面部图像的准确性；活动用户展示位以及全景画面展示位的设计，可使得其他用户更加清楚待展示用户的邻近用户情况以及全景画面的整体情况，进一步提高了待展示用户的用户面部图像的展示效率。

本发明实施例还提供一种基于声音信息定位的全景画面展示装置，请参照图3，图3为本发明的基于声音信息定位的全景画面展示装置的第一实施例的结构示意图。本实施例的全景画面展示装置可使用上述的全景画面展示方法的第一实施例进行实施。该全景画面展示装置30包括画面信息及声音信息获取模块31、用户面部信息获取模块32、对比模块33以及用户展示模块34。

画面信息及声音信息获取模块31用于获取当前场景的全景画面信息以及全景声音信息；其中全景声音信息包括声音位置信息；用户面部信息获取模块32用于对全景画面信息进行人脸识别操作，获取当前场景的用户面部图像以及对应的图像位置信息；对比模块33用于将图像位置信息以及声音位置信息进行对比操作，获取待展示的用户面部图像；用户展示模块34用于对待展示的用户面部图像进行展示操作。

本实施例的全景画面展示装置30使用时，首先画面信息及声音信息获取模块31获取当前场景的全景画面信息以及全景声音信息。其中全景画面信息以及全景声音信息由全景相机进行采集，全景画面信息包括以全景相机为中心360度范围内的画面信息，全景声音信息包括以全景相机为中心360度范围内的声音信息，其中全景画面信息包括用于表示画面信息对应的位置信息的画面位置信息，全景声音信息包括用于表示声音信息对应的位置信息的声音位置信息。

随后用户面部信息获取模块32对获取的全景画面信息进行人脸识别操作，从而可获取当前场景中所有用户的用户面部图像以及该用户面部图像在全景画面中对应的图像位置信息。

然后对比模块33将图像位置信息与声音位置信息(这里默认当前只有一个用户正在发言，即当前全景声音信息只有一个声音位置信息)进行对比操作，即将用户面部图像的图像位置信息与全景声音信息的声音位置信息进行位置比对，将匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像。

最后用户展示模块34对待展示的用户面部图像进行展示操作。具体的，用户展示模块34可按设定图像大小对待展示的用户面部图像进行调整，以使得调整后的用户面部图像可较好的通过固定用户展示位进行展示操作。

这样即完成了本实施例的全景画面展示装置30的全景画面中用户面部图像的展示过程。

本实施例的全景画面展示装置通过用户面部图像的图像位置信息以及声音位置信息，确定需要展示的用户面部图像，基于用户的声音实现了对用户画面的有效切换，提高了整体画面的展示效率。

请参照图4，图4为本发明的基于声音信息定位的全景画面展示装置的第二实施例的结构示意图。本实施例的基于声音信息定位的全景画面展示装置可使用上述的全景画面展示方法的第二实施例进行实施。该全景画面展示装置40包括画面信息及声音信息获取模块41、用户面部信息获取模块42、对比模块43、用户展示模块44以及全景展示模块45。

画面信息及声音信息获取模块41用于获取当前场景的全景画面信息以及全景声音信息；用户面部信息获取模块42用于获取当前场景的用户面部图像，并把用户面部图像对应的画面位置信息作为用户面部图像的图像位置信息；对比模块43用于将图像位置信息以及声音位置信息进行对比操作，获取待展示的用户面部图像；用户展示模块44用于对待展示的用户面部图像进行展示操作；全景展示模块45用于使用全景画面展示位对全景画面信息的至少部分全景画面进行等矩形投影展示；或使用全景画面展示位对全景画面信息的部分全景画面进行透视投影轮询展示。

请参照图5，图5为本发明的基于声音信息定位的全景画面展示装置的第二实施例的对比模块的结构示意图。该对比模块43包括声音位置信息获取单元51以及对比单元52。

声音位置信息获取单元51用于获取所有的声音位置信息；对比单元52用于确定与声音位置信息匹配的图像位置信息，并将匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像，具体用于基于声音音量信息以及用户动作信息中的至少一个、与声音位置信息的结合，确定与声音位置信息匹配的图像位置信息。

本实施例的基于声音信息定位的全景画面展示装置40使用时，首先画面信息及声音信息获取模块41获取当前场景的全景画面信息以及全景声音信息。其中全景画面信息以及全景声音信息由全景相机进行采集，全景画面信息包括以全景相机为中心360度范围内的画面信息，全景声音信息包括以全景相机为中心360度范围内的声音信息。

随后用户面部信息获取模块42对全景画面信息进行人脸识别操作，从而可获取当前场景中所有用户的用户面部图像。随后把用户面部图像在全景画面中的画面位置信息作为用户面部图像的图像位置信息。

然后对比模块43的声音位置信息获取单元51获取所有的全景声音信息；

随后对比模块43的对比单元52确定全景声音信息的声音位置信息匹配的图像位置信息，即当声音位置信息与图像位置信息的位置差异值小于设定值时，电子设备认定声音位置信息与该图像位置信息匹配。随后电子设备将匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像。

具体的，如果这里对比单元52同时获取了多个声音位置信息，则可同时将多个匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像。如当前场景中两个用户在对话时，则可将这两个用户对应的用户面部图像均作为待展示的用户面部图像。

由于全景相机采集到的声音位置信息具有一定的精度，如有多个用户的图像位置信息之间的距离差异较小，仅仅通过声音位置信息，还是无法区分对应的图像位置信息，则对比单元52可通过识别全景画面中的用户动作信息来确定该声音位置信息对应的图像位置信息，进而确定待展示的用户面部图像。该用户动作信息可为用户的举手动作或嘴部动作等。如对比单元52识别出某个声音位置信息匹配了两个用户面部图像，则可将正在做举手动作的用户或具有嘴部动作的用户对应的用户面部图像设置为待展示的用户面部图像。

同时如多个用户同时发言，对比单元52可能会同时采集到多个声音位置信息，进而获取多个图像位置信息以及用户面部图像。为了避免其他用户的交谈杂音对用户面部图像展示的干扰，只有当用户对应的声音音量信息大于设定值，其对应的声音位置信息才会被采集，以便查找对应的图像位置信息以及用户面部图像。

然后用户展示模块44可按设定图像大小对待展示的用户面部图像进行调整，以使得调整后的用户面部图像可较好的通过固定用户展示位进行展示操作。

最后由于电子设备的展示画面包括多个固定用户展示位。用户展示模块44可使用固定展示位对最近发言或最高发言频率的n个用户的用户面部图像进行展示，其中n为用户展示位的数量。这样可有效的避免多个用户交谈时，对用户面部图像的频繁切换。

这样即完成了本实施例的基于声音信息定位的全景画面展示装置40的全景画面中用户面部图像的展示过程。

优选的，本实施例的电子设备的展示画面还可包括活动用户展示位。这样当待展示的用户面部图像具有邻近用户面部图像，且该邻近用户面部图像与待展示的用户面部图像之间距离小于设定值，则用户展示模块44可将邻近用户面部图像与待展示用户面部图像均设置为待展示的用户面部图像，且可使用该活动用户展示位对该合并后的待展示的用户面部图像进行展示操作。如两个固定用户展示位分别展示两个相邻的用户面部图像，则用户展示模块可将两个固定用户展示位合并为一个活动用户展示位，并使用该活动用户展示位对该合并后的用户面部图像进行展示操作。

优选的，本实施例的电子设备的展示画面还包括一全景画面展示位，本实施例的全景画面展示装置40的全景展示模块45可使用全景画面展示位对全景画面信息的至少部分全景画面进行等矩形投影展示。这样可在全景画面中将展示中的用户面部图像高亮显示出来，让其他用户更快的找到展示中的用户。同时也方便电子设备端的用户尽快了解当前场景中的全部场景信息。这里可以将全部的全景画面进行投影展示，也可将部分重要区域的全景画面进行投影展示。

另外，全景展示模块45还可使用全景画面展示位对全景画面信息的部分全景画面进行透视投影轮询展示。即全景展示模块45对所有的全景画面以轮询的方式进行展示，这样可使得用户可以清楚的了解当前场景中的场景细节信息，当然全景展示模块45可根据用户的指令对全景画面的投影展示模式进行切换。

在第一实施例的基础上，本实施例的全景画面展示装置可基于固定用户展示为对多个用户面部图像进行展示，进一步提高了整体画面的展示效率；同时基于用户动作信息以及声音音量信息来确定待展示的用户面部图像，保证了获取的待展示的用户面部图像的准确性；活动用户展示位以及全景画面展示位的设计，可使得其他用户更加清楚待展示用户的邻近用户情况以及全景画面的整体情况，进一步提高了待展示用户的用户面部图像的展示效率。

下面通过一具体实施例说明本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的具体工作原理。请参照图6以及图7a-7e，图6为本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的具体实施例的全景画面展示流程图，图7a-图7e为本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的具体实施例的全景画面展示示意图。

本实施例的全景画面展示装置设置在具有显示屏幕的固定终端上，用于对远端的会议场景进行展示操作。该固定终端的显示屏幕包括四个固定用户展示位701-704和一个全景画面展示位705。该全景画面展示流程包括：

步骤S601，全景相机将拍摄的会议场景的全景画面信息以及全景声音信息发送至固定终端。其中全景相机采集的全景声音信息具有声音位置信息。

这里的全景画面经过神经网络光流拼接后，可形成分辨率为1920*360的等矩形投影的全景图(即全景画面信息)，该全景图可无死角且无拼接缝地观看会议场景的各个角落，输出画面的分辨率可达到1920*1080。

步骤S602，固定终端对该全景画面信息进行人脸识别操作，获取当前场景的用户71-78的用户面部图像以及对应的图像位置信息。

步骤S603，固定终端将步骤S602获取的图像位置信息，与步骤S601获取的声音位置信息进行对比，获取待展示的用户面部图像。请参照图7a，其中区域7A为声音位置信息对应的声音位置，其与用户76的用户面部图像的图像位置信息相近，因此将用户76的用户面部图像设置为待展示的用户面部图像。

步骤S604，固定终端使用固定用户展示位701对用户76的用户面部图像进行展示操作，并对用户面部图像的尺寸进行调整，以使得用户面部图像的人脸区域与固定用户展示位701的展示区域的尺寸比例为设定值；同时使用全景画面展示位705对整个全景画面进行展示操作，并且对用户76的用户面部图像进行高亮展示，展示结果如图7a所示。

其中固定用户展示位的展示画面可为分辨率为480*720的渲染结果图。其中空余的固定用户展示位702-704，可使用定制的图标来暂时进行填充。

由于对应全景相机的输入为8k超高分辨率，因此在对用户面部图像的尺寸进行调整后，最终渲染画面上也能保证人脸在画面中具有相同的图像占比以及分辨率，提升参会用户的用户体验。

步骤S605，当用户72开始发言时，固定终端又会获取对应的声音位置信息，从而确定用户72的用户面部图像。

这时使用固定用户展示位701继续对用户76的用户面部图像进行展示，使用固定用户展示位702对用户72的用户面部图像进行展示，并对用户面部图像的尺寸进行调整，以使得用户面部图像的人脸区域与固定用户展示位702的展示区域的尺寸比例为设定值；这样可通过固定用户展示位702获取到最近发言用户的用户面部图像,并且对用户72的用户面部图像进行高亮展示。同时全景画面展示位705对固定用户展示位701、702展示的用户72和用户76的用户面部图像均进行高亮展示，展示结果如图7b所示。

步骤S606，随后用户78、用户73以及用户71分别发言，由于发言的用户的数量已经大于固定用户展示位的数量，因此将最早发言的用户76的用户面部图像从固定用户展示位删除，同时将全景画面展示位705对用户76的用户面部图像均进行高亮展示删除，其他已展示的用户面部图像的固定用户展示位中的内容不变，展示结果如图7c所示。

步骤S607，随后用户74发言，由于用户74和用户75之间的距离较小，因此固定终端将用户74和用户75的用户面部图像同时设定为待展示的用户面部图像。固定终端可将两个固定用户展示位合并为一个活动用户展示位706，通过活动用户展示位706同时展示用户74和用户75的用户面部图像，其他已展示的用户面部图像的固定用户展示位中的内容不变。同时全景画面展示位705对固定用户展示位701、704和活动用户展示位706展示的用户73、用户71、用户74以及用户75的用户面部图像均进行高亮展示，展示结果如图7d所示。

这样即完成了本具体实施例的基于声音信息定位的全景画面展示方法及全景画面展示装置的全景画面展示流程。该全景画面展示流程适用于多人会议场景，以便固定终端用户观看到会议场景中的所有参会人员。

具体的，固定终端可使用全景画面展示位705对全景画面信息对应的全景画面进行等矩形投影展示，也可使用全景画面展示位705对部分全景画面进行等矩形投影展示，如图7e所示。

请参照图8，图8为本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的另一具体实施例的全景画面展示流程图。图9a-9c为本发明的基于声音信息定位的全景画面展示方法及全景画面展示装置的另一具体实施例的全景画面展示示意图。

本实施例的基于声音信息定位的全景画面展示装置可设置在具有显示屏幕的固定终端上，用于对远端的会议场景进行展示操作。该固定终端的显示屏幕包括一个固定用户展示位901和一个全景画面展示位902。该全景画面展示流程包括：

步骤S801，全景相机将拍摄的会议场景的全景画面信息以及全景声音信息发送至固定终端。其中全景相机采集的全景声音信息具有声音位置信息。

步骤S802，固定终端对该全景画面信息进行人脸识别操作，获取当前场景的用户面部图像以及对应的图像位置信息。

步骤S803，固定终端对步骤S802获取的图像位置信息，与步骤S801获取的声音位置信息进行对比，获取待展示的用户面部图像，如用户91的用户面部图像。

步骤S804，固定终端通过固定用户展示位901对用户91的用户面部图像进行展示，并通过全景画面展示位902对用户91的用户面部图像对应的周围场景进行展示，如图9a所示。

步骤S805，如用户91在会场上移动，则固定终端通过固定用户展示位901对移动中的用户91的用户面部图像进行展示，即固定用户展示位901跟随着用户91的移动，同时通过全景画面展示位902对用户91的用户面部图像对应的周围场景进行展示，以使得用户91的用户面部图像位于全景画面展示位的中部，如图9b所示。

步骤S806，如待展示的用户面部图像由用户91的用户面部图像转换为用户92的用户面部图像时，固定终端会检测用户91的用户面部图像和用户92的用户面部图像的距离L。

如该L大于等于设定值，则固定用户展示位901直接对用户92的用户面部图像进行展示，以便其他用户快速观看到用户92的用户面部图像；如该L小于设定值，则固定用户展示位901直接对用户91的用户面部图像切换到用户92的用户面部图像的过程进行展示，即固定用户展示位的内容由A位置移动至B位置，这样可减小画面切换对其他用户观看的影响，进一步提高了画面展示效率，如图9c所示。

这样即完成了本具体实施例的基于声音信息定位的全景画面展示方法及全景画面展示装置的全景画面展示流程。该全景画面展示流程适用于单人演讲场景，以便固定终端用户观看到演讲场景中的主要演讲人员。

本发明的基于声音信息定位的全景画面展示方法及装置通过用户面部图像的图像位置信息以及声音位置信息，确定需要展示的用户面部图像，基于用户的声音实现了对用户画面的有效切换，提高了整体画面的展示效率，有效解决了现有的全景画面展示方法以及装置不能实现对用户的画面的及时切换，导致画面展示效率较低的技术问题。

如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内，并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。

图10和随后的讨论提供了对实现本发明所述的全景画面展示装置所在的电子设备的工作环境的简短、概括的描述。图10的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备1012包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。

尽管没有要求，但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

图10图示了包括本发明的全景画面展示装置中的一个或多个实施例的电子设备1012的实例。在一种配置中，电子设备1012包括至少一个处理单元1016和存储器1018。根据电子设备的确切配置和类型，存储器1018可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图10中由虚线1014图示。

在其他实施例中，电子设备1012可以包括附加特征和/或功能。例如，设备1012还可以包括附加的存储装置(例如可移除和/或不可移除的)，其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图10中由存储装置1020图示。在一个实施例中，用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置1020中。存储装置1020还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器1018中由例如处理单元1016执行。

本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器1018和存储装置1020是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备1012访问的任何其他介质。任意这样的计算机存储介质可以是电子设备1012的一部分。

电子设备1012还可以包括允许电子设备1012与其他设备通信的通信连接1026。通信连接1026可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备1012连接到其他电子设备的其他接口。通信连接1026可以包括有线连接或无线连接。通信连接1026可以发射和/或接收通信媒体。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据，并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号：该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。

电子设备1012可以包括输入设备1024，比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备1012中也可以包括输出设备1022，比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备1024和输出设备1022可以经由有线连接、无线连接或其任意组合连接到电子设备1012。在一个实施例中，来自另一个电子设备的输入设备或输出设备可以被用作电子设备1012的输入设备1024或输出设备1022。

电子设备1012的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中，电子设备1012的组件可以通过网络互连。例如，存储器1018可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。

本领域技术人员将认识到，用于存储计算机可读指令的存储设备可以跨越网络分布。例如，可经由网络1028访问的电子设备1030可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备1012可以访问电子设备1030并且下载计算机可读指令的一部分或所有以供执行。可替代地，电子设备1012可以按需要下载多条计算机可读指令，或者一些指令可以在电子设备1012处执行并且一些指令可以在电子设备1030处执行。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的方法。

综上所述，虽然本发明已以实施例揭露如上，实施例前的序号仅为描述方便而使用，对本发明各实施例的顺序不造成限制。并且，上述实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种基于声音信息定位的全景画面展示方法，其特征在于，包括：

对所述待展示的用户面部图像进行展示操作；

其中所述获取待展示的用户面部图像的步骤包括：

获取所述待展示的用户面部图像的邻近用户面部图像；

当所述邻近用户面部图像与所述待展示的用户面部图像的之间距离小于设定值时，将所述邻近用户面部图像与所述待展示的用户面部图像均设置为待展示的用户面部图像，并使用活动用户展示位对合并后的待展示的用户面部图像进行展示操作；其中将两个固定用户展示位合并为一个活动用户展示位，固定用户展示位用于展示一个用户面部图像；

所述将所述图像位置信息以及所述声音位置信息进行对比操作，获取待展示的用户面部图像的步骤包括：

获取所有的声音位置信息；

基于声音音量信息以及用户动作信息、与所述声音位置信息的结合，确定与所述声音位置信息匹配的图像位置信息，并将所述匹配的图像位置信息对应的用户面部图像作为待展示的用户面部图像，其中用户动作信息为用户的举手动作或嘴部动作。

2.根据权利要求1所述的基于声音信息定位的全景画面展示方法，其特征在于，所述全景画面信息为具有画面位置信息的全景画面；

所述对所述全景画面信息进行人脸识别操作，获取所述当前场景的用户面部图像以及对应的图像位置信息的步骤包括：

获取当前场景的用户面部图像，并把所述用户面部图像对应的画面位置信息作为所述用户面部图像的图像位置信息。

3.根据权利要求1所述的基于声音信息定位的全景画面展示方法，其特征在于，展示画面包括多个固定用户展示位；

所述对所述待展示的用户面部图像进行展示操作的步骤包括：

将所述待展示的用户面部图像调整为设定大小的用户面部图像；

使用所述固定用户展示位对所述调整后的用户面部图像进行展示操作。

4.根据权利要求3所述的基于声音信息定位的全景画面展示方法，其特征在于，所述全景画面展示方法还包括：

使用所述固定用户展示位对最近发言或最高发言频率的n个用户的用户面部图像进行展示操作，其中n为用户展示位的数量。

5.根据权利要求3所述的基于声音信息定位的全景画面展示方法，其特征在于，所述展示画面还包括全景画面展示位；所述全景画面展示方法还包括：

使用所述全景画面展示位对所述全景画面信息的至少部分全景画面进行等矩形投影展示；或

使用所述全景画面展示位对所述全景画面信息的部分全景画面进行透视投影轮询展示。

6.根据权利要求1所述的基于声音信息定位的全景画面展示方法，其特征在于，展示画面包括固定用户展示位以及全景画面展示位；

通过所述固定用户展示位对所述用户面部图像进行展示，通过所述全景画面展示位对所述用户面部图像对应的周围场景进行展示。

7.一种基于声音信息定位的全景画面展示装置，其特征在于，包括：

用户展示模块，用于对所述待展示的用户面部图像进行展示操作；

其中所述对比模块还用于获取所述待展示的用户面部图像的邻近用户面部图像；当所述邻近用户面部图像与所述待展示的用户面部图像的之间距离小于设定值时，将所述邻近用户面部图像与所述待展示的用户面部图像均设置为待展示的用户面部图像，并使用活动用户展示位对合并后的待展示的用户面部图像进行展示操作；其中将两个固定用户展示位合并为一个活动用户展示位，固定用户展示位用于展示一个用户面部图像；

获取所有的声音位置信息；