CN112118414A

CN112118414A - 视频会话方法、电子设备以及计算机存储介质

Info

Publication number: CN112118414A
Application number: CN202010970371.8A
Authority: CN
Inventors: 李晶晶; 姜玲玲; 郑柳君; 郭素霞
Original assignee: Shenzhen Jiancheng Yunshi Technology Co ltd
Current assignee: Bangyan Technology Co ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-22
Anticipated expiration: 2040-09-15
Also published as: CN112118414B

Abstract

本申请涉及视频会话领域，公开了视频会话方法、电子设备以及计算机存储介质。该方法包括：在显示界面的第一显示区域显示参与视频会话的用户图像；利用图像识别模型对用户图像进行识别，以得到图像中的第一目标图像信息；将第一目标图像信息展示在显示界面的第二显示区域，其中，第一显示区域与第二显示区域不重叠。通过上述方式，能够提高视频会话的沟通效率和信息传播准确性。

Description

视频会话方法、电子设备以及计算机存储介质

技术领域

本申请涉及视频会话领域，特别是涉及一种视频会话方法、电子设备以及计算机存储介质。

背景技术

目前的视频会话系统是经由一个或多个通信网络在处于两个或多个位置的多个参与者之间进行，视频会话界面显示由会话参与者的视频会话设备获取的实时视频信息。而在一些特定的场景下，如果会话参与者需要展示某种文件(合同、作业、书籍等)，或者还需要展示某种物品(衣服、鞋、玩具等)的结构、外观、颜色等细节信息时，需要人为移动视频会话设备或者将需要展示的文件或物品移近视频会话设备以便于其他会话参与方清晰观看，这种操作虽然在一定程度上方便了会话参与者的沟通，但是在信息传播的准确性和效率上来看还是存在比较大的瑕疵。

发明内容

为了解决上述问题，本申请提供视频会话方法、电子设备以及计算机存储介质，能够提高视频会话的沟通效率和信息传播准确性。

本申请采用的一种技术方案是提供一种视频会话方法，该方法包括：在显示界面的第一显示区域显示参与视频会话的用户图像；利用图像识别模型对用户图像进行识别，以得到图像中的第一目标图像信息；将第一目标图像信息展示在显示界面的第二显示区域，其中，第一显示区域与第二显示区域不重叠。

其中，利用图像识别模型对图像进行识别，以得到图像中的第一目标图像信息，包括：利用图像识别模型对用户图像进行手势识别，以得到第一手势指令；基于第一手势指令对用户图像进行图像识别，以得到图像中的第一目标图像信息。

其中，基于第一手势指令对用户图像进行图像识别，以得到图像中的第一目标图像信息，包括：基于第一手势指令对用户图像进行截取，以得到截取后的图像帧；对图像帧进行图像识别，以得到图像帧中第一目标图像信息。

其中，将第一目标图像信息展示在显示界面的第二显示区域，包括：获取第一目标图像信息在用户图像中的位置信息；基于位置信息在用户图像中进行截取，以得到第一目标图像信息；对第一目标图像信息进行处理，并将处理后的第一目标图像信息展示在显示界面的第二显示区域。

其中，对第一目标图像信息进行处理，并将处理后的第一目标图像信息展示在显示界面的第二显示区域，包括：对第一目标图像信息进行角度调整；将角度调整后的第一目标图像进行分辨率增强处理；将处理后的第一目标图像信息展示在显示界面的第二显示区域。

其中，将第一目标图像信息展示在显示界面的第二显示区域之后，包括：对第一目标图像信息进行内容识别，以得到与第一目标图像信息相关的内容信息；将内容信息展示在第二显示区域。

其中，对第一目标图像信息进行内容识别，以得到与第一目标图像信息相关的内容信息之前，包括：利用图像识别模型对用户图像进行手势识别，以得到第二手势指令；对第一目标图像信息进行内容识别，以得到与第一目标图像信息相关的内容信息，包括：基于第二手势指令对第一目标图像信息进行内容识别，以得到与第一目标图像信息相关的内容信息。

其中，将内容信息展示在第二显示区域之后，还包括：利用图像识别模型对用户图像进行识别，以得到图像中的第二目标图像信息；将第二目标图像信息展示在显示界面的第二显示区域。

本申请采用的另一种技术方案是提供一种电子设备，该电子设备包括处理器以及与处理器连接的存储器；存储器用于存储程序数据，处理器用于执行程序数据，以实现如上述技术方案中提供的任一方法。

本申请采用的另一种技术方案是提供一种计算机存储介质，该计算机存储介质用于存储程序数据，程序数据在被处理器执行时，用于实现如上述技术方案中提供的任一方法。

本申请的有益效果是：区别于现有技术的情况，本申请的一种技术方案是提供一种视频会话方法，该方法包括：在显示界面的第一显示区域显示参与视频会话的用户图像；利用图像识别模型对用户图像进行识别，以得到图像中的第一目标图像信息；将第一目标图像信息展示在显示界面的第二显示区域，其中，第一显示区域与第二显示区域不重叠。通过上述方式，利用图像识别模型对会话参与者的实时视频信息进行检测，并将检测到的图像信息展示在第二显示区域，使电子设备的显示界面不仅在第二显示区域展示了重要的沟通内容，还在第一显示区域展示了参与视频会话的用户图像，提高了视频会话的沟通效率和信息传播准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本申请提供的视频会话方法第一实施例的流程示意图；

图2是本申请提供的显示界面一显示示意图；

图3是本申请提供的显示界面另一显示示意图；

图4是本申请提供的视频会话方法第二实施例的流程示意图；

图5是本申请提供的图4中步骤43的具体流程示意图；

图6是本申请提供的图4中步骤44的具体流程示意图；

图7是本申请提供的视频会话方法第三实施例的流程示意图；

图8是本申请提供的电子设备一实施例的结构示意图；

图9是本申请提供的计算机存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1是本申请提供的视频会话方法第一实施例的流程示意图，该方法包括：

步骤11：在显示界面的第一显示区域显示参与视频会话的用户图像。

在一些实施例中，用于视频会话的电子设备可以是移动终端，如手机、平板电脑等，也可以是笔记本电脑、台式电脑。这些电子设备均有显示屏，以及图像采集装置，如摄像头。

在一些实施例中，参与视频会话的用户数量为至少为2，且至少需要使用两个电子设备来完成视频会话，每个电子设备为视频会话中的一个参与方，用于采集对应的用户图像。

在显示界面的第一显示区域显示参与视频会话的用户图像是根据实际参与视频会话的电子设备数量来决定用户图像的数量。如图2所示，当参与视频会话的电子设备数量为2时，则在显示界面的第一显示区域A中显示参与视频会话的用户图像A1和用户图像A2。若用户图像A1为显示界面的电子设备的用户的图像，则在第二显示区域B中显示用户图像A2。通过这种方式，可以使电子设备的用户观看到与该电子设备视频会议的用户图像，且第二显示区域B大于用户图像A2的区域，则使用户图像A1中的用户与用户图像A2中的用户更好的交流。

可以理解，用户图像可以是视频流。

步骤12：利用图像识别模型对用户图像进行识别，以得到图像中的第一目标图像信息。

在一些实施例中，在第一显示区域存在至少两个用户图像，则利用图像识别模型对至少两个用户图像，在至少两个用户图像中存在第一目标图像信息时，则获取第一目标图像信息。

在一些实施例中，第一目标图像信息可以是用户图像中用户展示的一些事物，如文件、合同、作业、书籍等，或者衣服、鞋、玩具等。可以理解，第一目标图像信息可以是本次视频会话中可能讨论的物品。

在一些实施例中，图像识别模型可以是利用人工智能技术，如SSD、YOLO等算法模型，利用Tensorflow的开发环境训练手势识别的算法，训练后识别的准确性应达到95％。

步骤13：将第一目标图像信息展示在显示界面的第二显示区域，其中，第一显示区域与第二显示区域不重叠。

在一些实施例中，每个参与视频会话的电子设备的显示界面的第二显示区域为共享区域，均展示同一信息，则在获取到第一目标图像信息时，将第一目标图像信息展示在显示界面的第二显示区域，以使每个参与视频会话的电子设备的显示界面的第二显示区域显示第一目标图像。如图3所示，利用图像识别模型对用户图像A1进行识别，以得到图像中的第一目标图像信息A11，并将第一目标图像信息A11进行处理后显示在第二显示区域。

区别于现有技术的情况，本实施例在显示界面的第一显示区域显示参与视频会话的用户图像；利用图像识别模型对用户图像进行识别，以得到图像中的第一目标图像信息；将第一目标图像信息展示在显示界面的第二显示区域，其中，第一显示区域与第二显示区域不重叠。通过上述方式，利用图像识别模型对会话参与者的实时视频信息进行检测，并将检测到的图像信息展示在第二显示区域，使电子设备的显示界面不仅在第二显示区域展示了重要的沟通内容，还在第一显示区域展示了参与视频会话的用户图像，提高了视频会话的沟通效率和信息传播准确性。

参阅图4，图4是本申请提供的视频会话方法第二实施例的流程示意图，该方法包括：

步骤41：在显示界面的第一显示区域显示参与视频会话的用户图像。

步骤42：利用图像识别模型对用户图像进行手势识别，以得到第一手势指令。

在一些实施例中，用户图像为连续的图像帧，在会话过程中，通过利用图像识别模型对图像帧进行识别，则可以识别出图像帧中是否存在预设手势，若是，则根据预设手势得到对应的第一手势指令。

在一些实施例中，电子设备可以对显示设备中的所有用户图像进行手势识别，以得到第一手势指令；其中，该电子设备可以是从所有用户图像中的电子设备中指定的，以避免多个电子设备均做手势识别操作，减少能耗。如用户A和用户B进行视频会话，则指定用户A的电子设备执行步骤42。

在一些实施例中，可以利用每个电子设备中的图像识别模型对其相对应的用户图像进行手势识别，以得到第一手势指令。如用户A和用户B进行视频会话，则用户A的电子设备执行步骤42，以对用户A的图像进行手势识别，用户B的电子设备也执行步骤42，以对用户B的图像进行手势识别。

步骤43：基于第一手势指令对用户图像进行图像识别，以得到图像中的第一目标图像信息。

在一些实施例中，第一手势指令与第一目标指令关联，当第一手势指令触发时，说明必然在该用户图像中存在第一目标图像信息。

在一些实施例中，参阅图5，步骤43可以具体是以下流程：

步骤431：基于第一手势指令对用户图像进行截取，以得到截取后的图像帧。

在一些实施例中，可以通过控制电子设备的摄像装置进行抓拍，以得到用户图像的图像帧。

步骤432：对图像帧进行图像识别，以得到图像帧中第一目标图像信息。

结合图3进行说明，对用户图像A1进行手势识别，得到第一手势指令，基于第一手势指令对用户图像进行截取，以得到截取后的图像帧，此时截取后的图像帧的内容如图3所示的用户图像A1所展示的内容，然后对该图像帧进行图像识别，以得到图像帧中第一目标图像A11。

在一些实施例中，还可以通过语音识别，以得到第一语音指令，基于语音指令对用户图像进行截取，以得到截取后的图像帧。

步骤44：将第一目标图像信息展示在显示界面的第二显示区域，其中，第一显示区域与第二显示区域不重叠。

在一些实施例中，参阅图6，步骤44可以具体是以下流程：

步骤441：获取第一目标图像信息在用户图像中的位置信息。

在一些实施例中，利用边缘检测算法，获取第一目标图像信息在用户图像中的位置信息。

可选的，可以利用图像识别模型对用户图像进行图像识别，以得到第一目标图像信息。

步骤442：基于位置信息在图像中进行截取，以得到第一目标图像信息。

在一些实施例中，上述位置信息可以是组成第一目标图像信息的像素点在用户图像中的坐标，通过这些坐标进行截取，以得到第一目标图像信息。

步骤443：对第一目标图像信息进行处理，并将处理后的第一目标图像信息展示在显示界面的第二显示区域。

在一些实施例中，在截取第一目标图像后，对第一目标图像信息进行角度调整；将角度调整后的第一目标图像进行分辨率增强处理；将处理后的第一目标图像信息展示在显示界面的第二显示区域。可展示为如图3所示的画面。

在一应用场景中，当用户通过语音或遥控器调出电子设备的通话菜单，通过遥控器或语音选择视频会议成员后可以发起远程音视频会议；在远程音视频会议中，当用户用第一手势指向目标物体时，屏幕或电视上的显示界面中的第二显示区域将自动呈现清晰的目标物体图片。当第二显示区域自动呈现清晰的目标物体图片时，当用户使用第二手势时，目标物体图片将自动识别并引用相关信息。当第二显示区域自动呈现清晰的目标物体图片时，当用户使用第三手势时，比如向下挥手，第二显示区域的显示模式将恢复原状。当第二显示区域自动呈现清晰的目标物体图片时，当用户用第一手势指向目标物体时，屏幕或电视上的第二显示区域将呈现新的目标物体图片；如果用户关闭视频会议终端软件或退出会议时，基于手势识别的服务调用结束。

通过上述方式，实现第二显示区域显示内容的切换，以使第二显示区域显示关键的会议沟通内容，提高了视频会话的沟通效率和信息传播准确性。

参阅图7，图7是本申请提供的视频会话方法第三实施例的流程示意图。该方法包括：

步骤71：在显示界面的第一显示区域显示参与视频会话的用户图像。

步骤72：利用图像识别模型对用户图像进行识别，以得到图像中的第一目标图像信息。

步骤73：将第一目标图像信息展示在显示界面的第二显示区域，其中，第一显示区域与第二显示区域不重叠。

步骤71-步骤73与上述实施例具有相同或相似的技术方案，这里不做赘述。

步骤74：对第一目标图像信息进行内容识别，以得到与第一目标图像信息相关的内容信息。

在一些是实施例中，利用智能算法对第一目标图像信息进行内容识别，如第一目标图像为文本信息，如合同，条款等，则进行文字识别，将识别出来的文字作为内容信息。如第一目标图像为物品，如食物、衣物、花朵等，则进行智能识别，将识别相关的内容信息，如食物的来源、花朵的种类、相关花语等信息作为内容信息。

步骤75：将内容信息展示在第二显示区域。

在一些实施例中，在步骤75之后，利用图像识别模型对用户图像进行识别，以得到用户图像中的第二目标图像信息；将第二目标图像信息展示在显示界面的第二显示区域。可以理解，在预设时间后，对用户图像进行识别，以再次得到用户图像中的第二目标图像信息；将第二目标图像信息展示在显示界面的第二显示区域。

在一应用场景中，在视频会话的视频流中进行检测，检测的视频不包含第二显示区域呈现的视频，在开始进行视频会话时，第二显示区域呈现的是对端电子设备采集的视频信息。当检测到视频中出现预设的第一手势，且手势指向的目标时，当该手势被识别为对第二显示区域的内容进行切换时，电子设备切换为抓拍模式，对包含该第一手势的场景进行拍照，抓拍后转换为正常的视频摄像模式。同时，电子设备在识别和抓拍过程中第二显示区域的内容还未进行切换，这时电子设备暂停对视频流的检测，暂停时间有系统设置决定。

对抓拍的图片中第一目标图像进行截取，调整角度，进行分辨率增强以及尺寸调整，然后保存该图片。此时，电子设备的第二显示区域的内容还未进行切换。对保存的图片进行切换到第二显示区域前，判断该图片的角度是否正常，画面是否清晰。若满足呈现的条件时，将该图片显示在第二显示区域，且同步发送至视频会话的其他端的电子设备的第二显示区域进行展示。在一些实施例中，设置一预设时间，在预设时间内停止对第一显示区域视频流进行检测，在预设时间后，开始对第一显示区域视频流进行检测。若不满足呈现条件，则删除该图片，不对第二显示区域的显示内容进行切换。

当再次对第一显示区域视频流的检测时，则还是按照上述流程进行检测。在一些实施例中，当再次检测到视频中出现第二手势时，该第二手势被认定为移除第二显示区域的当前显示内容，则响应于该指令，将所有参与会话的电子设备中的第二显示区域中的第一目标图像信息进行切换，使第二显示区域变为正常状态，显示对端电子设备采集的图像。在一些实施例中，设置一预设时间，在预设时间内停止对第一显示区域视频流进行检测，在预设时间后，开始对第一显示区域视频流进行检测。

在一些实施例中，当检测的视频中出现第三手势时，且该第三手势被识别为识别第二显示区域的内容信息时，显示在第二显示区域的第一目标图像信息将被进行文本识别或者智能识物等，将识别出来的内容发送至视频会话的其他端的电子设备的第二显示区域进行展示。

通过上述方式，利用人工智能算法(如YOLO、SSD等)对会话参与者的实时视频信息进行检测，当检测到会话参与者特定的手势时将触发视频会话系统对手势指定物体的抓拍，抓拍后的图片将根据识别算法提供的坐标进行目标截取、角度调整、分辨率增强等技术方案，提高了视频会话的沟通效率和信息传播准确性。

参阅图8，该电子设备80包括处理器81以及与处理器81连接的存储器82；存储器82用于存储程序数据，处理器81用于执行程序数据，以实现以下方法：

在显示界面的第一显示区域显示参与视频会话的用户图像；利用图像识别模型对用户图像进行识别，以得到图像中的第一目标图像信息；将第一目标图像信息展示在显示界面的第二显示区域，其中，第一显示区域与第二显示区域不重叠。

可以理解，处理器81用于执行程序数据时，还用于实现上述任一实施例方法。

在一些实施例中，电子设备80的配置如下：基于RK3399芯片，采用Andro id操作系统，开发智能硬件，具备5米远程拾音，内置200万像素摄像头，喇叭，具备HDMI信号输入输出接口，支持遥控器及语音控制，硬件可通过支架放置于显示屏或电视屏上。利用C++语言，在Li nux操作系统上开发基于云服务器的视频会议服务器。利用C++、JAVA语言，在Android操作系统上开发AI gesture manager。利用JAVA、C、C++语言，在Androi d操作系统上开发视频会议终端软件,在视频会议终端软件中调用AI gesture manager中API实现在音视频远程会话中基于手势识别的自动信息分享。将视频会议终端软件安装在智能硬件上。

参阅图9，图9是本申请提供的计算机存储介质一实施例的结构示意图，计算机存储介质90用于存储程序数据91，程序数据91在被处理器执行时，用于实现以下的方法步骤：

可以理解，程序数据91在被处理器执行时，还用于实现上述任一实施例方法。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频会话方法，其特征在于，所述方法包括：

在显示界面的第一显示区域显示参与视频会话的用户图像；

利用图像识别模型对所述用户图像进行识别，以得到所述图像中的第一目标图像信息；

将所述第一目标图像信息展示在所述显示界面的第二显示区域，其中，所述第一显示区域与所述第二显示区域不重叠。

2.根据权利要求1所述的方法，其特征在于，

所述利用图像识别模型对所述图像进行识别，以得到所述图像中的第一目标图像信息，包括：

利用图像识别模型对所述用户图像进行手势识别，以得到第一手势指令；

基于所述第一手势指令对所述用户图像进行图像识别，以得到所述图像中的第一目标图像信息。

3.根据权利要求2所述的方法，其特征在于，

所述基于所述第一手势指令对所述用户图像进行图像识别，以得到所述图像中的第一目标图像信息，包括：

基于所述第一手势指令对所述用户图像进行截取，以得到截取后的图像帧；

对所述图像帧进行图像识别，以得到所述图像帧中所述第一目标图像信息。

4.根据权利要求1所述的方法，其特征在于，

所述将所述第一目标图像信息展示在所述显示界面的第二显示区域，包括：

获取所述第一目标图像信息在所述用户图像中的位置信息；

基于所述位置信息在所述用户图像中进行截取，以得到所述第一目标图像信息；

对所述第一目标图像信息进行处理，并将处理后的所述第一目标图像信息展示在所述显示界面的第二显示区域。

5.根据权利要求4所述的方法，其特征在于，

所述对所述第一目标图像信息进行处理，并将处理后的所述第一目标图像信息展示在所述显示界面的第二显示区域，包括：

对所述第一目标图像信息进行角度调整；

将角度调整后的所述第一目标图像进行分辨率增强处理；

将处理后的所述第一目标图像信息展示在所述显示界面的第二显示区域。

6.根据权利要求1所述的方法，其特征在于，

所述将所述第一目标图像信息展示在所述显示界面的第二显示区域之后，包括：

对所述第一目标图像信息进行内容识别，以得到与所述第一目标图像信息相关的内容信息；

将所述内容信息展示在所述第二显示区域。

7.根据权利要求6所述的方法，其特征在于，

所述对所述第一目标图像信息进行内容识别，以得到与所述第一目标图像信息相关的内容信息之前，包括：

利用图像识别模型对所述用户图像进行手势识别，以得到第二手势指令；

所述对所述第一目标图像信息进行内容识别，以得到与所述第一目标图像信息相关的内容信息，包括：

基于所述第二手势指令对所述第一目标图像信息进行内容识别，以得到与所述第一目标图像信息相关的内容信息。

8.根据权利要求7所述的方法，其特征在于，

所述将所述内容信息展示在所述第二显示区域之后，还包括：

利用图像识别模型对所述用户图像进行识别，以得到所述图像中的第二目标图像信息；

将所述第二目标图像信息展示在所述显示界面的所述第二显示区域。

9.一种电子设备，其特征在于，所述电子设备包括处理器以及与所述处理器连接的存储器；

所述存储器用于存储程序数据，所述处理器用于执行所述程序数据，以实现如权利要求1-8任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被处理器执行时，用于实现如权利要求1-8任一项所述的方法。