CN110602516A

CN110602516A - 基于视频直播的信息交互方法、装置及电子设备

Info

Publication number: CN110602516A
Application number: CN201910872914.XA
Authority: CN
Inventors: 张新磊; 张振伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2019-12-20

Abstract

本申请实施例提供了一种基于视频直播的信息交互方法、装置及电子设备，涉及计算机技术领域。该方法包括：服务器接收视频直播过程中第一终端实时采集的用户的视频直播图像并进行识别，确定当前手势表达对应的手势语义信息，根据手势语义信息确定相匹配的多媒体交互信息呈现在视频直播界面上。本申请通过对视频直播图像进行手势识别，确定用户的当前手势表达对应的手势语义信息，进而确定手势语义信息相匹配的多媒体交互信息提供给用户，使手语姿势信息的展现方式更加多元化，提升了视频直播过程中终端用户之间的交互效果。

Description

基于视频直播的信息交互方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种基于视频直播的信息交互方法、装置及电子设备。

背景技术

随着网络技术和通信技术的迅速发展，基于移动终端的视频直播平台得到了普遍应用。利用视频直播平台，主播用户可以通过移动终端采集视音频信息向观看直播的用户进行直播。移动终端在采集视音频信息时，通过摄像头采集视频直播图像，通过音频采集模块采集语音信息，将视频和语音进行合成，得到视音频文件向观看直播的用户进行展示。

然而，对于语言表达有障碍的聋哑人主播，无法通过声音表达自己想要表达的内容，只能通过手语来表达意思，现有技术中通过对手语进行识别，展示对应的文字信息，展现方式比较单一，从而影响主播和观众之间的互动效果。

发明内容

本申请提供了一种基于视频直播的信息交互方法、装置及电子设备，可以解决现有技术中存在的问题。

本申请实施例提供的具体技术方案如下：

一方面，本申请实施例提供了一种基于视频直播的信息交互方法，该方法包括：

接收视频直播过程中第一终端实时采集的用户的视频直播图像；

将接收到的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的手势语义信息；

根据所述手势语义信息，确定相匹配的多媒体交互信息，并将多媒体信息呈现在视频直播界面上。

另一方面，本申请实施例提供了一种基于视频直播的信息交互方法，该方法包括：

实时采集视频直播过程中用户的视频直播图像；

将所述视频直播图像发送至服务器，以使所述服务器对接收到的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的手势语义信息，根据所述手势语义信息，确定相匹配的多媒体交互信息；

接收所述服务器发送的所述多媒体交互信息，并将所述多媒体交互信息通过视频直播界面呈现给所述用户。

本发明实施例提供了一种基于视频直播的信息交互装置，该装置包括：

图像接收模块，用于接收视频直播过程中第一终端实时采集的用户的视频直播图像；

识别模块，用于将接收到的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的手势语义信息；

匹配模块，用于根据所述手势语义信息，确定相匹配的多媒体交互信息，呈现在视频直播界面上。

本发明实施例还提供了一种基于视频直播的信息交互装置，该装置包括：

图像采集模块，用于实时采集视频直播过程中用户的视频直播图像；

图像发送模块，用于将所述视频直播图像发送至服务器，以使所述服务器将接收到的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的手势语义信息；根据所述手势语义信息，确定相匹配的多媒体交互信息；

交互信息接收模块，用于接收所述服务器发送的所述多媒体交互信息，并将所述多媒体交互信息通过视频直播界面呈现给所述用户。

本发明实施例提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面或者第二方面所示的基于视频直播的信息交互方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行如本申请的第一方面或者第二方面所示的基于视频直播的信息交互方法。

本申请所提供的基于视频直播的信息交互方法、装置及电子设备，在视频直播过程中，服务器通过对终端实时采集发送的用户的视频直播图像，能够确定出接收到的各视频直播图像中对应于用户的当前手势表达(用户通过一个或多个手语想要表达的意思，可能是一个词、一个短语、也可能是一段话)的语义信息，并根据该语义信息向用户展示出相匹配的多媒体交互信息。基于本申请实施例所提供的方案，由于是基于用户的手势表达确定的对应的手势语义信息，因此，能够更准确的识别出用户当前真正想要表达的意思，并通过为用户提供与该语义信息匹配的多元化的交互信息，提升了视频直播过程中终端用户之间的交互效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的基于视频直播的信息交互方法的流程图；

图2为本申请实施例提供的视频直播界面显示多媒体信息的示意图；

图3为本申请实施例提供的视频直播界面显示多媒体信息的示意图；

图4为本申请实施例提供的视频直播界面显示手势提示模板的示意图；

图5为本申请实施例提供的视频直播界面显示手势提示模板对应的多媒体信息的示意图；

图6为本申请实施例提供的视频直播界面显示手势提示模板对应的多媒体信息的示意图；

图7为本申请实施例提供的视频直播界面显示用户状态和多媒体信息的示意图；

图8为本申请实施例提供的视频直播界面显示用户状态和多媒体信息的示意图；

图9为本申请实施例提供的视频直播界面显示手势识别率和多媒体信息的示意图；

图10为本申请实施例提供的视频直播界面显示手势识别率和多媒体信息的示意图；

图11为本申请实施例提供的基于视频直播的信息交互方法的流程图；

图12为本申请实施例提供的基于视频直播的信息交互方法的流程图；

图13为本申请实施例提供的基于视频直播的信息交互装置的示意图；

图14为本申请实施例提供的基于视频直播的信息交互装置的示意图；

图15为本申请实施例提供的基于视频直播的信息交互系统的示意图；

图16为本申请实施例提供的基于视频直播的信息交互方法的流程图；

图17为本申请实施例提供的基于视频直播的信息交互方法的流程图；

图18为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请技术方案的执行主体为计算机设备，包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中，用户设备包括但不限于电脑、智能手机、PAD等；网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，计算机设备可单独运行来实现本申请，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中，计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

现有技术中，对于手语识别主要存在以下几种方式：

1、Kinect手语翻译系统

该系统的运行过程包括模型的训练和识别两个阶段：

在模型的训练阶段，每一个手语词采集多个训练样本，然后通过特征提取，生成一个统一的模型，作为该手语词的描述。

在识别阶段，对输入的视频序列，用同样的特征提取方法，生成轨迹和手型两个通道的特征描述，与Gallery中的所有词汇模型进行匹配，获得候选词汇集。在得到手语单个词汇的识别结果之后，由于不可能保证所有的词汇都识别正确，因此可以根据语言模型对识别结果进行修正，得到更为合理和正确的结果。

2、手语翻译手套

这种定制的手套在手腕和手部区域内置传感器，可测量手部运动和位置。电信号通过蓝牙发送到计算机程序，该计算机程序从其数据库找到与手势的匹配，并将相关的短语或单词的翻译完成并且读出来，也可以在计算机上播放文字内容。

现有技术中的以上技术方案存在的问题如下：

Kinect手语翻译系统，完全依托于硬件的支持，且受制于场景限制，无法在户外场景灵活便捷使用，另外其识别的速度慢，从手语及姿势表达到解析完需要较长时间等待，严重影响了沟通的效率，而且，只能将识别出的手语对应的文字展示给用户，呈现方式比较单一。

而手语翻译手套受制于需要较核心的科技支持，目前大都处于实验室使用阶段，其使用方式也比较繁琐，成本很高，难以在普通民众生活中得以普及。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的基于视频直播的信息交互方法的流程图，如图1所示，该方法可以包括：

步骤S101，第一终端在视频直播过程中实时采集用户的视频直播图像，并发送至服务器；

其中，第一终端为视频直播平台中的主播用户对应的终端设备，服务器为视频直播平台对应的服务器。本申请技术方案中的主播用户可以为聋哑人用户，通过手语姿势表达意思与视频直播平台的观众用户进行交流。主播用户在进行视频直播过程中，通过第一终端的摄像头采集视频直播图像，视频直播图像中包括主播用户与观众进行交流时做出的手语姿势图像，以及表达完一段内容之后短暂停顿时，不包括手语姿势的图像。第一终端将视频直播过程中实时采集的用户的各个视频直播图像依次添加时间戳，以数据包的形式发送至服务器进行处理。

步骤S102，服务器将接收到的第一终端发送的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的手势语义信息；

具体的，服务器将接收到的各视频直播图像的数据包进行解析，按照数据包中的各个图像的采集时间顺序依次识别每一个视频直播图像。视频直播图像中包括手语姿势图像，以及表达完一段内容之后短暂停顿时，不包括手语姿势的图像。通过对各个视频直播图像进行手势识别，来确定图像中是否包括手语姿势，以及用户通过手势想要表达的意思。其中，当前手势表达可以为主播用户在想要表达一个词、一个短语或一个句子时，做出的至少一个手语姿势。例如，用户通过手语要表达的意思是“今天我很高兴”，通过四个手语姿势来表达这句话，从开始表达这句话的第一个手语姿势开始，到表达这句话的第四个手语姿势结束为止，为一个手势表达。

本申请的可选实施例中，基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的手势语义信息，包括：

基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的至少一个手语姿势图像；

根据至少一个手语姿势图像的手势识别结果，确定当前手势表达对应的手势语义信息。

服务器对视频直播图像的识别包括两个方面：

首先，识别图像中是否包含手语姿势图像。如果识别出两张不连续的不包括手语姿势的图像(每个手势表达之间有停顿，停顿时用户没有做出手语姿势，因此停顿的画面图像不包含手语姿势图像)，则将采集时间在这两张不包含手语姿势的图像之间的手语姿势图像，确定为主播当前手势表达对应的至少一个手语姿势图像。

其次，识别每个手语姿势图像中的手语姿势的手势语义信息。将手语姿势图像进行特征提取，手语姿势图像的特征与手语特征数据库中的标准手语图像的特征进行匹配，当匹配度达到预设阈值，则认为手语姿势图像和标准手语图像是匹配的，则调用标准手语图像对应的手势语义信息作为手语姿势图像对应的手势语义信息。每个手语姿势图像对应的手势语义信息可以是一个词或短语。

其中，手语特征数据库为预先根据大量的标准手语图像的特征和每个标准手语图像对应的手势语义信息建立的数据库。

服务器对每个视频直播图像进行识别之后，得到每个视频直播图像对应的手势识别结果，其中，该手势识别结果可以包括两种情况，一种手势识别结果为图像是不包含手语姿势的图像，另一种手势识别结果为图像是包含手语姿势的图像即手语姿势图像，此时，还需要对该手语姿势图像进行进一步识别，以识别出该手语姿势图像所对应的手势语义信息，此时的手势识别结果则还包括进一步的识别结果。

可以理解的是，对于任一手语姿势图像，其进一步的识别结果可能识别成功(成功识别出手势的语义信息，即手势识别成功)，也可以识别失败(未能识别出手势的语义信息，即手势识别失败)。

本申请的可选实施例中，对于视频直播图像中的任一手语姿势图像，若手语姿势图像中的手势识别失败时，所述方法还包括：向第一终端发送的识别失败提示信息，以使第一终端向第一终端的用户展示相应的提示信息。

在实际应用中，服务器对每一张视频直播图像进行识别时，如果与手势特征数据库中标准手语图像的匹配度不能达到预设阈值，则识别失败，向第一终端发送识别失败提示信息，第一终端将识别失败提示信息展示给用户，使用户可以根据提示调整手语姿势，使服务器能够准确识别。

将当前采集时间在两张不包含手语姿势的图像之间的手语姿势图像，确定为主播当前手势表达对应的至少一个手语姿势图像，将当前手势表达对应的至少一个手语姿势图像中各个手语姿势图像对应的各个手势语义信息，进行自然语言处理，结合当前的语境中的上下文信息，在语料库中选择出相似度最高的词语或句子，作为当前手势表达对应的手势语义信息。其中，语料库为存储了大量实际使用中真实出现过的语言材料的数据库。

步骤S103，服务器根据手势语义信息，确定相匹配的多媒体交互信息；

其中，多媒体是指组合两种或两种以上媒体的一种人机交互式信息交流和传播媒体。媒体包括文字、图片、照片、声音(包含音乐、语音旁白、特殊音效)、动画和影片等。本申请实施例中的多媒体交互信息为至少两种上述媒体结合形式的信息，通过终端的显示屏向用户进行展示。

本申请的可选实施例中，多媒体交互信息包括文本、动画、视频、表情图片中的至少两种。

在实际应用中，根据当前手势表达的手势语义信息，确定相匹配的文本、动画、视频、表情图片等。其中的文本可以是根据当前手势表达的手势语义信息进行自然语言处理得到的词或句子、也可以是根据当前手势表达的手势语义信息的意思概括的词或句子，或者根据当前手势表达的手势语义信息进行自然语言处理得到的句子中的关键词组成的文本。预先将语料库中的常用词汇或句子与动画、视频、表情图片等建立关联关系，当得到了当前手势表达的手势语义信息后，调用预先配置的相关联的词、句子、动画、视频、表情图片等。

步骤S104，服务器将多媒体交互信息发送至第一终端，以及第一终端对应的第二终端；

其中，第二终端为进入当前主播用户的直播间观看直播的观众用户的终端设备。

第一终端在向服务器发送视频直播图像时，发送的数据中携带有第一终端的终端标识、主播用户的用户标识、主播用户当前直播间的直播间标识等。服务器根据主播用户的用户标识、主播用户当前直播间的直播间标识能够确定出进入当前主播用户的直播间观看直播的观众用户的终端标识、用户标识等。

服务器可以根据第一终端的终端标识将确定出的主播用户的当前手势表达对应的多媒体信息发送至第一终端，根据第二终端的终端标识将多媒体信息发送至第二终端。

步骤S105，第一终端和第二终端分别通过视频直播界面将多媒体交互信息展示给相应的用户。

在一示例中，服务器根据主播用户的手语姿势图像识别出手势语义信息：“很开心与大家分享我的生活”，发送到主播用户的智能手机，智能手机在视频直播界面进行展示，如图2所示。

在一示例中，服务器根据主播用户的手语姿势图像识别出文本信息“感谢大家的支持”以及对应的表情图片，发送到主播用户的智能手机，智能手机在视频直播界面进行展示，如图3所示。

在一示例中，如图16所示，第一终端(主播客户端)采集手语姿势图像，如图16中的步骤1；将采集到的手语姿势图像发送到服务器端，服务器端将手语姿势图像进行分析，如图16中的步骤2；将每张手语姿势图像与服务器中的标准手语姿势图像进行匹配，如图16中的步骤3；如果识别失败，则将识别失败提示信息发送至主播客户端，主播向主播用户展示识别失败提示信息，提示用户重新作出手语姿势，如图16中的步5，如果匹配成功，则根据识别得到的手语语义信息对应的文本，并调用相匹配的表情，如图16中的步骤4，服务器将识别出的文字和表情发送到主播客户端和观众客户端，主播客户端和观众客户端分别向相应的用户展示，如图16中的步骤6。

本申请的可选实施例中，该方法还包括：将各手势提示模板发送至第一终端，以使第一终端通过视频直播界面将各手势提示模板展示给第一终端的用户，以使第一终端的用户能够根据手势提示模板做出相应的手语姿势。

在实际应用中，服务器基于语料库确定出日常语言交流过程中使用频率较高的词汇，将这些词汇和对应的手语姿势图片生成手势提示模板发送至第一终端，第一终端接收服务器发送的各手势提示模板；将各手势提示模板通过视频直播界面展示给用户。可以在视频直播界面设置手势提示模板显示触发按钮，当用户点击该按钮时，在视频直播界面显示手势提示模板。也可以不设置按钮，直接在视频直播界面显示手势提示模板。用户可以根据该手势提示模板，做出模板中的手语姿势图像，第一终端将手语姿势图像发送至服务器进行识别，得到多媒体交互信息展示给用户。

手势提示模板能够帮助主播用户快速表达自己的想法，提高了沟通的效率。

在一示例中，服务器将词汇“爱你”、“加油”、“666”、“欢迎”、“再见”和对应的手语姿势图片生成手势提示模板发送至第一终端，第一终端接收服务器发送的各手势提示模板；将各手势提示模板通过视频直播界面展示给用户，如图4所示。用户根据手势提示模板做出手语姿势“爱你”，服务器进行识别后，将对应的多媒体信息发送给第一终端，第一终端在视频直播界面进行展示，如图5所示。用户根据手势提示模板多次做出手语姿势“爱你”，服务器进行识别后，将对应的多媒体信息发送给第一终端，第一终端在视频直播界面进行展示，如图6所示。

在一示例中，如图17所示，主播客户端(第一终端)对应的用户在主播客户端的视频直播界面触发手势提示模板显示的按钮，则进入手势互动功能，如图17中的步骤1；通过摄像头采集手语姿势图像，如图17中的步骤2，将采集到的手语姿势图像发送至服务器，服务器对接收到的手语姿势图像进行分析处理，如图17中的步骤3；服务器分析手语姿势图像中的手势变化信息，手势出现次数及运动幅度，如图17中的步骤4；确定手语姿势图像对应的图像呈现方式，如果手语姿势出现一次，则呈现对应的一个表情图片，如果手语姿势出现多次，则呈现对应的多个表情图片；服务器将手语姿势图像与手语特征数据库中的标准手语姿势图像进行匹配，如图17中的步骤5；如果识别成功则根据识别得到的手语语义信息对应的文本，并调用相匹配的表情，并加载，如图17中的步骤5.1；服务器将识别出的文字和表情发送到主播客户端和观众客户端(第二终端)，主播客户端和观众客户端分别向相应的用户展示，如图17中的步骤6。如果识别失败则向主播客户端发送识别失败提示信息，主播客户端展示给主播用户，重新采集手语姿势图像，如图17中的步骤5.2。

本申请的可选实施例中，该方法还包括：当前手势表达根据各视频直播图像的手势识别结果，确定用户的当前手势表达所对应的手势变化信息；根据手势变化信息，确定用户的用户状态；根据手势语义信息，确定相匹配的多媒体交互信息，包括：根据手势语义信息和用户状态，确定相匹配的多媒体交互信息。

在实际应用中，服务器在识别手语姿势图像时，通过当前手势表达中同一手语姿势对应的至少两个手语姿势图像，能够确定出用户在当前手势表达中做出同一手势的手势变化信息，手势变化信息包括以下至少一项：各手势的出现次数、用户的手的运动幅度、或者手势相同的视频直播图像的数量。

根据用户在当前手势表达中的手势变化信息能够确定出用户状态，用户状态可以包括用户当前的情绪状态(例如，开心、委屈、气愤、悲伤、感谢等)，例如，用户的手语姿势只快速地做出一次，则认定为用户情绪处于正常状态；用户多次大幅度做出同一手语姿势，则认为用户情绪处于兴奋状态。预先将表示情绪状态的词语与动画、表情图片等建立关联关系。当手势语义信息中包括表示用户情绪状态的词语时，则可以根据关联关系调用词语对应的动画、表情图片等。当主播用户的情绪处于兴奋状态时，可以通过显示多个表情图片的方式来向观众用户进行传达。

服务器可以将用户的状态信息发送至第二终端，第二终端通过视频直播界面展示给观看视频直播的用户，使观看视频直播的用户能够了解主播当前的情绪状态，提高了信息交互的效果。

在一示例中，第一终端的用户即主播用户做出一次手语姿势“爱你”，第二终端的用户即观众用户的视频直播界面显示对应的情绪状态(心情指数：开心)和多媒体信息(显示“爱你呦”和一个表情图片)如图7所示；主播用户做出多次手语姿势“爱你”，观众用户的视频直播界面显示对应的情绪状态(心情指数：超开心)和多媒体信息(显示“爱你呦”和多个表情图片)如图8所示。

本申请的可选实施例中，该方法还包括：根据至少一个手语姿势图像的手势识别结果，确定当前手势表达对应的手势识别率；将手势识别率发送至第一终端，以使第一终端将手势识别率展示给第一终端的用户。

在实际应用中，服务器还可以根据当前手势表达中每个手语姿势图像的识别结果，如，每个手语姿势图像和手语特征数据库中的标准手语图像的匹配度值，以及每个当前手势表达中的多个手语姿势图像识别成功的个数，确定当前手势表达对应的手势识别率，发送给第一终端，第一终端展示给用户，使用户能够实时了解到手势识别情况，便于及时作出调整。

在一示例中，第一终端在视频直播界面显示手势识别率，从用户做出手势开始，如图9所示，到当前手势表达完成，显示手势识别率为100％，如图10所述。

本申请实施例提供的技术方案，能够基于视频直播平台，利用移动终端设备(例如，智能手机、笔记本电脑、平板电脑等)的摄像头采集视频直播过程中聋哑人主播用户的视频直播图像发送至服务器，打破了设备、场地的使用限制，服务器通过对视频直播图像中主播的当前手势表达进行识别，确定手势语义信息，进而确定手势语义信息相匹配的多媒体交互信息提供给视频直播平台的用户，多媒体交互信息包括文字结合表情图片、动画等，通过多媒体交互信息来表现手势表达内容，丰富了手势表达内容的展现方式，提升了视频直播过程中终端用户之间的交互效果。

图11为本申请实施例提供的基于视频直播的信息交互方法的流程图，如图11所示，该方法可以包括：

步骤S1101，接收视频直播过程中第一终端实时采集的用户的视频直播图像；

步骤S1102，将接收到的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的手势语义信息；

步骤S1103，根据手势语义信息，确定相匹配的多媒体交互信息，并将多媒体信息呈现在视频直播界面上。

本申请的可选实施例中，将多媒体交互信息呈现在视频直播界面上，包括：

将多媒体交互信息发送至第一终端，以及第一终端对应的第二终端，以使第一终端和第二终端分别通过视频直播界面将多媒体交互信息呈现给相应的用户。

本申请的可选实施例中，该方法还包括：

将各手势提示模板发送至第一终端，以使第一终端通过视频直播界面将各手势提示模板展示给第一终端的用户，以使第一终端的用户能够根据手势提示模板做出相应的手语姿势。

本申请的可选实施例中，方法还包括：

当前手势表达根据各视频直播图像的手势识别结果，确定用户的当前手势表达所对应的手势变化信息；

根据手势变化信息，确定用户的用户状态；

根据手势语义信息，确定相匹配的多媒体交互信息，包括：

根据手势语义信息和用户状态，确定相匹配的多媒体交互信息。

本申请的可选实施例中，手势变化信息包括以下至少一项：

各手势的出现次数、用户的手的运动幅度、或者手势相同的视频直播图像的数量。

本申请的可选实施例中，对于视频直播图像中的任一手语姿势图像，若手语姿势图像中的手势识别失败时，方法还包括：

向第一终端发送的识别失败提示信息，以使第一终端向第一终端的用户展示相应的提示信息。

本申请的可选实施例中，该方法还包括：

根据至少一个手语姿势图像的手势识别结果，确定当前手势表达对应的手势识别率；

将手势识别率发送至第一终端，以使第一终端将手势识别率展示给第一终端的用户。

本申请实施例的执行主体为服务器，具体的执行过程已经在图1对应的实施例进行了详细描述，此处不再赘述。

本申请实施例提供的基于视频直播的信息交互方法，通过对视频直播图像中用户的当前手势表达进行识别，确定手势语义信息，进而确定手势语义信息相匹配的多媒体交互信息提供给用户，使手语姿势信息的展现方式更加多元化，提升了视频直播过程中终端用户之间的交互效果。

图12为本申请实施例提供的基于视频直播的信息交互方法的流程图，如图12所示，该方法可以包括：

步骤S1201，实时采集视频直播过程中用户的视频直播图像；

步骤S1202，将视频直播图像发送至服务器，以使服务器对接收到的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的手势语义信息，根据手势语义信息，确定相匹配的多媒体交互信息；

步骤S1203，接收服务器发送的多媒体交互信息，并将多媒体交互信息通过视频直播界面呈现给用户。

本申请的可选实施例中，该方法还包括：

接收服务器发送的各手势提示模板；

将各手势提示模板通过视频直播界面呈现给用户。

本申请的可选实施例中，该方法还包括：

接收服务器发送的识别失败提示信息，并向用户提供识别失败提示信息，以使用户能够根据识别失败提示信息做出相应的手语姿势。

本申请实施例的执行主体为第一终端，具体的执行过程已经在图1对应的实施例进行了详细描述，此处不再赘述。

基于与图11中所示方法相同的原理，本公开的实施例中还提供了一种基于视频直播的信息交互装置130，如图13所示，该基于视频直播的信息交互装置130包括：

图像接收模块131，用于接收视频直播过程中第一终端实时采集的用户的视频直播图像；

识别模块132，用于将接收到的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的手势语义信息；

匹配模块133，用于根据所述手势语义信息，确定相匹配的多媒体交互信息，并将多媒体信息呈现在视频直播界面上。

本申请的可选实施例中，识别模块132具体用于：基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的至少一个手语姿势图像；

本申请的可选实施例中，匹配模块133具体用于：将多媒体交互信息发送至第一终端，以及第一终端对应的第二终端，以使第一终端和第二终端分别通过视频直播界面将多媒体交互信息呈现给相应的用户。

本申请的可选实施例中，装置130还包括：

模板发送模块，用于将各手势提示模板发送至第一终端，以使第一终端通过视频直播界面将各手势提示模板展示给第一终端的用户，以使第一终端的用户能够根据手势提示模板做出相应的手语姿势。

本申请的可选实施例中，识别模块132具体用于：

当前手势表达根据各手语姿势图像的手势识别结果，确定用户的当前手势表达所对应的手势变化信息；

根据手势变化信息，确定用户的用户状态；

根据手势语义信息，确定相匹配的多媒体交互信息，包括：

本申请的可选实施例中，手势变化信息包括以下至少一项：

本申请的可选实施例中，装置130还包括提示信息发送模块，用于：

对于视频直播图像中的任一手语姿势图像，若手语姿势图像中的手势识别失败时，向第一终端发送的识别失败提示信息，以使第一终端向第一终端的用户展示相应的提示信息。

本申请的可选实施例中，装置130还包括手势识别率确定模块，用于：

本申请实施例的装置与图11的方法相对应，具体的执行过程已经在图1对应的实施例进行了详细描述，此处不再赘述。

本申请实施例提供的基于视频直播的信息交互装置，通过对视频直播图像中用户的当前手势表达进行识别，确定手势语义信息，进而确定手势语义信息相匹配的多媒体交互信息提供给用户，使手语姿势信息的展现方式更加多元化，提升了视频直播过程中终端用户之间的交互效果。

基于与图12中所示方法相同的原理，本公开的实施例中还提供了一种基于视频直播的信息交互装置140，如图14所示，该基于视频直播的信息交互装置140包括：

图像采集模块141，用于实时采集视频直播过程中用户的视频直播图像；

图像发送模块142，用于将所述视频直播图像发送至服务器，以使所述服务器将接收到的各视频直播图像分别进行用户手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的手势语义信息；根据所述手势语义信息，确定相匹配的多媒体交互信息；

交互信息接收模块143，用于接收所述服务器发送的所述多媒体交互信息，并将所述多媒体交互信息通过视频直播界面呈现给所述用户。

本申请的可选实施例中，装置140还包括模板接收模块，用于：

接收服务器发送的各手势提示模板；

将各手势提示模板通过视频直播界面展示给用户。

本申请的可选实施例中，装置140还包括提示信息接收模块，用于：

本申请实施例的装置与图12的方法相对应，具体的执行过程已经在图1对应的实施例进行了详细描述，此处不再赘述。

基于与图1中所示方法相同的原理，本公开的实施例中还提供了一种基于视频直播的信息交互系统，如图15所示，系统包括：

服务器151、第一终端152、第二终端153；

服务器151接收视频直播过程中第一终端实时采集的用户的视频直播图像；将接收到的各视频直播图像分别进行用户手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的手势语义信息；根据手势语义信息，确定相匹配的多媒体交互信息；将多媒体交互信息发送至第一终端152，以及第一终端152对应的第二终端153，第一终端152和第二终端153分别通过视频直播界面将多媒体交互信息呈现给相应的用户。

本申请实施例的系统与图1的方法相对应，具体的执行过程已经在图1对应的实施例进行了详细描述，此处不再赘述。

上述实施例从虚拟模块的角度介绍了基于视频直播的信息交互装置，下述从实体模块的角度介绍一种电子设备，具体如下所示：

本申请实施例提供了一种电子设备，如图18所示，图18所示的电子设备1600包括：处理器1601和存储器1603。其中，处理器1601和存储器1603相连，如通过总线1602相连。可选地，电子设备1600还可以包括收发器1604。需要说明的是，实际应用中收发器1604不限于一个，该电子设备1600的结构并不构成对本申请实施例的限定。

处理器1601可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1601也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1602可包括一通路，在上述组件之间传送信息。总线1602可以是PCI总线或EISA总线等。总线1602可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1603可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1603用于存储执行本申请方案的应用程序代码，并由处理器1601来控制执行。处理器1601用于执行存储器1603中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：存储器和处理器；至少一个程序，存储于所述存储器中，用于被所述处理器执行时，与现有技术相比：本申请技术方案中，服务器接收视频直播过程中第一终端实时采集的用户的视频直播图像；将接收到的各视频直播图像分别进行用户手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的手势语义信息；根据手势语义信息，确定相匹配的多媒体交互信息，呈现在视频直播界面上。本申请通过对视频直播图像进行手势识别，确定用户的当前手势表达对应的手势语义信息，进而确定手势语义信息相匹配的多媒体交互信息提供给用户，使手语姿势信息的展现方式更加多元化，提升了视频直播过程中终端用户之间的交互效果。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请技术方案中，服务器接收视频直播过程中第一终端实时采集的用户的视频直播图像；将接收到的各视频直播图像分别进行用户手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中用户的当前手势表达对应的手势语义信息；根据手势语义信息，确定相匹配的多媒体交互信息，呈现在视频直播界面上。本申请通过对视频直播图像进行手势识别，确定用户的当前手势表达对应的手势语义信息，进而确定手势语义信息相匹配的多媒体交互信息提供给用户，使手语姿势信息的展现方式更加多元化，提升了视频直播过程中终端用户之间的交互效果。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于视频直播的信息交互方法，其特征在于，所述方法包括：

根据所述手势语义信息，确定相匹配的多媒体交互信息，并将所述多媒体交互信息呈现在视频直播界面上。

2.根据权利要求1所述的方法，其特征在于，所述基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的手势语义信息，包括：

基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的至少一个手语姿势图像；

根据所述至少一个手语姿势图像的手势识别结果，确定所述当前手势表达对应的手势语义信息。

3.根据权利要求1或2所述的方法，其特征在于，所述将多媒体交互信息呈现在视频直播界面上，包括：

将所述多媒体交互信息发送至第一终端，以及所述第一终端对应的第二终端，以使所述第一终端和所述第二终端分别通过视频直播界面将所述多媒体交互信息呈现给相应的用户。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

将各手势提示模板发送至所述第一终端，以使所述第一终端通过视频直播界面将所述各手势提示模板展示给所述第一终端的用户，以使所述第一终端的用户能够根据所述手势提示模板做出相应的手语姿势。

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据各视频直播图像的手势识别结果，确定所述用户的当前手势表达所对应的手势变化信息；

根据所述手势变化信息，确定所述用户的用户状态；

所述根据所述手势语义信息，确定相匹配的多媒体交互信息，包括：

根据所述手势语义信息和所述用户状态，确定相匹配的多媒体交互信息。

6.根据权利要求5所述的方法，其特征在于，所述手势变化信息包括以下至少一项：

7.根据权利要求2所述的方法，其特征在于，对于所述视频直播图像中的任一手语姿势图像，若手语姿势图像中的手势识别失败时，所述方法还包括：

向所述第一终端发送识别失败的提示信息，以使所述第一终端向用户展示所述提示信息。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述至少一个手语姿势图像的手势识别结果，确定所述当前手势表达对应的手势识别率；

将所述手势识别率发送至所述第一终端，以使所述第一终端将所述手势识别率展示给所述第一终端的用户。

9.根据权利要求1或2所述的方法，其特征在于，所述多媒体交互信息包括文本、动画、视频、表情图片中的至少两种。

10.一种基于视频直播的信息交互方法，其特征在于，所述方法包括：

实时采集视频直播过程中用户的视频直播图像；

将所述视频直播图像发送至服务器，以使所述服务器对接收到的各视频直播图像分别进行手势识别，基于各视频直播图像的手势识别结果确定各视频直播图像中所述用户的当前手势表达对应的手势语义信息，根据所述手势语义信息确定相匹配的多媒体交互信息；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

接收所述服务器发送的各手势提示模板；

将各所述手势提示模板通过视频直播界面呈现给所述用户。

12.一种基于视频直播的信息交互装置，其特征在于，所述装置包括：

13.一种基于视频直播的信息交互装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～11任一项所述的基于视频直播的信息交互方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得计算机可以执行权利要求1～11任一项所述的基于视频直播的信息交互方法。