CN113038174A

CN113038174A - 直播视频互动方法、装置以及计算机设备

Info

Publication number: CN113038174A
Application number: CN201911252366.7A
Authority: CN
Inventors: 唐自信; 薛德威
Original assignee: Shanghai Hode Information Technology Co Ltd
Current assignee: Shanghai Hode Information Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-06-25
Anticipated expiration: 2039-12-09
Also published as: WO2021114709A1; US20230009336A1; US11889127B2; CN113038174B

Abstract

本发明公开了一种直播视频互动方法，该方法包括：获取主播端视频数据和用户终端实时拍摄的用户端视频数据进行显示；监测并识别所述主播端视频数据中是否包含预设的语音指令；当所述主播端视频数据中包含所述语音指令时，判断所述用户端视频数据中是否包含目标音频和/或目标视频；当包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到用户视频。本发明还提供一种直播视频互动装置、计算机设备以及计算机可读存储介质。本发明能够根据主播和用户的语音和/或动作的互动结果，从而对用户视频执行播放视频特效，丰富了互动展示的方式，加强了互动参与感。

Description

直播视频互动方法、装置以及计算机设备

技术领域

本发明涉及多媒体技术领域，尤其涉及一种直播视频互动方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，视频直播由于具备直观、快速、交互性强的特点已经成为一种非常广泛的娱乐方式，受到了大众的喜爱。在视频直播的过程中，观看用户一般可以通过送礼，点赞，打cll跟主播进行互动，其中，礼物是直播内容的重要组成部分，而付费礼物的消费行为对直播内容可产生正向的激励作用，丰富的礼物展示形式更能有效促进优质直播内容的产出。而主播则会通过问答或者邀请观看用户进行娱乐互动，比如一起执行某些表情动作。

目前，观看用户与主播的互动过程一般仅仅设置在聊天公屏区域或直播画面上的固定位置实时展示主播画面，其展示方式单一，不能体现出观看用户个人的互动状态。因此观看用户的体验并不好，也无法满足用户多元化的娱乐需求。

发明内容

本发明提出一种直播视频互动方法、装置、计算机设备及计算机可读存储介质，用于解决直播过程中用户跟主播进行互动时展示的方式较为单一，互动参与感有限的问题。

首先，为实现上述目的，本发明提供一种直播视频互动方法，所述方法包括：

获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频；监测并识别所述主播端视频数据中是否包含预设的语音指令；当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段；判断所述视频数据段是否包含目标音频和/或目标视频，其中，所述目标音频和所述目标视频与所述语音指令具有关联关系；当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。

在一个例子中，述监测并识别所述主播端视频数据中是否包含预设的语音指令包括：通过平移截取的方式将所述主播端视频数据中的音频数据划分为音频数据单位；依次对每个音频数据单位识别，得到第一语音文本，并将所述第一语音文本与预设的语音指令文本库进行比较；当所述第一语音文本中包含所述语音指令文本库中的第一语音指令时，则判断所述主播端视频数据包含所述第一语音指令。

在一个例子中，所述判断所述视频数据段是否包含目标音频包括：对所述视频数据段中的音频数据进行语音识别，得到第二语音文本；将所述第二语音文本与所述第一语音文本进行比对；当所述第二语音文本与所述第一语音文本有高于第一阈值的相似度时，则判断为所述视频数据段包含所述目标音频。

在一个例子中，所述判断所述视频数据段是否包含目标视频包括：对所述视频数据段中的视频数据进行图像识别，得到识别结果；将所述识别结果与预设的语音指令关联列表中所述第一语音文本对应的视频识别数据进行比对；当所述识别结果与所述视频识别数据有高于第二阈值的相似度时，则判断为所述视频数据段包含所述目标视频。

在一个例子中，所述方法还包括：统计所述目标音频和/或所述目标视频的持续时长；根据所述持续时长选择对应的显示等级显示所述特效视频，其中，所述显示等级包括显示时长和显示样式中的至少一种。

在一个例子中，所述方法还包括：在将所语音指令对应的视频特效显示到所述用户视频的同时，将所述语音指令对应的名称显示到所述用户视频。

在一个例子中，当所述语音指令为送礼时，在将所语音指令对应的视频特效显示到所述用户视频的同时，还会将所述用户的账号货币减少所述送礼的价值数。

此外，为实现上述目的，本发明还提供一种直播视频互动装置，所述装置包括：

获取模块，用于获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频；监测模块，用于监测并识别所述主播端视频数据中是否包含预设的语音指令；截取模块，用于当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段；识别模块，用于判断所述视频数据段是否包含目标音频和/或目标视频，其中，所述目标音频和所述目标视频与所述语音指令具有关联关系；显示模块，用于当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。

进一步地，本发明还提出一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的直播视频互动方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的直播视频互动方法的步骤。

相较于现有技术，本发明所提出的直播视频互动方法、装置、计算机设备及计算机可读存储介质，能够获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频；然后监测并识别所述主播端视频数据中是否包含预设的语音指令；当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段并判断是否包含目标音频和/或目标视频；当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。通过以上方式，能够根据主播和用户的语音和/或动作的互动结果，从而对用户视频执行播放视频特效，丰富了互动展示的方式，加强了互动参与感。

附图说明

图1是本发明实施例一可选的应用环境的情景图；

图2是本发明直播视频互动方法一实施例的流程示意图；

图3是图2步骤S202的一示例性实施例的流程图；

图4是图2步骤S206中所述判断所述视频数据段是否包含目标音频的一示例性流程图；

图5是图2步骤S206中所述判断所述视频数据段是否包含目标视频的过程的一示例性流程图；

图6是主播视频互动的一示例性的视频特效的效果图；

图7是主播视频互动的另一示例性的视频特效的效果图；

图8是主播视频互动的再一示例性的视频特效的效果图；

图9是基于图2的一示例性实施例的流程示意图；

图10是本发明计算机设备一可选的硬件架构的示意图；

图11是本发明直播视频互动装置一实施例的程序模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1是本发明一实施例的应用环境示意图。参阅图1所示，所述计算机设备1与主播终端2连接，能够接收并获取到由所述主播终端2发送过来的主播视频数据。在本实施例中，所述计算机设备1作为观看用户终端，可以是具有摄像功能的独立电子设备，比如手机、便携设备，PC机等。也可以是一个独立的功能模块附加在具备有摄像功能的主电子设备上，然后协助所述主电子设备实现直播视频互动的功能。

图2是本发明直播视频互动方法一实施例的流程示意图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述。

如图2所示，所述直播视频互动方法可以包括步骤S200～S208，其中：

步骤S200，获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频。

具体地，所述计算机设备1通过网络与所述主播终端2连接，然后则可以获取由所述主播终端2发送的主播视频，所述主播视频是所述主播通过所述主播终端2进行直播拍摄的视频数据。当然，所述计算机设备1作为观看用户的终端设备，设置有摄像单元，能够拍摄所述观看用户的用户视频。也就是说，所述计算机设备1能够获取到主播端视频数据以及用户端视频数据，并显示到所述计算机设备1上的显示界面，显示为主播视频和用户视频。在本实施例中，所述主播视频和所述用户视频无缝拼接显示在一个视频播放框，将主播视频和用户视频进行拼接播放，可以将观看用户和主播的视频同框显示，因此可以给观看用户一种与主播近距离的感觉。在其他实施例中，所述主播视频和所述用户视频也可以分开显示，这里不做限制。

步骤S202，监测并识别所述主播端视频数据中是否包含预设的语音指令。

具体地，所述计算机设备1将所述用户端视频数据和所述主播端视频数据显示到所述视频播放框之后，还会进一步检测并识别所述主播视频数据中是否包含预设的语音指令。

参阅图3所示，在一示例性实施例中，步骤S202可以包括步骤S300～S304。

步骤S300，通过平移截取的方式将所述主播端视频数据中的音频数据划分为音频数据单位。

步骤S302，依次对每个音频数据单位识别，得到第一语音文本，并将所述第一语音文本与预设的语音指令文本库进行比较。

步骤S304，当所述第一语音文本中包含所述语音指令文本库中的第一语音指令时，则判断所述主播端视频数据包含所述第一语音指令。

具体地，所述计算机设备1先根据时间线通过平移截取的方式将所述主播端视频数据的音频数据分离出来，并划分为音频数据单位。在本实施例中，所述平移截取也就是按时间段依次划分出音频数据片段，作为语音识别的最小单位。接着，再依次对每个音频数据单位识别，得到第一语音文本，并将所述第一语音文本与预设的语音指令文本库进行比较。其中，所述语音指令文本库是所述计算机设备1预先设置的包括所有能够触发视频特效的语音指令所对应的语音文本。因此，所述计算机设备1将所述第一语音文本与所述语音指令文本库进行比较，当所述第一语音文本中保护所述语音指令文本库中的第一语音指令(任一条有效语音指令)时，则判断所述主播端视频数据包含所述第一语音指令。

步骤S204，当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段。

步骤S206，判断所述视频数据段是否包含目标音频和/或目标视频，其中，所述目标音频和所述目标视频与所述语音指令具有关联关系。

具体地，当所述计算机设备1判断出所述主播端视频数据中包含所述语音指令时，则会根据所述主播端视频数据的时间点找到所述用户端视频数据的对应时间部分的视频数据，然后截取预设时间范围内的视频数据段。在本实施例中，所述时间范围内指的是包括所述语音指令的所述主播端视频数据的时间点开始，向后延伸至包括一个预设的时间段，也就是用户响应所述语音指令后作出一定的反馈，然后用户端获取该反馈的视频数据。接着，所述计算机设备1对所述视频数据段进行识别，并判断所述视频数据段是否包含目标音频和/或目标视频。其中，所述目标音频和所述目标视频与所述语音指令具有关联关系，所述关联关系，是具有对应关系或者因果关系，例如，语音指令为“请打call”，那么，目标音频则为打call的呼唤声，或者打call的肢体动作或脸部表情。

参阅图4所示，在一示例性实施例中，步骤S206中所述判断所述视频数据段是否包含目标音频的过程，可以包括步骤S400～S404。

步骤S400，对所述视频数据段中的音频数据进行语音识别，得到第二语音文本。

步骤S402，将所述第二语音文本与所述第一语音文本进行比对。

步骤S404，当所述第二语音文本与所述第一语音文本有高于第一阈值的相似度时，则判断为所述视频数据段包含所述目标音频。

例如，所述计算机设备1通过比对，发现所述第二语音文本与所述第一语音文本有95％以上相似，那么则判断所述视频数据段包含所述目标音频。

参阅图5所示，在一示例性实施例中，步骤S206中所述判断所述视频数据段是否包含目标视频的过程，可以包括步骤S500～S504。

步骤S500，对所述视频数据段中的视频数据进行图像识别，得到识别结果。

步骤S502，将所述识别结果与预设的语音指令关联列表中所述第一语音文本对应的视频识别数据进行比对。

步骤S504，当所述识别结果与所述视频识别数据有高于第二阈值的相似度时，则判断为所述视频数据段包含所述目标视频。

在本实施例中，所述计算机设备1还设置有一个语音指令关联列表，所述语音指令关联列表包括每一条语音指令以及与之有关联关系的肢体动作或脸部表情描述。因此，当所述计算机设备1对所述视频数据段中的视频数据进行图像识别之后，得到的识别结果正好是与所述语音指令具有关联关系的肢体动作或脸部表情描述，或者是具有高于90％的相似度。那么，所述计算机设备1则判断所述视频数据段包含所述目标视频。

步骤S208，当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。

具体地，当所述计算机设备1判断出所述用户视频数据段中包含了所述目标音频和/或所述目标视频，则会根据所述语音指令，查找出与所述语音指令对应的视频特效，然后显示到所述用户视频。参阅图6，是一示例性的视频特效的效果图，在其中，所述语音指令为“打call”，那么，则会将对应的打call相关的视频特效显示在所述用户视频，比如显示卡通人物的打call特效，以及高亮，炫彩显示打call的场景。再参阅图7，是一示例性的视频特效的效果图，在其中，所述语音指令为“比心”，那么，则会将对应的比心相关的视频特效显示在所述用户视频，比如显示红心浮现的效果。

另外，所述计算机设备1在将所语音指令对应的视频特效显示到所述用户视频的同时，还将所述语音指令对应的名称显示到所述用户视频。如图8所示，所述语音指令为“打call”，所述视频特效不仅显示了打call的卡通人物效果，还显示了具体的打call类型“里打！”。当然，在其他实施例中，当所述语音指令为送礼时，在将所语音指令对应的视频特效显示到所述用户视频的同时，还会将所述用户的账号货币减少所述送礼的价值数。

参阅图9所示，在一示例性实施例中，所述直播视频互动方法除了包括步骤S200～S208之外，还可以包括步骤S600～S602。

步骤S600，统计所述目标音频和/或所述目标视频的持续时长。

步骤S602，根据所述持续时长选择对应的显示等级显示所述特效视频，其中，所述显示等级包括显示时长和显示样式中的至少一种。

具体地，所述计算机设备1在当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频，然后还会统计所述目标音频和/或所述目标视频的持续时长，并根据所述持续时长选择对应的显示等级显示所述特效视频，比如，打call时，显示打call的数量，或者打call的等级，或者将打call的效果以更加明亮的颜色显示。

从上文可知，本实施例所提出的直播视频互动方法能够获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频；然后监测并识别所述主播端视频数据中是否包含预设的语音指令；当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段并判断是否包含目标音频和/或目标视频；当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。通过以上方式，能够根据主播和用户的语音和/或动作的互动结果，从而对用户视频执行播放视频特效，丰富了互动展示的方式，加强了互动参与感。

此外，本发明还提供一种计算机设备，参阅图10所示，是本发明计算机设备一可选的硬件架构的示意图。

本实施例中，所述计算机设备1可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。所述计算机设备1通过网络接口13连接网络(图10未标出)，通过网络连接到主播终端等(图10未标出)进行数据交互。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要指出的是，图10仅示出了具有组件11-13的计算机设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述计算机设备1的内部存储单元，例如该计算机设备1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述计算机设备1的外部存储设备，例如该计算机设备1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述计算机设备1的操作系统和各类应用软件，例如挡板应用的程序代码，以及直播视频互动装置200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述计算机设备1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述直播视频互动装置200的应用程序，这里不做限制。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述计算机设备1与主播终端之间建立通信连接。

本实施例中，所述计算机设备1内安装并运行有直播视频互动装置200时，当所述直播视频互动装置200运行时，能够获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频；然后监测并识别所述主播端视频数据中是否包含预设的语音指令；当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段并判断是否包含目标音频和/或目标视频；当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。通过以上方式，能够根据主播和用户的语音和/或动作的互动结果，从而对用户视频执行播放视频特效，丰富了互动展示的方式，加强了互动参与感。

至此，己经详细介绍了本发明计算机设备的硬件结构和功能。下面，将基于上述计算机设备，提出本发明的各个实施例。

参阅图11所示，是本发明直播视频互动装置200一实施例的程序模块图。

本实施例中，所述直播视频互动装置200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明实施例的直播视频互动功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，直播视频互动装置200可以被划分为一个或多个模块。例如，在图11中，所述直播视频互动装置200可以被分割成获取模块201、监测模块202、截取模块203、识别模块204和显示模块205。其中：

所述获取模块201，用于获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频。

具体地，所述计算机设备通过网络与所述主播终端连接，然后则可以获取由所述主播终端发送的主播视频，所述主播视频是所述主播通过所述主播终端进行直播拍摄的视频数据。当然，所述计算机设备作为观看用户的终端设备，设置有摄像单元，能够拍摄所述观看用户的用户视频。也就是说，所述获取模块201能够获取到主播端视频数据以及用户端视频数据，并显示到所述计算机设备1上的显示界面，显示为主播视频和用户视频。在本实施例中，所述主播视频和所述用户视频无缝拼接显示在一个视频播放框，将主播视频和用户视频进行拼接播放，可以将观看用户和主播的视频同框显示，因此可以给观看用户一种与主播近距离的感觉。在其他实施例中，所述主播视频和所述用户视频也可以分开显示，这里不做限制。

所述监测模块202，用于监测并识别所述主播端视频数据中是否包含预设的语音指令。

所述获取模块201将所述用户端视频数据和所述主播端视频数据显示到所述视频播放框之后，所述监测模块202进一步检测并识别所述主播视频数据中是否包含预设的语音指令。在本实施例中，所述监测模块202通过平移截取的方式将所述主播端视频数据中的音频数据划分为音频数据单位，然后依次对每个音频数据单位识别，得到第一语音文本，并将所述第一语音文本与预设的语音指令文本库进行比较；当所述第一语音文本中包含所述语音指令文本库中的第一语音指令时，则判断所述主播端视频数据包含所述第一语音指令。

具体地，所述监测模块202先根据时间线通过平移截取的方式将所述主播端视频数据的音频数据分离出来，并划分为音频数据单位。在本实施例中，所述平移截取也就是按时间段依次划分出音频数据片段，作为语音识别的最小单位。接着，所述监测模块202再依次对每个音频数据单位识别，得到第一语音文本，并将所述第一语音文本与预设的语音指令文本库进行比较。其中，所述语音指令文本库是所述计算机设备预先设置的包括所有能够触发视频特效的语音指令所对应的语音文本。因此，所述监测模块202将所述第一语音文本与所述语音指令文本库进行比较，当所述第一语音文本中保护所述语音指令文本库中的第一语音指令(任一条有效语音指令)时，则判断所述主播端视频数据包含所述第一语音指令。

所述截取模块203，用于当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段。

所述识别模块204，用于判断所述视频数据段是否包含目标音频和/或目标视频，其中，所述目标音频和所述目标视频与所述语音指令具有关联关系。

具体地，当所述监测模块202判断出所述主播端视频数据中包含所述语音指令时，所述截取模块203则会根据所述主播端视频数据的时间点找到所述用户端视频数据的对应时间部分的视频数据，然后截取预设时间范围内的视频数据段。在本实施例中，所述时间范围内指的是包括所述语音指令的所述主播端视频数据的时间点开始，向后延伸至包括一个预设的时间段，也就是用户响应所述语音指令后作出一定的反馈，然后用户端获取该反馈的视频数据。接着，所述识别模块204对所述视频数据段进行识别，并判断所述视频数据段是否包含目标音频和/或目标视频。其中，所述目标音频和所述目标视频与所述语音指令具有关联关系，所述关联关系，是具有对应关系或者因果关系，例如，语音指令为“请打call”，那么，目标音频则为打call的呼唤声，或者打call的肢体动作或脸部表情。

在本实施例中，对于判断所述视频数据段是否包含目标音频的过程，所述识别模块204先对所述视频数据段中的音频数据进行语音识别，得到第二语音文本；然后将所述第二语音文本与所述第一语音文本进行比对，当所述第二语音文本与所述第一语音文本有高于第一阈值的相似度时，所述识别模块204则判断为所述视频数据段包含所述目标音频。对于判断所述视频数据段是否包含目标视频的过程，所述识别模块204先对所述视频数据段中的视频数据进行图像识别，得到识别结果；然后将所述识别结果与预设的语音指令关联列表中所述第一语音文本对应的视频识别数据进行比对，当所述识别结果与所述视频识别数据有高于第二阈值的相似度时，所述识别模块204则判断为所述视频数据段包含所述目标视频。

所述显示模块205，用于当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。

具体地，当所述识别模块204判断出所述用户视频数据段中包含了所述目标音频和/或所述目标视频，所述显示模块205则会根据所述语音指令，查找出与所述语音指令对应的视频特效，然后显示到所述用户视频。参阅图6，是一示例性的视频特效的效果图，在其中，所述语音指令为“打call”，那么，所述显示模块205则会将对应的打call相关的视频特效显示在所述用户视频，比如显示卡通人物的打call特效，以及高亮，炫彩显示打call的场景。再参阅图7，是一示例性的视频特效的效果图，在其中，所述语音指令为“比心”，那么，所述显示模块205则会将对应的比心相关的视频特效显示在所述用户视频，比如显示红心浮现的效果。

另外，所述显示模块205在将所语音指令对应的视频特效显示到所述用户视频的同时，还将所述语音指令对应的名称显示到所述用户视频。如图8所示，所述语音指令为“打call”，所述视频特效不仅显示了打call的卡通人物效果，还显示了具体的打call类型“里打！”。当然，在其他实施例中，当所述语音指令为送礼时，在将所语音指令对应的视频特效显示到所述用户视频的同时，所述显示模块205还会显示所述用户的账号货币减少所述送礼的价值数。

在另一实施例中，所述显示模块205还用于统计所述目标音频和/或所述目标视频的持续时长，并根据所述持续时长选择对应的显示等级显示所述特效视频，其中，所述显示等级包括显示时长和显示样式中的至少一种。

具体地，所述显示模块205在当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频，然后还会统计所述目标音频和/或所述目标视频的持续时长，并根据所述持续时长选择对应的显示等级显示所述特效视频，比如，打call时，显示打call的数量，或者打call的等级，或者将打call的效果以更加明亮的颜色显示。

从上文可知，所述计算机设备能够获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频；然后监测并识别所述主播端视频数据中是否包含预设的语音指令；当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段并判断是否包含目标音频和/或目标视频；当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。通过以上方式，能够根据主播和用户的语音和/或动作的互动结果，从而对用户视频执行播放视频特效，丰富了互动展示的方式，加强了互动参与感。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种直播视频互动方法，其特征在于，所述方法包括步骤：

获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频；

监测并识别所述主播端视频数据中是否包含预设的语音指令；

当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段；

判断所述视频数据段是否包含目标音频和/或目标视频，其中，所述目标音频和所述目标视频与所述语音指令具有关联关系；

当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。

2.如权利要求1所述的直播视频互动方法，其特征在于，所述监测并识别所述主播端视频数据中是否包含预设的语音指令包括：

通过平移截取的方式将所述主播端视频数据中的音频数据划分为音频数据单位；

依次对每个音频数据单位识别，得到第一语音文本，并将所述第一语音文本与预设的语音指令文本库进行比较；

当所述第一语音文本中包含所述语音指令文本库中的第一语音指令时，则判断所述主播端视频数据包含所述第一语音指令。

3.如权利要求2所述的直播视频互动方法，其特征在于，所述判断所述视频数据段是否包含目标音频包括：

对所述视频数据段中的音频数据进行语音识别，得到第二语音文本；

将所述第二语音文本与所述第一语音文本进行比对；

当所述第二语音文本与所述第一语音文本有高于第一阈值的相似度时，则判断为所述视频数据段包含所述目标音频。

4.如权利要求2所述的直播视频互动方法，其特征在于，所述判断所述视频数据段是否包含目标视频包括：

对所述视频数据段中的视频数据进行图像识别，得到识别结果；

将所述识别结果与预设的语音指令关联列表中所述第一语音文本对应的视频识别数据进行比对；

当所述识别结果与所述视频识别数据有高于第二阈值的相似度时，则判断为所述视频数据段包含所述目标视频。

5.如权利要求1所述的直播视频互动方法，其特征在于，所述方法还包括：

统计所述目标音频和/或所述目标视频的持续时长；

根据所述持续时长选择对应的显示等级显示所述特效视频，其中，所述显示等级包括显示时长和显示样式中的至少一种。

6.如权利要求1所述的直播视频互动方法，其特征在于，所述方法还包括：

在将所语音指令对应的视频特效显示到所述用户视频的同时，将所述语音指令对应的名称显示到所述用户视频。

7.如权利要求1所述的直播视频互动方法，其特征在于，

当所述语音指令为送礼时，在将所语音指令对应的视频特效显示到所述用户视频的同时，还会将所述用户的账号货币减少所述送礼的价值数。

8.一种直播视频互动装置，其特征在于，所述装置包括：

获取模块，用于获取主播端视频数据和用户终端实时拍摄的用户端视频数据，并分别显示为主播视频和用户视频；

监测模块，用于监测并识别所述主播端视频数据中是否包含预设的语音指令；

截取模块，用于当所述主播端视频数据中包含所述语音指令时，截取所述用户端视频数据中预设时间范围内的视频数据段；

识别模块，用于判断所述视频数据段是否包含目标音频和/或目标视频，其中，所述目标音频和所述目标视频与所述语音指令具有关联关系；

显示模块，用于当所述视频数据段包含所述目标音频和/或所述目标视频时，将所语音指令对应的视频特效显示到所述用户视频。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的直播视频互动方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7中任一项所述的直播视频互动方法的步骤。