CN117560538B

CN117560538B - 基于云平台的交互式语音视频的服务方法

Info

Publication number: CN117560538B
Application number: CN202410046257.4A
Authority: CN
Inventors: 涂震; 魏强; 范玉平; 高岐; 陈瑞兴
Original assignee: Jiangxi Micro Blog Technology Co ltd
Current assignee: Jiangxi Micro Blog Technology Co ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-03-22
Anticipated expiration: 2044-01-12
Also published as: CN117560538A

Abstract

本发明提供了一种基于云平台的交互式语音视频的服务方法和装置，包括：通过第一终端上传直播数据，然后检测用户的视线是否直视所述第二终端的显示屏，当用户的视线没有直视所述第二终端的显示屏时，缓存第二视频数据包和第二音频数据包，然后在用户直视第二终端的显示屏后，按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频。本发明的有益效果：可以使用户能够完整的接收到直播的内容，从而提高了用户的体验。

Description

基于云平台的交互式语音视频的服务方法

技术领域

本发明涉及云平台领域，特别涉及一种基于云平台的交互式语音视频的服务方法。

背景技术

随着科技的不断发展，直播逐渐成为了人们学习的一种主流方式，然而直播的播放需要用户的视线直视显示器，并且保持直视状态。当用户的视线未直视显示器时，会出现直播内容无法被用户所接收的问题。现有技术缺少解决这种问题的方案。

发明内容

本发明的主要目的为提供一种基于云平台的交互式语音视频的服务方法，旨在解决当用户的视线未直视显示器时，会出现直播内容无法被用户所接收的问题。

本发明提供了一种基于云平台的交互式语音视频的服务方法，包括：

基于云平台连接多个第一终端和第二终端；其中，所述第一终端为直播的终端，所述第二终端为观看所述直播的终端；

第一终端上传直播数据；其中，所述直播数据包括第一视频数据和第一音频数据；

第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏；

当用户的视线没有直视所述第二终端的显示屏时，则缓存当前的第一视频数据以及第一音频数据，以形成多个第二视频数据包和第二音频数据包；

持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频。

进一步地，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上播放与所述第二视频数据对应的视频，并使用声音播放器播放与所述第二音频数据对应的音频的步骤之后，还包括：

根据用户预先选取的倍速播放所述第二视频数据对应的视频，同时计算用户观看视频的进度，并与所述第一视频数据的进度进行比较，确定出用户观看第二视频数据包与第一视频数据的同步时间点；

当到达所述同步时间点后，将第二终端播放的内容切换为直播数据。

进一步地，所述直播数据为实时直播数据；

所述第一音频数据为对应第一视频数据的音频数据；

在同一个时间窗口内，所述第一音频数据与第二音频数据包为同一音频数据，所述第一视频数据与第二视频数据包为同一视频数据。

进一步地，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频的步骤之前，还包括：

检测各个所述第二音频数据包中是否具有声音；

根据检测结果将不具有声音第二音频数据包以及对应的第二视频数据包从缓存列表中删除。

进一步地，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频的步骤之后，还包括：

基于云平台统计正在观看直播数据的目标用户人数；

判断所述目标用户人数是否低于预设的人数；

若低于预设的人数，则提醒所述第一终端前的目标用户预留休息时间，直至目标用户人数小于等于预设的人数。

判断是否接收到用户输入的播放直播数据的播放指令；

若接收到播放指令，则暂停播放与所述第二视频数据包对应的视频，以及暂停使用声音播放器播放与所述第二音频数据包对应的音频，并切换至直播数据的播放。

进一步地，所述第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏的步骤之后，还包括：

当用户的视线没有直视所述第二终端的显示屏时，则继续播放第一音频数据，并暂停第一视频数据的播放。

本发明还提供了一种基于云平台的交互式语音视频的服务装置，包括：

连接模块，用于基于云平台连接多个第一终端和第二终端；其中，所述第一终端为直播的终端，所述第二终端为观看所述直播的终端；

上传模块，用于第一终端上传直播数据；其中，所述直播数据包括第一视频数据和第一音频数据；

采集模块，用于第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏；

缓存模块，用于当用户的视线没有直视所述第二终端的显示屏时，则缓存当前的第一视频数据以及第一音频数据，以形成多个第二视频数据包和第二音频数据包；

处理模块，用于持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频。

本发明还提供了一种计算机设备，包括内存储器和处理器，所述内存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明的有益效果：通过第一终端上传直播数据，然后检测用户的视线是否直视所述第二终端的显示屏，当用户的视线没有直视所述第二终端的显示屏时，缓存第二视频数据包和第二音频数据包，然后在用户直视第二终端的显示屏后，按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频，从而可以使用户能够完整的接收到直播的内容，从而提高了用户的体验。

附图说明

图1 是本发明一实施例的一种基于云平台的交互式语音视频的服务方法的流程示意图；

图2 是本发明一实施例的一种基于云平台的交互式语音视频的服务装置的结构示意框图；

图3 为本申请一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后等）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本发明提出一种基于云平台的交互式语音视频的服务方法，包括：

S1：基于云平台连接多个第一终端和第二终端；其中，所述第一终端为直播的终端，所述第二终端为观看所述直播的终端；

S2：第一终端上传直播数据；其中，所述直播数据包括第一视频数据和第一音频数据；

S3：第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏；

S4：当用户的视线没有直视所述第二终端的显示屏时，则缓存当前的第一视频数据以及第一音频数据，以形成多个第二视频数据包和第二音频数据包；

S5：持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频。

如上述步骤S1所述，基于云平台连接多个第一终端（如智能手机、平板、电脑等）和第二终端（如智能手机、平板、电脑等）是现代物联网（IoT）和云计算技术的一个重要应用。这样的系统通常包括以下几个关键组成部分：数据传输：第一终端通常通过无线网络（如Wi-Fi，Bluetooth，LTE等）将数据发送到云平台。云平台：在云中，数据可以被存储、处理和分析。云平台提供强大的数据处理能力和存储能力，支持从多个终端收集的大量数据。数据处理和分析：云平台上的软件对收集的数据进行处理和分析，提取有用信息。第二终端（如智能手机或电脑）通常通过专门的应用程序或网页与云平台交互，用户可以通过这些界面监控和控制第一终端的设备。

如上述步骤S2所述，第一终端上传直播数据；其中，所述直播数据包括第一视频数据和第一音频数据；即将直播数据进行上传，该直播数据为老师上课的数据。

如上述步骤S3所述，第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏。

在一个实施例中，通过用户图像确定用户的视线涉及图像识别技术，这可以采用基于机器学习的智能识别技术来实现，采用基于计算机视觉的姿态识别技术来实现。具体实现过程例如为：放大用户的图像，以提取出头部图像和参考图像；进行相对位置分析，以确定用户头部朝向与参考图像对应的参考物（例如为沙发、地砖的缝隙等）的相对位置，根据所述相对位置和参考物与显示器的预先放置位置，确定用户的视线是否直视显示器。

在另一个实施例中，预设的摄像头可以包括多个，通过至少两个摄像头可以获取到，摄像头数量对应的用户面部图像，即两个摄像头可以获取到两个用户图像，同的摄像头对应用户面部上不同的点，点的位置不宜太近，优选可以是用户的两个眼角，即左眼眼角和右眼的眼角，各个摄像头至对应点的距离也可以获取，具体可以通过拍摄的画面进行分析获取得到各个摄像头至用户面部上对应点的距离，也可以在摄像头处设置红外传感器，发射红外光来检测各个摄像头至用户面部对应点的距离，然后根据几何关系可以测得对应点在空间的位置，其中垂线即为用户的视线方向。

如上述步骤S4-S5所述当用户的视线没有直视所述第二终端的显示屏时，则缓存当前的第一视频数据以及第一音频数据，以形成多个第二视频数据包和第二音频数据包；持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频。其中，用户的视线没有直视第二终端的显示屏时，则说明用户没有直接观看，因此，用户可能漏掉了一些课时内容，因此，可以缓存前的第一视频数据以及第一音频数据，以形成多个第二视频数据包和第二音频数据包，需要说明的是，为了便于后续用户可以追上直播的播放进度，可以将视频分为多个数据包进行存储，数据包的大小不作限定，例如可以是5分钟为一组数据包，也可以是其他时间，此外，用户也可以决定不看之前的数据，直接进行直播的观看，此时可以在用户的第二终端上设置一个切换至实时直播的选项，然后持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频。当然此时用户可以选择倍速播放，也可以对视频数据包进行跳跃的播放，本申请对此不作限定，从而可以使用户能够完整的接收到直播的内容，从而提高了用户的体验。需要说明的是，缓存第一视频数据以及第一音频数据，可以通过云平台的在线录制功能实现第二视频数据包和第二音频数据包的采集，对于直播的在线录制功能为现有常规技术，本申请不再赘述。

在一个实施例中，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上播放与所述第二视频数据对应的视频，并使用声音播放器播放与所述第二音频数据对应的音频的步骤S5之后，还包括：

S601：根据用户预先选取的倍速播放所述第二视频数据对应的视频，同时计算用户观看视频的进度，并与所述第一视频数据的进度进行比较，确定出用户观看第二视频数据包与第一视频数据的同步时间点；

S602：当到达所述同步时间点后，将第二终端播放的内容切换为直播数据。

如上述步骤S601-S602所述，用户可以选取倍速播放，因此，可以在计算用户观看视频的进度，并与所述第一视频数据的进度进行比较，从而可以计算出第二视频数据包与第一视频数据的同步时间点，然后停止对直播数据的缓存，并切换为直播数据进行播放，从而可以使用户可以及时的赶上直播的进度，并且可以随时向老师询问，而倍速播放的内容可以由用户自行实时设置，也可以预先进行设置，本申请对此不作限定。

在一个实施例中，

所述直播数据为实时直播数据；

所述第一音频数据为对应第一视频数据的音频数据；

在一个实施例中，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频的步骤S5之前，还包括：

S401：检测各个所述第二音频数据包中是否具有声音；

S402：根据检测结果将不具有声音第二音频数据包以及对应的第二视频数据包从缓存列表中删除。

如上述步骤S401-S402所述，由于第一终端前的直播人员在上课时，一般会预留用户思考的时间，因此，此部分的内容不需要观看，因此可以根据是否具有声音来删除一些第二音频数据包和第二视频数据包，从而提高用户观看第二视频数据包和第二音频数据包的效率，使用户能够尽快追上直播数据的播放进度，进一步提高用户的体验，此处需要说明的是，是否具有声音具体为是否具有第一终端前的直播人员的声音，具体地，可以在直播开始时预先录入直播人员的声音信息，然后后续通过预设的声纹检测方法检测是否具有相同的声音信息来判断是否具有直播人员的声音信息。

在一个实施例中，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频的步骤S5之后，还包括：

S611：基于云平台统计正在观看直播数据的目标用户人数；

S612：判断所述目标用户人数是否低于预设的人数；

S613：若低于预设的人数，则提醒所述第一终端前的目标用户预留休息时间，直至目标用户人数小于等于预设的人数。

如上述步骤S611-S613所述，即可以基于云平台统计正在观看直播数据的目标用户人数，当目标用户人数低于预设的人数，说明观看第二视频数据包和第二音频数据包的人数较多，此时第一终端前的目标用户应当降低讲课的速度，留一些时间供这些人员追上直播数据的播放进度，然后由于上述可以将一些没有声音的第二音频数据包和第二视频数据包进行删除，从而可以使交互更加人性化。

在一个实施例中，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频的步骤S6之后，还包括：

S621：判断是否接收到用户输入的播放直播数据的播放指令；

S622：若接收到播放指令，则暂停播放与所述第二视频数据包对应的视频，以及暂停使用声音播放器播放与所述第二音频数据包对应的音频，并切换至直播数据的播放。

如上述步骤S621-S622所述，判断是否接收到用户输入的播放直播数据的播放指令；若接收到播放指令，则暂停播放与所述第二视频数据包对应的视频，以及暂停使用声音播放器播放与所述第二音频数据包对应的音频，并切换至直播数据的播放。具体地，可以在第二终端的播放界面上设置一个观看当前直播的虚拟按键，然后当用户点击该虚拟按键时，则认为接收到用户输入的播放直播数据的播放指令，然后暂停播放与所述第二视频数据包对应的视频，以及暂停使用声音播放器播放与所述第二音频数据包对应的音频，并切换至直播数据的播放。

在一个实施例中，所述第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏的步骤S3之后，还包括：

S411：当用户的视线没有直视所述第二终端的显示屏时，则继续播放第一音频数据，并暂停第一视频数据的播放。

如上述步骤S411所述，当用户的视线没有直视所述第二终端的显示屏时，则继续播放第一音频数据，并暂停第一视频数据的播放。用户虽然没有直视第二终端的显示屏，但是可以通过耳朵进行听课，因此，继续播放第一音频数据，并暂停第一视频数据的播放，以避免用户实际上还是在听课，却没有接收到上课信息的情况。需要说明的是，后续依然会播放第二视频数据，此时可能会出现重复播放的情况，但是这是符合逻辑的，对于用户来说，其虽然没有直视第二终端的显示屏，那么其存在两种情况，第一种，用户听课了，只是没有直视第二终端，第二用户没有听课或者没有听懂课，也没有直视第二终端，对于第一种情况，用户是没有必要选择继续听课的，这会造成用户时间的浪费，那么用户自然会选择回到直播，因此，虽然本申请的方案是对声音进行了重复播放，但是用户可以选择不听，因此不会出现重复播放的逻辑问题，其次，第二种情况，用户可能没有听到，那么就没有收到上课的信息，因此可以播放第二音频数据和第二视频数据，使用户不会遗落上课的内容，提高用户的体验。

参照图2，本发明还提供了一种基于云平台的交互式语音视频的服务装置，包括：

连接模块10，用于基于云平台连接多个第一终端和第二终端；其中，所述第一终端为直播的终端，所述第二终端为观看所述直播的终端；

上传模块20，用于第一终端上传直播数据；其中，所述直播数据包括第一视频数据和第一音频数据；

采集模块30，用于第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏；

缓存模块40，用于当用户的视线没有直视所述第二终端的显示屏时，则缓存当前的第一视频数据以及第一音频数据，以形成多个第二视频数据包和第二音频数据包；

处理模块50，用于持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、内内存储器和网络接口。其中，该计算机设计的处理器用于提供计算和控制能力。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种视频数据包等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的基于云平台的交互式语音视频的服务方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的基于云平台的交互式语音视频的服务方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对内存储器、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性内存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于云平台的交互式语音视频的服务方法，其特征在于，包括：

第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏；所述根据所述用户图像判断用户的实现的步骤包括：放大所述用户图像，以提取出头部图像和参考图像；进行相对位置分析，以确定用户头部朝向与参考图像对应的参考物的相对位置，根据所述相对位置和参考物与显示屏的预先放置位置，确定用户的视线是否直视显示屏；

2.如权利要求1所述的基于云平台的交互式语音视频的服务方法，其特征在于，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上播放与所述第二视频数据对应的视频，并使用声音播放器播放与所述第二音频数据对应的音频的步骤之后，还包括：

3.如权利要求1所述的基于云平台的交互式语音视频的服务方法，其特征在于，

所述直播数据为实时直播数据；

所述第一音频数据为对应第一视频数据的音频数据；

4.如权利要求1所述的基于云平台的交互式语音视频的服务方法，其特征在于，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频的步骤之前，还包括：

检测各个所述第二音频数据包中是否具有声音；

5.如权利要求4所述的基于云平台的交互式语音视频的服务方法，其特征在于，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频的步骤之后，还包括：

基于云平台统计正在观看直播数据的目标用户人数；

判断所述目标用户人数是否低于预设的人数；

6.如权利要求1所述的基于云平台的交互式语音视频的服务方法，其特征在于，所述持续进行用户图像采集处理和用户视线判断处理，以使得当用户视线直视所述第二终端的显示屏时，在所述第二终端的显示屏上按照顺序播放与所述第二视频数据包对应的视频，并使用声音播放器播放与所述第二音频数据包对应的音频的步骤之后，还包括：

判断是否接收到用户输入的播放直播数据的播放指令；

7.一种基于云平台的交互式语音视频的服务装置，其特征在于，包括：

采集模块，用于第二终端采用预设的摄像头，对所述第二终端前的用户进行图像采集处理，以得到用户图像，并根据所述用户图像，判断用户的视线是否直视所述第二终端的显示屏；所述根据所述用户图像判断用户的实现的步骤包括：放大所述用户图像，以提取出头部图像和参考图像；进行相对位置分析，以确定用户头部朝向与参考图像对应的参考物的相对位置，根据所述相对位置和参考物与显示屏的预先放置位置，确定用户的视线是否直视显示屏；

8.一种计算机设备，包括内存储器和处理器，所述内存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。