CN104581221A

CN104581221A - 视频直播的方法和装置

Info

Publication number: CN104581221A
Application number: CN201410829939.9A
Authority: CN
Inventors: 陈晓辰
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-04-29

Abstract

本发明实施例公开了一种视频直播的方法和装置，属于计算机技术领域。所述方法包括：接收目标直播间的主播账户所登录的第一终端发送的目标直播间的直播视频数据，获取直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据，将直播视频数据和得到的文本数据，发送给目标直播间中除主播账户外的其它账户所登陆的终端。采用本发明，可以提高视频直播过程的信息获取效率。

Description

视频直播的方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种视频直播的方法和装置。

背景技术

随着计算机技术的不断发展，人们日常的娱乐活动也越来越丰富，例如，有很多提供在线视频服务的网站，用户可以通过相应的应用程序在线观看主播提供的视频或音频节目。

用户可以向某提供在线视频服务的网站的运营商申请成为主播，申请成功后，该网站的运营商会为用户分配一个直播间ID(IDentity，身份标识号码)，并将该直播间ID和用户的账户对应存储，这样，该用户就成为该直播间ID对应的直播间的主播，主播通过主播账户登陆相应应用程序的服务器，进而应用程序中显示多个直播间ID，主播进入自己的直播间后，如果需要为该直播间中的用户表演节目，则点击该应用程序中的开播按键，则会触发终端启动自身的摄像头和麦克风，终端将拍摄的图像和采集的语音数据进行合成，得到直播视频数据，发送给服务器，服务器将接收到的直播视频数据发送给直播间中除主播账户外的其它账户所登陆的终端，以使各终端播放该直播视频数据。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

通过上述方式向其它账户所登陆的终端发送图像和语音数据时，由于某些原因(如用户所处环境较嘈杂等)，用户可能无法听清主播说的话或所唱歌曲的内容，从而，使得视频直播过程的信息获取效率较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种视频直播的方法和装置。所述技术方案如下：

第一方面，提供了一种视频直播的方法，所述方法包括：

接收目标直播间的主播账户所登录的第一终端发送的所述目标直播间的直播视频数据；

获取所述直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据；

将所述直播视频数据和得到的文本数据，发送给所述目标直播间中除所述主播账户外的其它账户所登陆的终端。

可选地，所述获取所述直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据之后，所述方法还包括：

将所述语音数据中与所述文本数据中每个字符相对应的音频单元的开始时间，分别设置为对应的字符的开始显示时间；

所述将所述直播视频数据和得到的文本数据，发送给所述目标直播间中除所述主播账户外的其它账户所登陆的终端，包括：

将所述直播视频数据、所述文本数据和所述文本数据中每个字符的开始显示时间，发送给所述目标直播间中除所述主播账户外的其它账户所登陆的终端。

可选地，所述接收目标直播间的主播账户所登录的第一终端发送的所述目标直播间的直播视频数据之前，所述方法还包括：

接收所述第一终端发送的所述目标直播间的开播请求；

向所述目标直播间中除所述主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息；

接收所述其它账户所登陆的终端中的至少一个第二终端发送的确认消息；

将所述直播视频数据和所述文本数据，发送给所述至少一个第二终端。

第二方面，提供了一种视频直播的方法，所述方法包括：

接收服务器发送的目标直播间的直播视频数据和文本数据；其中，所述直播视频数据为所述目标直播间的主播账户所登陆的第一终端发送给所述服务器的视频数据，所述文本数据为所述服务器对所述直播视频数据中包含的语音数据进行文本转换得到的数据；

播放所述直播视频数据，并在对应的直播视频中显示所述文本数据。

可选地，所述接收服务器发送的目标直播间的直播视频数据和文本数据，包括：

接收服务器发送的目标直播间的直播视频数据、文本数据和所述文本数据中每个字符的开始显示时间；

所述播放所述直播视频数据，并在对应的直播视频中显示所述文本数据，包括：

播放所述直播视频数据，当到达所述文本数据中的第一字符的开始显示时间时，在对应的直播视频中显示所述第一字符。

当接收到服务器发送的是否接收文本数据的询问消息时，显示是否接收文本数据的询问框；

当接收到确认指令时，向所述服务器发送确认消息；

接收所述服务器发送的目标直播间的直播视频数据和文本数据。

第三方面，提供了一种服务器，所述服务器包括：

接收模块，用于接收目标直播间的主播账户所登录的第一终端发送的所述目标直播间的直播视频数据；

转换模块，用于获取所述直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据；

发送模块，用于将所述直播视频数据和得到的文本数据，发送给所述目标直播间中除所述主播账户外的其它账户所登陆的终端。

可选地，所述服务器还包括设置模块，用于：

所述发送模块，用于：

可选地，所述服务器还包括处理模块，用于：

接收所述第一终端发送的所述目标直播间的开播请求；

所述发送模块，用于：

第四方面，提供了一种第二终端，所述第二终端包括：

接收模块，用于接收服务器发送的目标直播间的直播视频数据和文本数据；其中，所述直播视频数据为所述目标直播间的主播账户所登陆的第一终端发送给所述服务器的视频数据，所述文本数据为所述服务器对所述直播视频数据中包含的语音数据进行文本转换得到的数据；

显示模块，用于播放所述直播视频数据，并在对应的直播视频中显示所述文本数据。

可选地，所述接收模块，用于：

所述显示模块，用于：

可选地，所述接收模块，用于：

当接收到确认指令时，向所述服务器发送确认消息；

第五方面，提供了一种视频直播的系统，所述系统包括服务器、第一终端和第二终端，其中：

所述服务器，用于接收目标直播间的主播账户所登录的所述第一终端发送的所述目标直播间的直播视频数据；获取所述直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据；将所述直播视频数据和得到的文本数据，发送给所述目标直播间中除所述主播账户外的其它账户所登陆的终端；

所述第二终端，用于接收所述服务器发送的目标直播间的直播视频数据和文本数据；播放所述直播视频数据，并在对应的直播视频中显示所述文本数据。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，接收目标直播间的主播账户所登录的第一终端发送的目标直播间的直播视频数据，获取直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据，将直播视频数据和得到的文本数据，发送给目标直播间中除主播账户外的其它账户所登陆的终端，这样，即使用户所处环境较嘈杂，用户可以通过相应的文本数据构成的字幕获取相应的信息，从而，可以提高视频直播过程的信息获取效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频直播的方法流程图；

图2是本发明实施例提供的一种视频直播的方法流程图；

图3是本发明实施例提供的一种视频直播的方法流程图；

图4是本发明实施例提供的一种界面的显示示意图；

图5是本发明实施例提供的一种服务器的结构示意图；

图6是本发明实施例提供的一种第二终端的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图；

图8是本发明实施例提供的一种第二终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种视频直播的方法，该方法可以由服务器、第一终端和第二终端共同实现。

如图1所示，该方法中服务器的处理流程可以包括如下的步骤：

步骤101，接收目标直播间的主播账户所登录的第一终端发送的目标直播间的直播视频数据。

步骤102，获取直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据。

步骤103，将直播视频数据和得到的文本数据，发送给目标直播间中除主播账户外的其它账户所登陆的终端。

如图2所示，该方法中第二终端的处理流程可以包括如下的步骤：

步骤201，接收服务器发送的目标直播间的直播视频数据和文本数据；其中，直播视频数据为目标直播间的主播账户所登陆的第一终端发送给服务器的视频数据，文本数据为服务器对直播视频数据中包含的语音数据进行文本转换得到的数据。

步骤202，播放直播视频数据，并在对应的直播视频中显示文本数据。

实施例二

本发明实施例提供了一种视频直播的方法，该方法可以由服务器、第一终端和第二终端共同实现。其中，服务器可以是某在线视频或直播网站的服务器，第一终端、第二终端可以是任意终端，如手机、笔记本电脑等，第一终端可以是直播间中的主播账户所登陆的终端，第二终端可以是观看在线视频或视频直播的用户使用的终端。

如图3所示，该方法的处理流程可以包括如下的步骤：

步骤301，服务器接收目标直播间的主播账户所登录的第一终端发送的目标直播间的直播视频数据。

其中，直播间可以是用户观看或收听主播提供的娱乐节目的网络直播平台。

在实施中，随着计算机技术的不断发展，人们的日常娱乐活动越来越丰富，这些娱乐活动也开始从线下逐步转移到线上，现在有很多娱乐网站提供在线视频服务，为人们的日常生活添加了很多乐趣。通常，技术人员可以在在线视频网站的服务器中设置多个直播间，每个直播间可以设置至少一个主播，用户可以通过在线视频网站的网址登陆服务器，服务器可以将该网站的页面数据发送给该用户使用的终端，终端可以显示相应的网页，该网页中可以设置有注册和登陆直播间的按键，如果该用户没有在该网站注册，则可以通过注册按键进行注册，注册完成后，如果该用户还想成为某个直播间的主播，则可以点击该页面中的申请成为主播的按键，终端可以生成申请请求发送给服务器，该网站的服务人员可以审核该用户的相关资料，如果该用户满足相应的条件，可以通过服务器向该用户的终端发送携带有直播间ID的通知消息，这样，该用户便可以成为相应的直播间(即目标直播间)的主播，其它用户可以通过各自的账户登陆服务器，并可以点击进入该直播间观看目标直播间的节目，如图4所示，主播可以通过其终端(即第一终端)中摄像头和麦克风向目标直播间中的其它账户的终端发送视频数据，此时，第一终端可以通过摄像头拍摄主播的图像，同时可以通过麦克风采集主播的声音信号，然后可以将拍摄的视频图像和采集的声音信号，组合成直播视频数据发送给服务器，服务器可以接收第一终端发送的目标直播间的直播视频数据。其中，终端可以是获取一帧视频图像和一帧语音数据合成直播视频数据发送给服务器，当然，终端还可以通过其他方式向服务器发送直播视频数据，相应的处理可以通过现有的处理方式进行，在此不再赘述。

可选地，每当某个直播间开播时，服务器可以询问该直播间中除主播账户外的其它账户的用户是否需要显示语音数据对应的文本数据，相应的处理过程可以包括以下步骤：

步骤一，服务器接收第一终端发送的目标直播间的开播请求。

在实施中，如图4所示，如果主播需要进行直播时，可以点击目标直播间中的开播按键，触发第一终端获取目标直播间的直播间ID，生成开播请求，发送给服务器，服务器可以接收该开播请求。

步骤二，服务器向目标直播间中除主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息。

在实施中，服务器可以获取开播请求中的直播间ID，然后，获取该直播间ID对应的目标直播间中的账户标识，服务器可以从中获取除主播账户外的其它账户，并向其所登陆的终端分别发送是否接收文本数据的询问消息，其中，询问消息可以由技术人员预先设置于服务器中。

步骤三，服务器接收其它账户所登陆的终端中的至少一个第二终端发送的确认消息。

其中，第二终端可以是除主播账户外的其它账户中任一账户所登陆的终端。

在实施中，除主播账户外的其它账户所登陆的终端接收到询问消息后，如果用户需要接收并显示文本数据，则可以点击询问信息中的确定按键，该用户使用的终端(即第二终端)生成确认消息，发送给服务器，服务器可以接收第二终端发送的确认消息，如果用户不需要接收文本数据，可以点击询问信息中的拒绝按键，此时，其使用的终端生成拒绝消息，发送给服务器，服务器接收该拒绝消息，可以记录发送该拒绝消息的账户，当服务器得到相应的文本数据后，可以该文本数据发送给发送了确认消息的终端。

步骤302，服务器获取直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据。

在实施中，服务器接收到第一终端发送的直播视频数据时，可以将直播视频数据中的视频图像与语音数据分离，相应的处理方式可以多种多样，例如，视频图像和语音数据可以分别携带相应的数据标识，视频图像的数据标识可以与语音数据的数据标识不同，服务器可以通过不同的数据标识区分视频图像和语音数据，然后，服务器可以对其中的语音数据进行文本转换，得到对应的文本数据。

对语音数据进行文本转换的处理过程可以多种多样，以下提供一种可行的处理方式，可以包括以下内容：可以通过语音识别模型，将语音数据转换为文本数据，在对语音数据转换为文本数据之前，可以对上述语音识别模型进行训练，技术人员可以通过多种途径获取多种语音数据，例如，技术人员在开发语音识别机制之前，可以获取各个直播间的语音数据等，然后，使用得到的语音数据对语音识别模型进行训练，具体的，服务器中可以设置有多个语音识别模型的参数，服务器获取到语音数据后，提取语音数据中的相关参数，提取语音数据的特征，如PLP(Perceptual Linear Predictive，感知线性预测系数)、MFCC(Mel-Frequency Cepstrum Coefficients，梅尔频率频谱系数)等，服务器得到语音数据的特征后，可以对每一帧语音数据进行状态标注，具体地，服务器中可以设置有DBN(Dynamic Bayesian Network，动态贝叶斯网络)模型，可以将语音数据划分成三层，则可以使用上下文三音素DBN模型，在该语音数据中提取出头层、中间层和尾层的特征，可以将三层特征作为一个样本特征空间，例如，一个词语包括6个音素，分别为音素a、音素b、音素c、音素d、音素e和音素f，通过上下文三音素DBN模型，可以得到abc、bcd、cde、def四个特征，将上述四个特征作为向量组成一个矩阵，进而，得到该矩阵对应的词语，可以将中间层对应的词语作为一个标记，服务器可以使用人工神经网络拓扑结构作为语音识别模型的核心，在人工神经网络拓扑结构中可以包括三层，如输入层、隐含层和输出层，首先，服务器可以对人工神经网络进行初始化，此时，其中的每两个神经元直接的网络连接权重被初始化为一个很小的随机数(例如-1.0～1.0)，同时每个神经元有一个偏置，被初始化为一个随机数，根据输入的语音数据的网络输入层，通过计算得到每个神经元的输出，其中每个神经元的计算方法相同，都是由其输入的线性组合得到，最终在输出层得到实际输出，即对应的词语ID，可以通过与预期输出结果比较得到每个输出单元的误差，得到的误差需要从输出层向输入层传播，前面一层单元的误差可以通过和他连接的后面一层的所有单元的误差计算所得，同时可以对网络权重和神经元偏置进行调整，对于每个语音数据，如果最终的输出误差小于预设的可以接受的范围或者预设的迭代次数阈值，则对下一个语音数据继续进行上述处理，这样，进行不断训练，得到语音识别模型，服务器获取到直播视频数据中的语音数据后，可以将语音数据输入到上述语音识别模型中进行语音识别，得到语音识别结果，服务器可以通过识别结果得到该语音数据的文本数据。

可选地，为了使文本数据和直播视频数据中的语音数据保持同步，服务器可以对直播视频数据和对应的文本数据进行相应的设置，相应的处理方式可以多种多样，以下提供一种可选的处理方式具体可以包括以下内容：服务器将语音数据中与文本数据中每个字符相对应的音频单元的开始时间，分别设置为对应的字符的开始显示时间。

在实施中，服务器接收到第一终端发送的直播视频数据后，可以对其中的语音数据进行语音识别，得到文本数据，然后，服务器可以文本数据中的每个字符为单位，获取该文本数据中每个字符对应的一部分语音数据(可以称为音频单元)，服务器可以获取每个音频单元的开始时间，并将其开始时间分别设置为与其相对应的字符的开始显示时间。这样，可以使得第二终端在播放该音频单元的语音数据时，同时显示对应的文本数据中的相应字符，从而，可以使得语音数据和文本数据能够同步播放。

基于上述设置字符的开始显示时间的处理方式，相应的上述步骤302的处理过程可以为：服务器将直播视频数据、文本数据和文本数据中每个字符的开始显示时间，发送给目标直播间中除主播账户外的其它账户所登陆的终端。

在实施中，服务器设置完成文本数据中每个字符的开始显示时间后，可以将直播视频数据、文本数据和文本数据中每个字符的开始显示时间，同时发送给除主播账户外的其它账户所登陆的终端，这样，可以使得接收到上述数据的终端在播放该音频单元的语音数据时，同时显示对应的文本数据中的相应字符，从而，可以使得语音数据和文本数据能够同步播放。

步骤303，服务器将直播视频数据和得到的文本数据，发送给目标直播间中除主播账户外的其它账户所登陆的终端。

在实施中，服务器接收到直播视频数据可以将其缓存在内存中，以便服务器获取其中的语音数据，并对获取的语音数据进行语音识别，同时，服务器可以获取目标直播间中的除主播账户外的其它账户，然后，可以将该直播语音数据发送给除主播账户外的其它账户所登陆的终端，当服务器通过语音识别模型，将语音数据转换为文本数据后，可以将该文本数据发送给除主播账户外的其它账户所登陆的终端。

可选地，由于除主播账户外的其它账户可以不接收文本数据，则相应的上述步骤303的处理过程可以包括以下内容：服务器将直播视频数据和文本数据，发送给至少一个第二终端。

其中，第二终端可以是除主播账户外的其它账户中任一账户所登陆的终端，并且是向服务器发送用于确认接收文本数据的确认消息的终端。

步骤304，第二终端接收服务器发送的目标直播间的直播视频数据和文本数据。

可选地，用户可以预先设置是否接收文本数据，相应的上述步骤304的处理过程可以包括以下步骤：

步骤一，当接收到服务器发送的是否接收文本数据的询问消息时，第二终端显示是否接收文本数据的询问框。

在实施中，当目标直播间开播时，服务器可以向第二终端发送是否接收文本数据的询问消息，第二终端可以接收该询问消息，此时，第二终端可以显示是否接收文本数据的询问框。

步骤二，当接收到确认指令时，第二终端向服务器发送确认消息。

在实施中，如果用户需要接收文本数据，则可以点击询问框中的确认按键，此时，第二终端获取用户的账户标识，生成确认消息，发送给服务器，如果用户不需要接收文本数据，可以点击询问框中的拒绝按键，此时，第二终端获取用户的账户标识，生成拒绝消息，发送给服务器。

步骤三，第二终端接收服务器发送的目标直播间的直播视频数据和文本数据。

步骤305，第二终端播放直播视频数据，并在对应的直播视频中显示文本数据。

在实施中，如图4所示，第二终端接收到服务器发送的直播视频数据和文本数据后，可以播放直播视频数据，同时，可以在当前播放的直播视频的预设位置显示接收到的文本数据，例如，在显示直播视频的位置的下方或上方显示文本数据。

可选地，对于设置字符的开始显示时间的处理方式，上述步骤304和步骤305的处理过程可以包括以下内容：第二终端接收服务器发送的目标直播间的直播视频数据、文本数据和文本数据中每个字符的开始显示时间；第二终端播放直播视频数据，当到达文本数据中的第一字符的开始显示时间时，在对应的直播视频中显示第一字符。

其中，第一字符可以是文本数据中的任一字符。

在实施中，第二终端接收到服务器发送的目标直播间的直播视频数据、文本数据和文本数据中每个字符的开始显示时间后，可以播放直播视频数据，此时，第二终端播放直播视频数据中的语音数据，当播放时间到达文本数据中的某个字符(即第一字符)的开始显示时间时，第二终端可以将第一字符显示在直播视频的预先设置的位置处，当到达文本数据中第一字符的下一个字符的开始显示时间时，第二终端可以将该字符显示在第一字符的后面，以此完成文本数据的显示，其中，如图4所示，在直播视频中显示文本数据可以是以一行字幕的形式显示，可以预先设置一行字幕中包含的字符的个数，如10个等，当到达10个字符时，可以删除当前显示的10个字符，然后，重新在该位置显示新的字符，以此类推，直到直播完成，或者，可以是：当到达10个字符时，可以将10个字符中最先显示的字符删除，在本行的最后位置继续显示新的字符，以此类推，直到直播完成，除上述显示方式外，还可以设置其它显示方式，在此不再赘述。

实施例三

基于相同的技术构思，本发明实施例还提供了一种服务器，如图5所示，该服务器包括：

接收模块510，用于接收目标直播间的主播账户所登录的第一终端发送的目标直播间的直播视频数据；

转换模块520，用于获取直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据；

发送模块530，用于将直播视频数据和得到的文本数据，发送给目标直播间中除主播账户外的其它账户所登陆的终端。

可选地，该服务器还包括设置模块，用于：

将语音数据中与文本数据中每个字符相对应的音频单元的开始时间，分别设置为对应的字符的开始显示时间；

发送模块530，用于：

将直播视频数据、文本数据和文本数据中每个字符的开始显示时间，发送给目标直播间中除主播账户外的其它账户所登陆的终端。

可选地，该服务器还包括处理模块，用于：

接收第一终端发送的目标直播间的开播请求；

向目标直播间中除主播账户外的其它账户所登陆的终端发送是否接收文本数据的询问消息；

接收其它账户所登陆的终端中的至少一个第二终端发送的确认消息；

发送模块530，用于：

将直播视频数据和文本数据，发送给至少一个第二终端。

基于相同的技术构思，本发明实施例还提供了一种第二终端，如图6所示，该第二终端包括：

接收模块610，用于接收服务器发送的目标直播间的直播视频数据和文本数据；其中，直播视频数据为目标直播间的主播账户所登陆的第一终端发送给服务器的视频数据，文本数据为服务器对直播视频数据中包含的语音数据进行文本转换得到的数据；

显示模块620，用于播放直播视频数据，并在对应的直播视频中显示文本数据。

可选地，接收模块610，用于：

接收服务器发送的目标直播间的直播视频数据、文本数据和文本数据中每个字符的开始显示时间；

显示模块620，用于：

播放直播视频数据，当到达文本数据中的第一字符的开始显示时间时，在对应的直播视频中显示第一字符。

可选地，接收模块610，用于：

当接收到确认指令时，向服务器发送确认消息；

接收服务器发送的目标直播间的直播视频数据和文本数据。

需要说明的是：上述实施例提供的视频直播的装置在进行视频直播时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器和第二终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频直播的装置与视频直播的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

实施例四

基于相同的技术构思，本发明实施例还提供了一种视频直播的系统，该系统包括服务器、第一终端和第二终端，其中：

服务器，用于接收目标直播间的主播账户所登录的第一终端发送的目标直播间的直播视频数据；获取直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据；将直播视频数据和得到的文本数据，发送给目标直播间中除主播账户外的其它账户所登陆的终端；

第二终端，用于接收服务器发送的目标直播间的直播视频数据和文本数据；播放直播视频数据，并在对应的直播视频中显示文本数据。

实施例五

请参考图7，其示出了本发明实施例所涉及的服务器的结构示意图，该服务器可以用于实施上述实施例中提供的视频直播的方法。具体来讲：

服务器2000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)2022(例如，一个或一个以上处理器)和存储器2032，一个或一个以上存储应用程序2042或数据2044的存储介质2030(例如一个或一个以上海量存储设备)。其中，存储器2032和存储介质2030可以是短暂存储或持久存储。存储在存储介质2030的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器2022可以设置为与存储介质2030通信，在服务器2000上执行存储介质2030中的一系列指令操作。服务器2000还可以包括一个或一个以上电源2026，一个或一个以上有线或无线网络接口2050，一个或一个以上输入输出接口2058，一个或一个以上键盘2056，和/或，一个或一个以上操作系统2041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。具体在本实施例中，服务器包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对服务器中的一系列指令操作，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下操作的指令：

接收目标直播间的主播账户所登录的第一终端发送的目标直播间的直播视频数据；

获取直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据；

将直播视频数据和得到的文本数据，发送给目标直播间中除主播账户外的其它账户所登陆的终端。

可选地，获取直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据之后，该方法还包括：

将直播视频数据和得到的文本数据，发送给目标直播间中除主播账户外的其它账户所登陆的终端，包括：

可选地，接收目标直播间的主播账户所登录的第一终端发送的目标直播间的直播视频数据之前，该方法还包括：

接收第一终端发送的目标直播间的开播请求；

将直播视频数据和文本数据，发送给至少一个第二终端。

实施例六

请参考图8，其示出了本发明实施例所涉及的第二终端的结构示意图，该第二终端可以用于实施上述实施例中提供的视频直播的方法。具体来讲：

第二终端1000可以包括通信单元110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WIFI(Wireless Fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图中示出的第二终端结构并不构成对第二终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

通信单元110可用于收发信息或通话过程中，信号的接收和发送，该通信单元110可以为RF(Radio Frequency，射频)电路、路由器、调制解调器、等网络通信设备。特别地，当通信单元110为RF电路时，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，通信单元110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code DivisionMultiple Access，宽带码分多址)、LTE(Long Term Evolution，长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据第二终端1000的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。优选地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及第二终端1000的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-EmittingDiode，有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图示中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

第二终端1000还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在第二终端1000移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于第二终端1000还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与第二终端1000之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与第二终端1000的通信。

为了实现无线通信，该第二终端上可以配置有无线通信单元170，该无线通信单元170可以为WIFI模块。WIFI属于短距离无线传输技术，第二终端1000通过无线通信单元170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图中示出了无线通信单元170，但是可以理解的是，其并不属于第二终端1000的必须构成，完全可以根据需要在不改变公开的本质的范围内而省略。

处理器180是第二终端1000的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行第二终端1000的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

第二终端1000还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，第二终端1000还可以包括摄像头、蓝牙模块等，在此不再赘述。在本实施例中，第二终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行本公开实施例提供的方法的指令：

接收服务器发送的目标直播间的直播视频数据和文本数据；其中，直播视频数据为目标直播间的主播账户所登陆的第一终端发送给服务器的视频数据，文本数据为服务器对直播视频数据中包含的语音数据进行文本转换得到的数据；

播放直播视频数据，并在对应的直播视频中显示文本数据。

可选地，接收服务器发送的目标直播间的直播视频数据和文本数据，包括：

播放直播视频数据，并在对应的直播视频中显示文本数据，包括：

当接收到确认指令时，向服务器发送确认消息；

接收服务器发送的目标直播间的直播视频数据和文本数据。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频直播的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述直播视频数据中包含的语音数据，对获取的语音数据进行文本转换，得到对应的文本数据之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述接收目标直播间的主播账户所登录的第一终端发送的所述目标直播间的直播视频数据之前，所述方法还包括：

接收所述第一终端发送的所述目标直播间的开播请求；

4.一种视频直播的方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述接收服务器发送的目标直播间的直播视频数据和文本数据，包括：

6.根据权利要求4所述的方法，其特征在于，所述接收服务器发送的目标直播间的直播视频数据和文本数据，包括：

当接收到确认指令时，向所述服务器发送确认消息；

7.一种服务器，其特征在于，所述服务器包括：

8.根据权利要求7所述的服务器，其特征在于，所述服务器还包括设置模块，用于：

所述发送模块，用于：

9.根据权利要求7所述的服务器，其特征在于，所述服务器还包括处理模块，用于：

接收所述第一终端发送的所述目标直播间的开播请求；

所述发送模块，用于：

10.一种第二终端，其特征在于，所述第二终端包括：

11.根据权利要求10所述的第二终端，其特征在于，所述接收模块，用于：

所述显示模块，用于：

12.根据权利要求10所述的第二终端，其特征在于，所述接收模块，用于：

当接收到确认指令时，向所述服务器发送确认消息；

13.一种视频直播的系统，其特征在于，所述系统包括服务器、第一终端和第二终端，其中：