CN112637613A

CN112637613A - 直播音频处理方法、装置、计算机设备和存储介质

Info

Publication number: CN112637613A
Application number: CN202011276156.4A
Authority: CN
Inventors: 黄润乾
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-04-09

Abstract

本申请涉及一种直播音频处理方法、装置、计算机设备和存储介质。所述方法包括：在直播过程中，获取直播参与终端的音频流数据，以及网络参数；对所述网络参数进行检测，得到检测结果；当所述检测结果中存在满足语音识别条件的目标检测结果时，对所述音频流数据进行语音识别，生成字幕数据；根据所述目标检测结果在所述直播参与终端中确定目标终端；将所述字幕数据发送至所述目标终端，进行显示。采用本方法能够在网络环境较差的情况下，正常传输以及显示直播过程中的课堂内容，提高网络直播教学效率。

Description

直播音频处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种直播音频处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，网络直播广泛应用于购物、娱乐、教育等多个领域。而网络直播教学作为网络直播在教育领域的重要应用，使人们能够更加快捷地随时随地进行学习。传统的网络直播教学平台，是通过获取授课方的音频流，将音频流进行编码，封装后发送至受课方。

然而，传统方式在网络环境较差的情况下，会导致直播过程中的课堂内容无法被正常传输以及显示，致使网络直播教学效率较低。因此，如何在网络环境较差的情况下，正常传输以及显示直播过程中的课堂内容，提高网络直播教学效率成为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在网络环境较差的情况下，正常传输以及显示直播过程中的课堂内容，提高网络直播教学效率的直播音频处理方法、装置、计算机设备和存储介质。

一种直播音频处理方法，所述方法包括：

在直播过程中，获取直播参与终端的音频流数据，以及网络参数；

对所述网络参数进行检测，得到检测结果；

当所述检测结果中存在满足语音识别条件的目标检测结果时，对所述音频流数据进行语音识别，生成字幕数据；

根据所述目标检测结果在所述直播参与终端中确定目标终端；

将所述字幕数据发送至所述目标终端，进行显示。

在其中一个实施例中，对所述音频流数据进行语音识别之前，所述方法还包括：

提取所述音频流数据的声纹特征；

将提取的声纹特征与预先存储的声纹特征进行比对，确定比对一致的声纹特征；

将所述音频流数据中确定的声纹特征对应的语音数据进行增强。

在其中一个实施例中，所述直播参与终端包括授课终端以及至少一个受课终端，所述根据所述目标检测结果在所述直播参与终端中确定目标终端包括：

在所述直播参与终端中确定所述目标检测结果对应的检测终端；

当所述检测终端为授课终端时，将所述直播参与终端中所有的受课终端作为目标终端。

在其中一个实施例中，所述方法还包括：

当所述检测终端为受课终端时，识别所述检测终端是否处于互动状态；

若所述检测终端未处于互动状态，则将所述检测终端作为目标终端；

若所述检测终端处于互动状态，则将所述检测终端以外的其他直播参与终端作为目标终端。

在其中一个实施例中，所述方法还包括：

识别所述受课终端的音频流数据以及所述授课终端的音频流数据中是否存在互动信息；

当存在互动信息时，根据所述互动信息确定请求终端以及响应终端，以使所述请求终端与所述响应终端之间进行语音互动。

在其中一个实施例中，所述直播参与终端包括授课终端，所述方法还包括：

当所述请求终端为所述授课终端时，开启所述响应终端的语音采集设备，并生成语音互动提示信息发送至所述响应终端。

在其中一个实施例中，所述直播参与终端包括至少一个受课终端，所述方法还包括：

当所述请求终端为受课终端时，识别所述请求终端是否具备互动权限；

当所述请求终端具备互动权限时，开启所述请求终端的语音采集设备，并生成语音互动提示信息发送至所述响应终端；

当所述请求终端不具备互动权限时，拒绝开启所述请求终端的语音采集设备，并生成所述请求终端的声纹注册提示信息。

在其中一个实施例中，所述直播参与终端包括至少一个受课终端，所述字幕数据包括第一字幕数据以及第二字幕数据，所述第一字幕数据为针对所述请求终端的音频流数据进行语音识别得到的字幕数据，所述第二字幕数据为针对所述响应终端的音频流数据进行语音识别得到的字幕数据，所述方法还包括：

在语音互动过程中，当所述目标终端为所述请求终端以及所述响应终端以外的受课终端时，对所述请求终端的音频流数据，以及所述响应终端的音频流数据进行语音识别，生成所述请求终端对应的第一字幕数据以及所述响应终端对应的第二字幕数据；

将所述第一字幕数据以及所述第二字幕数据发送至所述目标终端，进行显示。

在其中一个实施例中，所述方法还包括：

在直播过程中，对所述音频流数据进行文本转换，得到对应的文本信息，将所述文本信息作为课堂记录；

在直播结束时，将所述课堂记录进行发布。

在其中一个实施例中，所述直播参与终端包括授课终端，所述在直播过程中，获取直播参与终端的音频流数据，以及网络参数之前，所述方法还包括：

接收授课终端发送的开播请求，所述开播请求携带第一用户标识；

获取所述第一用户标识对应的第一用户信息，对所述第一用户信息进行授课权限校验，以及互动权限校验；

当通过所述授课权限校验以及所述互动权限校验之后，允许所述授课终端开启直播。

在其中一个实施例中，所述直播参与终端包括至少一个受课终端，所述在直播过程中，获取直播参与终端的音频流数据，以及网络参数之前，所述方法还包括：

接收受课终端发送的直播加入请求，所述直播加入请求携带第二用户标识；

获取所述第二用户标识对应的第二用户信息，对所述第二用户信息进行互动权限校验；

当通过所述互动权限校验之后，所述受课终端具备第二语音设备的开启权限，并将所述第二用户信息发送至所述授课终端，以使所述授课终端与所述受课终端之间进行语音互动。

一种直播音频处理装置，所述装置包括：

通信模块，用于在直播过程中，获取直播参与终端的音频流数据，以及网络参数；

检测模块，用于对所述网络参数进行检测，得到检测结果；

语音识别模块，用于当所述检测结果中存在满足语音识别条件的目标检测结果时，对所述音频流数据进行语音识别，生成字幕数据；

确定模块，用于根据所述目标检测结果在所述直播参与终端中确定目标终端；

所述通信模块，还用于将所述字幕数据发送至所述目标终端，进行显示。

一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述直播音频处理方法、装置、计算机设备和存储介质，在直播过程中，获取直播参与终端的音频流数据，以及网络参数，通过对网络参数进行检测，能够在直播过程中网络环境较差，导致数据传输或显示卡顿时，将音频流数据转换为字幕数据，发送至目标终端，使得目标终端开启文字直播模式，以使目标终端在网络环境较差的情况下，正常传输以及显示直播过程中的课堂内容，以使得受课终端能够正常获取授课终端的课堂内容，保证了网络直播的流畅性和完整性，进而有效提高了网络直播教学效率。

附图说明

图1为一个实施例中直播音频处理方法的应用环境图；

图2为一个实施例中直播音频处理方法的流程示意图；

图3为一个实施例中通过声纹识别进行语音数据增强步骤的流程示意图；

图4为一个实施例中直播音频处理装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的直播音频处理方法，可以应用于如图1所示的应用环境中。其中，直播参与终端102与直播服务器104通过网络进行通信。直播参与终端可以包括授课终端以及至少一个受课终端。直播服务器可以简称为服务器。直播参与终端102登陆服务器。在直播过程中，直播服务器104获取直播参与终端102的音频流数据以及网络参数。服务器104对网络参数进行检测，得到检测结果。当检测结果中存在满足语音识别条件的目标检测结果时，对音频流数据进行语音识别，生成字幕数据。服务器104根据目标检测结果在直播参与终端中确定目标终端，将字幕数据发送至目标终端，进行显示。其中，直播参与终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种直播音频处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，在直播过程中，获取直播参与终端的音频流数据，以及网络参数。

直播参与终端是指在直播过程中，参与直播课的终端。直播参与终端可以包括授课终端以及至少一个受课终端。授课终端是指开启直播课，通过直播课进行教学的用户终端。受课终端是指进入授课终端开启的直播课，进行学习的用户终端。音频流数据为语音采集设备采集的直播参与终端的语音数据。例如，语音采集设备可以是直播参与终端的麦克风。网络参数是指与网络相关的多个参数。例如，网络速度、网络信号值、丢包率等。

当授课终端登陆服务器进入直播间开启直播课时，受课终端可以登陆服务器进入该直播间加入直播课进行学习。在直播过程中，授课终端的语音采集设备采集授课终端的音频流数据，将授课终端的音频流数据传输至服务器。同样的，受课终端的语音采集设备采集受课终端的音频流数据，将受课终端的音频流数据传输至服务器。进一步的，授课终端的语音采集设备以及受课终端的语音采集设备可以通过预设直播协议将音频流数据传输至当服务器，例如，直播传输协议可以是SIP(Session Initiation Protocol，会话启动协议)、H.323音视频协议等多种音频传输协议中的任意一种。服务器则将接收到的授课终端的音频流数据转发至多个受课终端。服务器中预先安装有网络监测软件，通过网络监测软件实时监测直播过程中授课终端和受课终端的网络参数。

在其中一个实施例中，当用户通过授课终端或者受课终端在服务器中进行用户注册时，可以获取用户的声纹特征。具体的，服务器生成声纹注册提示信息，例如，声纹注册提示信息可以包括提示用户朗读预设时长或者预设次数的文本内容。用户可根据声纹注册提示信息进行相应的文本内容朗读，以采集用户的语音数据，并提取声纹特征，将声纹特征进行存储，并将声纹特征与用户信息进行绑定。服务器可以在授课终端以及受课终端登录服务器进入直播间时，根据预先存储的声纹特征对用户进行身份验证，还可以根据声纹特征确认音频流数据中的说话人身份，从而将相应说话人的语音数据进行增强。

步骤204，对网络参数进行检测，得到检测结果。

服务器通过预先安装的网络监测软件对直播参与终端的网络参数进行检测。例如，网络参数可以包括网络速度、网络信号值，丢包率等多种网络参数。其中，检测结果可以是直播参与终端的任意一种网络参数的检测结果，也可以是多种网络参数的参数检测结果进行加权计算得到的最终检测结果。

当选择网络速度进行检测时，服务器可以通过网络监测软件将网络速度与网速阈值进行比较，得到网速检测结果。网速阈值是指能够保持直播过程中音频流数据进行流畅传输，不卡顿的最低网络速度。当服务器选择网络信号值进行检测时，可以通过网络监测软件将网络信号值与网络信号阈值进行比较，得到信号检测结果。网络信号阈值是指保持直播过程中音频流数据进行流畅传输，不卡顿的最小网络信号值。当服务器选择丢包率进行检测时，可以通过网络监测软件将丢包率与丢包率阈值进行比较，得到丢包率检测结果。丢包率是指受课终端在单位时间内丢失的数据包与发送数据包的比率。丢包率阈值是指保持直播过程中音频流数据进行流畅传输，不卡顿的最大丢包率。

当选择将多种网络参数的参数检测结果进行加权计算得到最终检测结果时，服务器可以预先针对多种网络参数对应的参数检测结果设置不同的权重，将各网络参数得出的参数检测结果与相应的权重值进行加权计算，从而得到检测结果。

步骤206，当检测结果中存在满足语音识别条件的目标检测结果时，对音频流数据进行语音识别，生成字幕数据。

语音识别条件是指当前网络环境会导致数据传输过程产生卡顿的情况。直播参数终端中任一终端的网络较差均会导致当前网络环境较差。因此，目标检测结果可以是授课终端的检测结果，也可以是受课终端的检测结果。

具体的，在检测结果中只包括一种网络参数的检测结果的情况下，当检测结果为网速检测结果时，若网络速度小于网速阈值时，则表明当前网络环境会导致数据传输过程产生卡顿。当检测结果为信号检测结果时，若网络信号值小于网络信号阈值时，则表明当前网络环境会导致数据传输过程产生卡顿。当检测结果为丢包率检测结果时，若丢包率大于丢包率阈值时，则表明当前网络环境会导致数据传输过程产生卡顿。当检测结果表明当前网络环境会导致数据传输过程产生卡顿时，则将该检测结果作为目标检测结果。

当检测结果为通过多种网络参数的参数检测结果进行加权计算得到的检测结果时，可以将检测结果与阈值进行比较，当检测结果小于阈值时，则表明当前网络环境会导致数据传输过程产生卡顿，将该检测结果作为目标检测结果；当检测结果大于或者等于阈值时，则表明当前网络环境正常，音频流数据可以正常传输以及显示。此时，服务器可以将直播参与终端中授课终端的音频流数据转发至直播参与终端中的受课终端。

服务器可以在存在目标检测结果的情况下，对音频流数据进行语音识别，实现将音频流数据实时转换为文字，得到字幕数据。具体的，服务器从音频流数据中提取声学特征，然后根据预先训练的语音识别模型将音频信息转化为字幕数据。语音识别模型可以是通过大量的不同教学科目的样本数据进行训练得到的。语音识别模型可以是基于深度学习的语音识别模型，例如，深度循环神经网络-隐马尔科夫模型、深度卷积神经网络-隐马尔科夫模型、连接时序分类-长短时记忆模型等。

在其中一个实施例中，服务器可以采用基于深度学习的语音活动检测(VoiceActivity Detection，简称VAD)方法，识别音频流数据中的多种声源，去除声源中的噪声声源。

步骤208，根据目标检测结果在直播参与终端中确定目标终端。

步骤210，将字幕数据发送至目标终端，进行显示。

目标终端是指需要开启文字直播模式，显示字幕数据的终端。当目标检测结果为授课终端的检测结果时，表明授课终端的网络参数不稳定，可以将所有的受课终端作为目标终端。当目标检测结果为受课终端的检测结果时，表明受课终端的网络参数不稳定，可以将该受课终端或者该受课终端以外的直播参与终端作为目标终端。服务器将字幕数据发送至目标终端，通过该目标终端将字幕数据在当前直播画面中进行显示。目标终端可以将字幕数据显示在当前直播画面的预设位置，例如，当前直播画面的下方。

在本实施例中，在直播过程中，获取直播参与终端的音频流数据，以及网络参数，通过对网络参数进行检测，能够在直播过程中网络环境较差，导致数据传输或显示卡顿时，将音频流数据转换为字幕数据，发送至目标终端，使得目标终端开启文字直播模式，以使目标终端在网络环境较差的情况下，正常传输以及显示直播过程中的课堂内容，以使得受课终端能够正常获取授课终端的课堂内容，保证了网络直播的流畅性和完整性，进而有效提高了网络直播教学效率。

在一个实施例中，如图3所示，上述方法还包括：通过声纹识别进行语音数据增强的步骤，该步骤具体包括：

步骤302，提取音频流数据的声纹特征。

步骤304，将提取的声纹特征与预先存储的声纹特征进行比对，确定比对一致的声纹特征。

步骤306，将音频流数据中确定的声纹特征对应的语音数据进行增强。

在对直播参与终端的音频流数据进行语音识别之前，服务器可以通过声纹识别对音频流数据进行语音数据增强。具体的，针对直播参与终端中授课终端的音频流数据，服务器可以采用声纹识别技术提取授课终端的音频流数据的声纹特征。由于用户通过授课终端在进行用户注册的过程中，已经进行了声纹特征提取，并且存储有绑定后的声纹特征以及用户信息，即进行了声纹注册，具备互动权限。因此，服务器可以获取用户信息中的声纹特征，将提取的声纹特征与该声纹特征进行比对，确定比对一致的声纹特征，从而在授课终端的音频流数据中得到确定的声纹特征对应的语音数据，即得到人声中授课终端的用户语音数据，进而将该用户语音数据进行增强，对其他人声进行抑制。

针对直播参与终端中受课终端的音频流数据，服务器可以在受课终端具备互动权限时，对受课终端的音频流数据进行声纹识别，将受课终端的用户语音数据进行增强。其中，互动权限是指语音互动权限，即与授课终端进行语音互动的功能。互动权限是服务器在受课终端进入直播间加入直播时，对受课终端进行声纹识别确定的。具体的，服务器识别受课终端的用户信息中是否存储有声纹特征，当未存储有声纹特征时，则受课终端不具备互动权限。当存储有声纹特征时，服务器还需要对受课终端进行声纹验证，当验证通过后，受课终端具备互动权限。

服务器可以采用声纹识别技术提取授课终端的音频流数据的声纹特征。服务器将提取的声纹特征与预先存储的声纹特征进行比对，确定比对一致的声纹特征，从而在受课终端的音频流数据中得到确定的声纹特征对应的语音数据，即得到人声中受课终端的用户语音数据，进而将该用户语音数据进行增强，对其他人声进行抑制。能够有效提高后续直播过程中与授课终端进行互动识别的准确性。

在本实施例中，服务器通过对直播参与终端中的授课终端以及受课终端进行语音数据增强，能够有效提高直播过程中语音识别的准确性，从而提高直播课堂内容的准确性。

在一个实施例中，直播参与终端包括授课终端以及至少一个受课终端，根据目标检测结果在直播参与终端中确定目标终端包括：在直播参与终端中确定目标检测结果对应的检测终端；当检测终端为授课终端时，将直播参与终端中所有的受课终端作为目标终端。

目标检测结果是指满足语音识别条件的检测结果，语音识别条件是指当前网络环境会导致数据传输过程产生卡顿。服务器通过确定目标检测结果对应的检测终端，可以得知网络较差的直播参与终端。当检测终端为授课终端时，即授课终端的网络较差时，音频流数据的传输会卡顿，受课终端也无法正常接收音频流数据。因此，服务器可以将语音识别得到的字幕数据发送至直播参与终端中的所有受课终端，以使受课终端开启文字直播模式，显示字幕数据。

在其中一个实施例中，上述方法还包括：当检测终端为受课终端时，识别检测终端是否处于互动状态；若检测终端未处于互动状态，则将检测终端作为目标终端；若检测终端处于互动状态，则将检测终端以外的其他直播参与终端作为目标终端。

目标终端是指需要开启文字直播模式，显示字幕数据的终端。当检测终端为受课终端时，表明该受课终端的网络较差，该受课终端无法正常接收授课终端的音频流数据，此时，服务器需要进一步识别检测终端是否处于互动状态。具体的，服务器可以获取检测终端的音频流数据以及授课终端的音频流数据，识别检测终端的音频流数据中是否存在互动信息，以及识别授课终端的音频流数据是否存在与检测终端相关的互动信息。例如，检测终端的音频流数据中存在请教、回答等互动性的词语，或者识别授课终端的音频流数据中存在向检测终端对应的用户进行提问等词语。若检测终端的音频流数据中存在互动信息，或者识别授课终端的音频流数据存在与检测终端相关的互动信息，则表明检测终端与授课终端正在进行语音互动，检测终端处于互动状态，服务器可以将检测终端以外的其他直播参与终端作为目标终端。若检测终端的音频流数据中不存在互动信息，且识别授课终端的音频流数据也不存在与检测终端相关的互动信息，则表明检测终端处于观看直播状态，即未处于互动状态，服务器可以将该检测终端作为目标终端。从而只需要将语音识别得到的字幕数据发送至该检测终端，使检测终端开启文字直播模式，其他网络较好的受课终端以及授课终端无需开启文字直播模式，由此可以有效节约计算资源，提高网络直播教学方式的灵活性。

在本实施例中，当检测终端为受课终端且识检测终端处于互动状态时，将检测终端以外的其他直播参与终端作为目标终端。当检测终端为受课终端，且检测终端未处于互动状态时，将该检测终端作为目标终端。能够在受课终端处于互动状态，且网络状态较差时，将受课终端的音频流数据转换为字幕数据发送至该受课终端以外的直播参与终端，以保证受课终端以外的直播参与终端通过文字直播方式接收直播课堂内容，并进行显示。而在受课终端未处于互动状态，但网络状态较差时，只需要将该受课终端设置为目标终端，以使受课终端通过文字直播方式接收授课终端的直播课堂内容。有效避免了网络较差导致的声音卡顿的问题，从而提高了网络直播教学效率。

在一个实施例中，上述方法还包括：识别音频流数据中是否存在互动信息；当存在互动信息时，根据互动信息确定请求终端以及响应终端，以使请求终端与响应终端之间进行语音互动。

直播参与终端包括授课终端以及受课终端。在直播过程中，由于授课终端已开启直播，因此授课终端具备互动权限。服务器实时识别受课终端的音频流数据以及授课终端的音频流数据中是否存在互动信息。具体的，服务器识别受课终端的音频流数据以及授课终端的音频流数据中是否存在预设关键字，当存在预设关键字时，则表明存在互动信息。例如，预设关键字可以是回答、请教等需要进行互动的词语。当存在互动信息时，服务器确定发出互动信息的请求终端，以及互动信息所指向的响应终端，以使请求终端与响应终端之间进行语音互动。请求终端可以是授课终端，也可以是受课终端。响应终端可以是授课终端，也可以是受课终端。当请求终端为授课终端时，响应终端可以为受课终端。当请求终端为受课终端时，响应终端则为授课终端。

在其中一个实施例中，当请求终端为授课终端时，开启响应终端的语音采集设备，并生成语音互动提示信息发送至响应终端。

具体的，当服务器识别到授权终端发出互动信息时，确定互动信息中存在的响应用户标识。在其中一个实施例中，响应用户标识为授课终端提出互动的且具备互动权限的受课终端所对应的用户标识。响应方标识可以是服务器将具备互动权限的受课终端所对应的用户标识发送至授课终端，授课终端在具备互动局限的受课终端对应的用户标识中选取得到的。服务器可以自动打开响应用户标识对应的响应终端的语音采集设备，并生成语音互动提示信息。例如，互动信息可以是“李四来回答一下这个问题”，则响应终端为李四对应的受课终端。通过打开响应终端的语音采集设备，有利于后续采集响应终端的语音数据，通过生成语音互动提示信息以提醒响应终端与授课终端进行语音互动。能够在确定请求终端以及响应终端后，及时开启响应终端的语音采集设备，提高进行语音互动效率。

在其中一个实施例中，响应用户标识还可以是不具备互动权限的受课终端所对应的用户标识。此时，服务器可以生成不具备互动权限的提示信息，将提示信息发送至授课终端，授课终端可以根据提示信息更换具备互动权限的响应用户标识，并自动打开更换后的响应用户标识对应的响应终端的语音采集设备，并生成语音互动提示信息，从而通过语音互动提示信息以提醒响应终端与授课终端进行语音互动。

进一步的，服务器还可以生成声纹注册提示信息，将声纹注册提示信息发送至响应用户标识对应的响应终端，以使该不具备互动权限的响应终端进行声纹注册，从而获取互动权限。在具备互动权限后，服务器则自动打开更换后的响应用户标识对应的响应终端的语音采集设备，并生成语音互动提示信息，从而通过语音互动提示信息以提醒响应终端与授课终端进行语音互动。进而提高了语音互动的灵活性。

在其中一个实施例中，当请求终端为受课终端时，识别请求终端是否具备互动权限；当请求终端具备互动权限时，开启请求终端的语音采集设备，并生成语音互动提示信息发送至响应终端；当请求终端不具备互动权限时，拒绝开启请求终端的语音采集设备，并生成请求终端的声纹注册提示信息。具体的，当服务器识别到受课终端发出互动信息时，若受课终端具备互动权限，服务器可以自动开启受课终端的语音采集设备，并生成语音互动提示信息发送至授课终端，提醒授课终端与受课终端进行语音互动。例如，互动信息可以是“老师我想问一个问题”，则响应终端为授课终端。当受课终端不具备互动权限，则拒绝开启受课终端的语音采集设备，并生成请求终端的声纹注册提示信息。例如，声纹注册提示信息可以包括提示用户朗读预设时长或者预设次数的文本内容。通过受课终端进行学习的用户可根据声纹注册提示信息进行相应的文本朗读，以使受课终端的语音采集设备采集该用户的语音数据，并提取声纹特征，将声纹特征进行存储，并将声纹特征与该用户的用户信息进行绑定。在进行声纹注册之后，可开启请求终端的语音采集设备，并生成语音互动提示信息发送至响应终端。只有具备互动权限的受课终端才可与授权终端进行互动，提高了直播互动的安全性。

在本实施例中，通过实时识别受课终端的音频流数据以及授课终端的音频流数据中是否存在互动信息，能够在存在互动信息时及时进行互动，提高互动效率。

在一个实施例中，直播参与终端包括至少一个受课终端，字幕数据包括第一字幕数据以及第二字幕数据，第一字幕数据为针对请求终端的音频流数据进行语音识别得到的字幕数据，第二字幕数据为针对响应终端的音频流数据进行语音识别得到的字幕数据，上述方法还包括：在语音互动过程中，当目标终端为请求终端、响应终端以外的受课终端时，对请求终端的音频流数据，以及响应终端的音频流数据进行语音识别，生成请求终端对应的第一字幕数据以及响应终端对应的第二字幕数据；将第一字幕数据以及第二字幕数据发送至目标终端，进行显示。

在语音互动过程中，当服务器检测到请求终端、响应终端以外的受课终端的网络较差时，则需要将请求终端以及响应终端的音频流数据进行语音识别，生成请求终端对应的第一字幕数据以及响应终端对应的第二字幕数据。服务器从而将第一字幕数据以及第二字幕数据发送至请求终端、响应终端以外的受课终端，请求终端、响应终端以外的受课终端将第一字幕数据以及第二字幕数据进行显示。能够在互动的请求终端以及响应终端以外的受课终端网络较差时，生成请求终端对应的第一字幕数据以及响应终端对应的第二字幕数据，并发送至该网络较差的受课终端，以使该网络较差的受课终端开启文字直播模式，正常接收直播过程中的课堂内容，进而提高网络直播效率。

在一个实施例中，上述方法还包括：在直播过程中，对音频流数据进行文本转换，得到对应的文本信息，将文本信息作为课堂记录；在直播结束时，将课堂记录进行发布。

在直播过程中，服务器获取直播参与终端的音频流数据。该音频流数据可以包括授课终端的语音采集设备采集授课终端的音频流数据以及语音互动过程中，受课终端的语音采集设备采集的受课终端的音频流数据。服务器对音频流数据进行文本转换，得到相应的文本信息。具体的，服务器从音频流数据中提取声学特征，然后根据预先训练的语音识别模型将音频信息转化为文本信息。语音识别模型可以是通过大量的不同教学科目的样本数据进行训练得到的。语音识别模型可以是基于深度学习的语音识别模型，例如，深度循环神经网络-隐马尔科夫模型、深度卷积神经网络-隐马尔科夫模型、连接时序分类-长短时记忆模型等。服务器将文本信息作为课堂记录，在直播结束后，可以将课堂记录发布至授课终端以及受课终端，以便用户复习课堂内容。

在一个实施例中，直播参与终端包括至少一个受课终端，在直播过程中，获取直播参与终端的音频流数据，以及网络参数之前，上述方法还包括：接收授课终端发送的开播请求，开播请求携带第一用户标识；获取第一用户标识对应的第一用户信息，对第一用户信息进行授课权限校验，以及互动权限校验；当通过授课权限校验以及互动权限校验之后，允许授课终端开启直播。

授课终端在登录服务器后，可以发送开播请求至服务器。服务器对开播请求进行解析，得到第一用户标识。第一用户标识可以是通过授课终端进行开播的用户的账号。服务器获取预先存储的第一用户标识对应的第一用户信息。服务器对第一用户信息进行授课权限校验以及互动权限校验。授课权限校验以及互动权限校验可以是同时进行时，也可以是按照时间先后顺序进行的，对于授课权限校验以及互动权限校验的先后顺序不作限定。

服务器识别第一用户信息中是否存在授课信息以及声纹特征，当未存储有授课信息时，则授课终端不具备授课权限。当未存储有声纹特征时，则授课终端不具备互动权限。因此，第一用户信息在未存储有授课信息或者声纹特征时，授课终端无法开启直播。当存储有授课信息以及声纹特征时，服务器还需要对授课终端进行声纹验证，当验证通过后，则表明授课终端具备授课权限以及互动权限，此时允许授课终端可以开启直播。

在本实施例中，服务器对第一用户信息进行授课权限校验，以及互动权限校验，在第一用户信息中存储有授课信息以及声纹特征时，还需要对第一用户信息进行声纹校验，由此可以有效提高直播音频数据传输的安全性。

在一个实施例中，直播参与终端包括至少一个受课终端，在直播过程中，获取直播参与终端的音频流数据，以及网络参数之前，上述方法还包括：接收受课终端发送的直播加入请求，直播加入请求携带第二用户标识；获取第二用户标识对应的第二用户信息，对第二用户信息进行互动权限校验；当通过互动权限校验之后，受课终端具备第二语音设备的开启权限，并将第二用户信息发送至授课终端，以使授课终端与受课终端之间进行语音互动。

受课终端在登录服务器后，可以发送直播加入请求至服务器。服务器对直播加入请求进行解析，得到第二用户标识。第二用户标识可以是通过受课终端加入直播的用户的账号。服务器获取预先存储的第二用户标识对应的第二用户信息。服务器对第二用户信息进行互动权限校验。互动权限校验方式可以是识别第二用户信息中是否存储有声纹特征，当未存储有声纹特征时，则受课终端不具备互动权限。当存储有声纹特征时，服务器还需要对受课终端进行声纹验证，当验证通过后，受课终端具备互动权限。受课终端可以在直播过程中开启语音采集设备，例如，开启受课终端的麦克风。服务器将授课终端的第二用户信息发送至授课终端，进行显示，以使授课终端与受课终端之间进行语音互动。

在本实施例中，服务器对第二用户信息进行互动权限校验，在第一用户信息中存储有声纹特征时，还需要对第二用户信息进行声纹校验，由此可以有效提高直播音频数据传输的安全性。

应该理解的是，虽然图2至3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种直播音频处理装置，包括：通信模块402、检测模块404、语音识别模块406和第一确定模块408，其中：

通信模块402，用于在直播过程中，获取直播参与终端的音频流数据，以及网络参数。

检测模块404，用于对网络参数进行检测，得到检测结果。

语音识别模块406，用于当检测结果中存在满足语音识别条件的目标检测结果时，对音频流数据进行语音识别，生成字幕数据。

第一确定模块408，用于根据目标检测结果在直播参与终端中确定目标终端。

通信模块402，还用于将字幕数据发送至目标终端，进行显示。

在一个实施例中，上述装置还包括：

提取模块，用于提取音频流数据的声纹特征。

比对模块，用于将提取的声纹特征与预先存储的声纹特征进行比对，确定比对一致的声纹特征。

增强模块，用于将音频流数据中确定的声纹特征对应的语音数据进行增强。

在一个实施例中，直播参与终端包括授课终端以及至少一个受课终端，第一确定模块408还用于在直播参与终端中确定目标检测结果对应的检测终端；当检测终端为授课终端时，将直播参与终端中所有的受课终端作为目标终端。

在一个实施例中，第一确定模块408还用于当检测终端为受课终端时，将检测终端作为目标终端。

在一个实施例中，上述装置还包括：

互动识别模块，用于识别音频流数据中是否存在互动信息。

第二确定模块，用于当存在互动信息时，根据互动信息确定请求终端以及响应终端，以使请求终端与响应终端之间进行语音互动。

在一个实施例中，直播参与终端包括授课终端，上述装置还包括：互动模块，用于当请求终端为授课终端时，开启响应终端的语音采集设备，并生成语音互动提示信息发送至响应终端。

在一个实施例中，直播参与终端包括至少一个受课终端，上述装置还包括：互动模块用于当请求终端为受课终端时，识别请求终端是否具备互动权限；当请求终端具备互动权限时，开启请求终端的语音采集设备，并生成语音互动提示信息发送至响应终端；当请求终端不具备互动权限时，拒绝开启请求终端的语音采集设备，并生成请求终端的声纹注册提示信息。

在一个实施例中，直播参与终端包括至少一个受课终端，字幕数据包括第一字幕数据以及第二字幕数据，第一字幕数据为针对请求终端的音频流数据进行语音识别得到的字幕数据，第二字幕数据为针对响应终端的音频流数据进行语音识别得到的字幕数据，语音识别模块406还用于在语音互动过程中，当目标终端为请求终端、响应终端以外的受课终端时，对请求终端的音频流数据，以及响应终端的音频流数据进行语音识别，生成请求终端对应的第一字幕数据以及响应终端对应的第二字幕数据；通信模块402还用于将第一字幕数据以及第二字幕数据发送至目标终端，进行显示。

在一个实施例中，上述装置还包括：文本转换模块，用于在直播过程中，对音频流数据进行文本转换，得到对应的文本信息，将文本信息作为课堂记录；在直播结束时，将课堂记录进行发布。

在一个实施例中，直播参与终端包括授课终端，上述装置还包括：

通信模块402，用于接收授课终端发送的开播请求，开播请求携带第一用户标识。

校验模块，用于获取第一用户标识对应的第一用户信息，对第一用户信息进行授课权限校验，以及互动权限校验；当通过授课权限校验以及互动权限校验之后，允许授课终端开启直播。

在一个实施例中，直播参与终端包括至少一个受课终端，上述装置还包括：

通信模块402，用于接收受课终端发送的直播加入请求，直播加入请求携带第二用户标识。

校验模块，用于获取第二用户标识对应的第二用户信息，对第二用户信息进行互动权限校验；当通过互动权限校验之后，受课终端具备第二语音设备的开启权限，并将第二用户信息发送至授课终端，以使授课终端与受课终端之间进行语音互动。

关于直播音频处理装置的具体限定可以参见上文中对于直播音频处理方法的限定，在此不再赘述。上述直播音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频流数据、检测结果、语音识别条件、字幕数据等。该计算机设备的网络接口用于与外部的直播参与终端通过网络连接通信。该计算机程序被处理器执行时以实现一种直播音频处理方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种直播音频处理方法，其特征在于，所述方法包括：

对所述网络参数进行检测，得到检测结果；

将所述字幕数据发送至所述目标终端，进行显示。

2.根据权利要求1所述的方法，其特征在于，对所述音频流数据进行语音识别之前，所述方法还包括：

提取所述音频流数据的声纹特征；

3.根据权利要求1所述的方法，其特征在于，所述直播参与终端包括授课终端以及至少一个受课终端，所述根据所述目标检测结果在所述直播参与终端中确定目标终端包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

识别所述音频流数据中是否存在互动信息；

6.根据权利要求5所述的方法，其特征在于，所述直播参与终端包括授课终端，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述直播参与终端包括至少一个受课终端，所述方法还包括：

8.根据权利要求5所述的方法，其特征在于，所述直播参与终端包括至少一个受课终端，所述字幕数据包括第一字幕数据以及第二字幕数据，所述第一字幕数据为针对所述请求终端的音频流数据进行语音识别得到的字幕数据，所述第二字幕数据为针对所述响应终端的音频流数据进行语音识别得到的字幕数据，所述方法还包括：

在语音互动过程中，当所述目标终端为所述请求终端、所述响应终端以外的受课终端时，对所述请求终端的音频流数据，以及所述响应终端的音频流数据进行语音识别，生成所述请求终端对应的第一字幕数据以及所述响应终端对应的第二字幕数据；

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在直播结束时，将所述课堂记录进行发布。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述直播参与终端包括授课终端，所述在直播过程中，获取直播参与终端的音频流数据，以及网络参数之前，所述方法还包括：

11.根据权利要求1至9任意一项所述的方法，其特征在于，所述直播参与终端包括至少一个受课终端，所述在直播过程中，获取直播参与终端的音频流数据，以及网络参数之前，所述方法还包括：

12.一种直播音频处理装置，其特征在于，所述装置包括：

检测模块，用于对所述网络参数进行检测，得到检测结果；

第一确定模块，用于根据所述目标检测结果在所述直播参与终端中确定目标终端；

13.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。