CN114938460A

CN114938460A - 直播数据处理方法、装置、设备及存储介质

Info

Publication number: CN114938460A
Application number: CN202210601962.7A
Authority: CN
Inventors: 李杨; 林柏坤; 游柏皓
Original assignee: Shenzhen Gosling Network Technology Co ltd
Current assignee: Shenzhen Gosling Network Technology Co ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-23
Anticipated expiration: 2042-05-30
Also published as: CN114938460B

Abstract

本发明涉及视频技术领域，公开了一种直播数据处理方法、装置、设备及存储介质，用于提高直播过程的互动性并实现多人同屏直播。所述直播数据处理方法包括：根据直播互动请求和网络传输协议对多个第一终端进行同屏互动，以及通过视频采集端录制多个视频数据；分别采集每个第一终端对应的原始音频数据；分别将每个原始音频数据输入语音处理模型进行回声消除处理，得到多个第一音频数据；分别对多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；根据实时混流转码模型对多个第二音频数据和多个视频数据进行混流转码处理，得到目标直播数据流；调用内容分发网络将目标直播数据流分发至多个第二终端进行直播展示。

Description

直播数据处理方法、装置、设备及存储介质

技术领域

本发明涉及视频技术领域，尤其涉及一种直播数据处理方法、装置、设备及存储介质。

背景技术

随着直播技术的高速发展，在直播系统中以往仅能支持单人上行，大规模下行的直播场景。通过rtmp协议，把设备本地采集的摄像头、屏幕分享画面，编码后以底层tpc包的形式在网络上传输。再通过cdn内容分发网络，以hls协议的形式进行大规模内容分发，将直播内容缓存到cdn边缘节点，能够尽量避免跨区域网络传输带来的资源访问缓慢问题。

现有方案仅能满足单讲师授课，没办法满足多人实时连麦互动，而且现有方案是基于tcp协议的推流，导致弱网兼容性差断线重连耗时长。

发明内容

本发明提供了一种直播数据处理方法、装置、设备及存储介质，用于提高直播过程的互动性并实现多人同屏直播。

本发明第一方面提供了一种直播数据处理方法，所述直播数据处理方法包括：接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据；基于预设的音频采集端分别对所述多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示。

可选的，在本发明第一方面的第一种实现方式中，所述接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据，包括：接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求分别创建所述多个第一终端对应的画布元素；基于所述画布元素实时捕获每个第一终端的鼠标滑动轨迹，并根据所述鼠标滑动轨迹进行本地白板互动；通过预置的网络传输协议构建所述多个第一终端之间的全双工通信，并通过所述全双工通信传递所述鼠标滑动轨迹，以对所述多个第一终端进行同屏互动；通过预置的视频采集端录制所述多个第一终端对应的视频数据，其中，所述视频数据包括屏幕动态视频和说话人视频。

可选的，在本发明第一方面的第二种实现方式中，所述分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据，包括：将每个第一终端对应的原始音频数据输入预置的语音处理模型，其中，所述语音处理模型包括高斯混合函数；通过所述高斯混合函数对所述原始音频数据进行回声估计，得到回声估计值；基于所述回声估计值对所述原始音频数据进行滤波器系数调整，并对所述原始音频数据中的所述回声估计值进行去除，得到多个第一音频数据。

可选的，在本发明第一方面的第三种实现方式中，所述直播数据处理方法还包括：从预置的音频播放数据库中获取预设的音频播放端对应的历史音频输出值，并根据所述原始音频数据计算所述音频采集端的音频输入值；对所述历史音频输出值和所述音频输入值进行比较，生成比较结果；根据所述比较结果调整所述音频播放端和所述音频采集端之间的声学回声延迟。

可选的，在本发明第一方面的第四种实现方式中，所述分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据，包括：检测所述多个第一音频数据中的固定频率杂音，并对所述多个第一音频数据中的固定频率杂音进行滤除，得到清晰音频数据；根据所述清晰音频数据对所述音频采集端进行收音量调整，得到多个第二音频数据。

可选的，在本发明第一方面的第五种实现方式中，所述根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流，包括：分别将所述多个第二音频数据和所述多个第一终端对应的视频数据输入预置的实时混流转码模型；通过所述实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行解码操作，得到多个音频解码信号和多个视频解码信号；对所述多个视频解码信号进行视频混合，得到视频排版方案，并对所述多个音频解码信号进行音频混合，得到混音数据；对所述视频排版方案和所述混音数据进行音视频混合转码，得到混合音视频；对所述混合音视频进行二次编码和封装处理，得到目标直播数据流。

可选的，在本发明第一方面的第六种实现方式中，所述调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示，包括：通过预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端；通过所述多个第二终端对所述目标直播数据流进行解封装和解码操作，并根据预置的视窗元数据对所述目标直播数据流进行直播画面渲染和音频播放。

本发明第二方面提供了一种直播数据处理装置，所述直播数据处理装置包括：接收模块，用于接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据；采集模块，用于基于预设的音频采集端分别对所述多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；处理模块，用于分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；增益模块，用于分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；转码模块，用于根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；分发模块，用于调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示。

可选的，在本发明第二方面的第一种实现方式中，所述接收模块具体用于：接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求分别创建所述多个第一终端对应的画布元素；基于所述画布元素实时捕获每个第一终端的鼠标滑动轨迹，并根据所述鼠标滑动轨迹进行本地白板互动；通过预置的网络传输协议构建所述多个第一终端之间的全双工通信，并通过所述全双工通信传递所述鼠标滑动轨迹，以对所述多个第一终端进行同屏互动；通过预置的视频采集端录制所述多个第一终端对应的视频数据，其中，所述视频数据包括屏幕动态视频和说话人视频。

可选的，在本发明第二方面的第二种实现方式中，所述处理模块具体用于：将每个第一终端对应的原始音频数据输入预置的语音处理模型，其中，所述语音处理模型包括高斯混合函数；通过所述高斯混合函数对所述原始音频数据进行回声估计，得到回声估计值；基于所述回声估计值对所述原始音频数据进行滤波器系数调整，并对所述原始音频数据中的所述回声估计值进行去除，得到多个第一音频数据。

可选的，在本发明第二方面的第三种实现方式中，所述直播数据处理装置还包括：比较模块，用于从预置的音频播放数据库中获取预设的音频播放端对应的历史音频输出值，并根据所述原始音频数据计算所述音频采集端的音频输入值；对所述历史音频输出值和所述音频输入值进行比较，生成比较结果；根据所述比较结果调整所述音频播放端和所述音频采集端之间的声学回声延迟。

可选的，在本发明第二方面的第四种实现方式中，所述增益模块具体用于：检测所述多个第一音频数据中的固定频率杂音，并对所述多个第一音频数据中的固定频率杂音进行滤除，得到清晰音频数据；根据所述清晰音频数据对所述音频采集端进行收音量调整，得到多个第二音频数据。

可选的，在本发明第二方面的第五种实现方式中，所述转码模块具体用于：分别将所述多个第二音频数据和所述多个第一终端对应的视频数据输入预置的实时混流转码模型；通过所述实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行解码操作，得到多个音频解码信号和多个视频解码信号；对所述多个视频解码信号进行视频混合，得到视频排版方案，并对所述多个音频解码信号进行音频混合，得到混音数据；对所述视频排版方案和所述混音数据进行音视频混合转码，得到混合音视频；对所述混合音视频进行二次编码和封装处理，得到目标直播数据流。

可选的，在本发明第二方面的第六种实现方式中，所述分发模块具体用于：通过预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端；通过所述多个第二终端对所述目标直播数据流进行解封装和解码操作，并根据预置的视窗元数据对所述目标直播数据流进行直播画面渲染和音频播放。

本发明第三方面提供了一种直播数据处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述直播数据处理设备执行上述的直播数据处理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的直播数据处理方法。

本发明提供的技术方案中，接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据；基于预设的音频采集端分别对所述多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示。本发明通过开发了网络传输协议实现了多个第一终端的同屏互动，通过对直播过程中的音频数据进行回声消除、噪声抑制和音频增益处理，提高了直播过程中音频的传输稳定性，以及对视频数据和音频数据进行混流转码，实现了多人同屏直播的直播数据稳定性。

附图说明

图1为本发明实施例中直播数据处理方法的一个实施例示意图；

图2为本发明实施例中直播数据处理方法的另一个实施例示意图；

图3为本发明实施例中直播数据处理装置的一个实施例示意图；

图4为本发明实施例中直播数据处理装置的另一个实施例示意图；

图5为本发明实施例中直播数据处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种直播数据处理方法、装置、设备及存储介质，用于提高直播过程的互动性并实现多人同屏直播。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中直播数据处理方法的一个实施例包括：

101、接收预置的多个第一终端发送的直播互动请求，并根据直播互动请求和预置的网络传输协议对多个第一终端进行同屏互动，以及通过预置的视频采集端录制多个第一终端对应的视频数据；

可以理解的是，本发明的执行主体可以为直播数据处理装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

需要说明的是，该直播互动请求可以是通过讲师终端进行网络直播，用户通过观众终端在讲师终端对应的直播间观看直播，直播服务器根据接收到互动发起终端发送的直播互动请求，向参与直播互动的终端帐号发送互动通知。当互动发起终端是讲师终端时，直播服务器获取讲师终端的讲师帐号与参与互动的观众终端的目标观众帐号，并向参与互动的观众终端发送互动通知，进一步的，服务器根据直播互动请求和预置的网络传输协议对多个第一终端进行同屏互动，以及通过预置的视频采集端录制多个第一终端对应的视频数据。

102、基于预设的音频采集端分别对多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；

本发明实施例中，该多个第一终端为可以为直播互动发起时的多个讲师终端，服务器对该多个讲师终端进行音频数据采集，需要说明的是，上述音频采集端是服务器对该多个讲师终端进行音频采集调用接口分析后，根据该音频采集调用接口确定的，具体的，服务器基于上述音频采集端分别对多个第一终端进行音频数据采集，进而得到每个第一终端对应的原始音频数据。

103、分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；

可选的，上述原始音频数据具体可以包括但不限于由麦克风接收到的所有声音，例如，人说话的声音以及扬声器播放声音的回声，在本实施例中，上述语音处理模型可以包括但不限于RNN循环神经网络模型、RESNET残差神经网络模型等，具体的，服务器分别将原始音频数据输入语音处理模型，得到目标回声估计信号，对目标回声估计信号执行目标处理，得到多个第一音频数据，以消除原始音频数据中包含的线性回声信号以及非线性回声信号，能够解决相关技术中存在的难以有效消除语音信号的回声的问题，达到有效消除语音信号的线性回声信号以及非线性回声信号，并且能够保持语音信号的完整性，不破坏原始声源信号的技术效果。

104、分别对多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；

需要说明的是，上述多个第一音频数据至少两个音频通道的输入，例如，来自放置在声场中的两个音频麦克风的输入，所述输入包括期望的声源信号，例如，来自个人通信装置的用户嘴部的语音，以及不期望的背景噪声，例如平稳或非平稳背景噪声，本发明实施例中，服务器利用声场信息以便在用户语音和背景噪声之间进行区分，并且，利用诸如方向性、接近性和相关性的空间特征来抑制不是从用户嘴部发出的声音，由于麦克风离期望的声源具有不同的距离，以提供具有不同信噪比的信号，使得可能进一步处理，以有效地去除信号的背景噪声部分，具体的，服务器分别对多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据。

105、根据预置的实时混流转码模型对多个第二音频数据和多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；

需要说明的是，通过服务集群内的一台充当服务器的计算机设备内的混流转码模型，负责对处于连线通信各方的讲师终端上传的视频流或者对同一讲师终端指定的多路视频流进行混流转码处理，以获得相应的目标视频流。其中，用于混流的视频流被称为多个第一终端对应的视频数据流，其中，视频流在内容上既可以为单独的视频流，也可以是音视频流，同一个讲师终端提供的视频流，可以是一路也可以是多路，最终所有需要混流的各路视频流均被提交给接入服务调度至相应的混流转码模型中处理，得到目标直播视频流。

106、调用预置的内容分发网络将目标直播数据流分发至预置的多个第二终端，并通过多个第二终端对直播数据流进行直播展示。

需要说明的是，上述内容分发网络是一种新型网络内容服务体系，其基于IP网络而构建，基于内容访问与应用的效率要求、质量要求和内容秩序而提供内容的分发和服务，而从广义的角度，CDN代表了一种基于网络而构建的高质量、高效率、具有鲜明网络秩序的网络应用服务模式，当服务器获得目标直播数据流后，通过上述预置的内容分发网络将目标直播数据流分发至预置的多个第二终端，其中，该多个第二终端指的是多个用户终端，进而对该直播数据流进行直播展示。

本发明实施例中，接收预置的多个第一终端发送的直播互动请求，并根据直播互动请求和预置的网络传输协议对多个第一终端进行同屏互动，以及通过预置的视频采集端录制多个第一终端对应的视频数据；基于预设的音频采集端分别对多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；分别对多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；根据预置的实时混流转码模型对多个第二音频数据和多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；调用预置的内容分发网络将目标直播数据流分发至预置的多个第二终端，并通过多个第二终端对直播数据流进行直播展示。本发明通过开发了网络传输协议实现了多个第一终端的同屏互动，通过对直播过程中的音频数据进行回声消除、噪声抑制和音频增益处理，提高了直播过程中音频的传输稳定性，以及对视频数据和音频数据进行混流转码，实现了多人同屏直播的直播数据稳定性。

请参阅图2，本发明实施例中直播数据处理方法的另一个实施例包括：

201、接收预置的多个第一终端发送的直播互动请求，并根据直播互动请求和预置的网络传输协议对多个第一终端进行同屏互动，以及通过预置的视频采集端录制多个第一终端对应的视频数据；

具体的，服务器接收预置的多个第一终端发送的直播互动请求，并根据直播互动请求分别创建多个第一终端对应的画布元素；基于画布元素实时捕获每个第一终端的鼠标滑动轨迹，并根据鼠标滑动轨迹进行本地白板互动；通过预置的网络传输协议构建多个第一终端之间的全双工通信，并通过全双工通信传递鼠标滑动轨迹，以对多个第一终端进行同屏互动；通过预置的视频采集端录制多个第一终端对应的视频数据，其中，视频数据包括屏幕动态视频和说话人视频。

其中，根据直播互动请求分别创建多个第一终端对应的画布元素包括服务器预先从画布数据库中获取待处理画布，所述待处理画布中包含若干画布元素，进而服务器响应于用户在所述待处理画布上划出的线条轨迹，在所述若干画布元素中，确定所述线条轨迹依次经过的至少一个目标画布元素，并根据鼠标滑动轨迹进行本地白板互动，然后服务器通过通过预置的网络传输协议构建多个第一终端之间的全双工通信，需要说明的是，全双工通信指的是全双工通信允许数据同时在两个方向上传输，即有两个信道，因此允许同时进行双向传输，全双工通信是两个单工通信方式的结合，要求收发双方都有独立的接收和发送能力，进而服务器过全双工通信传递鼠标滑动轨迹，以对多个第一终端进行同屏互动；通过预置的视频采集端录制多个第一终端对应的视频数据，其中，视频数据包括屏幕动态视频和说话人视频。

202、基于预设的音频采集端分别对多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；

具体的，在本实施例中，步骤201的具体实施方式与上述步骤102类似，此处不再赘述。

可选的，在步骤202之后，还可以包括：服务器从预置的音频播放数据库中获取预设的音频播放端对应的历史音频输出值，并根据所述原始音频数据计算所述音频采集端的音频输入值；服务器对所述历史音频输出值和所述音频输入值进行比较，生成比较结果；服务器根据所述比较结果调整所述音频播放端和所述音频采集端之间的声学回声延迟。

需要说明的是，服务器通过搭载的算法软件，估计出音频播放数据中的目标音频帧的回声延迟后，可以获取算法软件输出的该目标音频帧的回声延迟，具体的，服务器在获取到历史音频输出值的回声延迟之后，可以进一步针对该历史音频输出值之前的M个音频帧的回声延迟进行统计分析，得到音频播放端和所述音频采集端之间的回声延迟，进一步的，在针对音频播放数据的上一音频帧进行回声延迟估计时，具体也可以获取该音频播放数据的上一音频帧和该上一音频帧之前的M个音频帧的回声延迟，并针对该上一音频帧和该上一音频帧之前的M个音频帧的回声延迟进行统计分析，得到一个与上述目标音频帧的上一音频帧对应的待输出的回声延迟，具体的，服务器根据所述原始音频数据计算所述音频采集端的音频输入值；服务器对所述历史音频输出值和所述音频输入值进行比较，生成比较结果；服务器根据所述比较结果调整所述音频播放端和所述音频采集端之间的声学回声延迟。

203、将每个第一终端对应的原始音频数据输入预置的语音处理模型，其中，语音处理模型包括高斯混合函数；

204、通过高斯混合函数对原始音频数据进行回声估计，得到回声估计值；

205、基于回声估计值对原始音频数据进行滤波器系数调整，并对原始音频数据中的回声估计值进行去除，得到多个第一音频数据；

具体的，服务器将每个第一终端对应的原始音频数据输入预置的语音处理模型，进而通过高斯混合函数对原始音频数据中每个回声特征与回声时间估计值之间的预设映射关系，分别确定原始音频数据的每个回声特征对应的回声时间估计值，需要说明的是，原始音频数据的每个回声特征与回声时间估计值之间的预设映射关系，可以为基于历史语音信号相应的回声特征和该回声特征对应的回声时间得到的映射关系。每个回声特征和该回声特征对应的回声时间之间有一个预设映射关系，进而服务器基于回声估计值对原始音频数据进行滤波器系数调整，并对原始音频数据中的回声估计值进行去除，得到多个第一音频数据。

206、分别对多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；

具体的，服务器检测多个第一音频数据中的固定频率杂音，并对多个第一音频数据中的固定频率杂音进行滤除，得到清晰音频数据；根据清晰音频数据对音频采集端进行收音量调整，得到多个第二音频数据。

其中，服务器通过获取对照频率图数组以及第一音频数据的频率图，将第一音频数据的频率图与对照频率图数组进行对比，确定出第一音频数据的频率图中有杂音的目标音频频率图，根据对照频率图数组对目标音频频率图进行替换，以得到消除杂音的音频，具体的，服务器对多个第一音频数据中的固定频率杂音进行滤除，得到清晰音频数据；根据清晰音频数据对音频采集端进行收音量调整，得到多个第二音频数据。

207、根据预置的实时混流转码模型对多个第二音频数据和多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；

具体的，服务器分别将多个第二音频数据和多个第一终端对应的视频数据输入预置的实时混流转码模型；通过实时混流转码模型对多个第二音频数据和多个第一终端对应的视频数据进行解码操作，得到多个音频解码信号和多个视频解码信号；对多个视频解码信号进行视频混合，得到视频排版方案，并对多个音频解码信号进行音频混合，得到混音数据；对视频排版方案和混音数据进行音视频混合转码，得到混合音视频；对混合音视频进行二次编码和封装处理，得到目标直播数据流。

其中，根据视频编解码原理，当多个第一终端对应的视频数据流进入当前的混流转码服务后，便可由当前混流转码服务的解码逻辑算法进行解码，根据该多个第一终端对应的视频数据流相对应的编码协议，解码出各路多个第一终端对应的视频数据流相对应的图像数据。在此基础上，混流转码服务将各路多个第一终端对应的视频数据流相对应的图像数据基于同一时间坐标系进行图像混流，将多路多个第一终端对应的视频数据流合路为一路中间视频流。具体而言，为了实现不同路多个第一终端对应的视频数据流的数据帧在时间上的同步，混流转码服务会将所有各路多个第一终端对应的视频数据流的时间戳都映射到同一时间坐标系以形成统一时间戳，以便基于统一时间戳对各路多个第一终端对应的视频数据流进行混流，参照统一时间戳来标记其混流而成的目标视频流中的数据帧的输出时间戳。当得到多个音频解码信号和多个视频解码信号后，服务器对多个视频解码信号进行视频混合，得到视频排版方案，并对多个音频解码信号进行音频混合，得到混音数据，对视频排版方案和混音数据进行音视频混合转码，得到混合音视频，对混合音视频进行二次编码和封装处理，得到目标直播数据流。

208、调用预置的内容分发网络将目标直播数据流分发至预置的多个第二终端，并通过多个第二终端对直播数据流进行直播展示。

具体的，服务器通过预置的内容分发网络将目标直播数据流分发至预置的多个第二终端；通过多个第二终端对目标直播数据流进行解封装和解码操作，并根据预置的视窗元数据对目标直播数据流进行直播画面渲染和音频播放。

需要说明的是，上述多个第二终端有预设的目标视频区域，该目标视频区域可以为透明区域，用于嵌入预设的目标视频的画面，该目标视频的画面为直播画面，可以包括视频画面、摄像头画面等，也即，目标视频区域可以为直播模板上的视频画面区域、摄像头画面区域等，进一步的，分服务器根据直播模板信息确定预设的目标视频区域，可以根据目标视频区域的坐标信息来确定预设的目标视频区域，进而在目标画布上确定与目标视频区域对应的第一区域，可以将目标画布上与目标视频区域重合的区域确定为第一区域，也即，目标视频区域用于控制目标画布上的第一区域，该第一区域为待渲染的区域，比如，目标视频区域为透明区域，直播模板上的透明区域的信息用于控制渲染区域的坐标，进而服务器通过多个第二终端对目标直播数据流进行解封装和解码操作，并根据预置的视窗元数据对目标直播数据流进行直播画面渲染和音频播放。

上面对本发明实施例中直播数据处理方法进行了描述，下面对本发明实施例中直播数据处理装置进行描述，请参阅图3，本发明实施例中直播数据处理装置一个实施例包括：

接收模块301，用于接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据；

采集模块302，用于基于预设的音频采集端分别对所述多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；

处理模块303，用于分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；

增益模块304，用于分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；

转码模块305，用于根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；

分发模块306，用于调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示。

本发明实施例中，接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据；基于预设的音频采集端分别对所述多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示。本发明通过开发了网络传输协议实现了多个第一终端的同屏互动，通过对直播过程中的音频数据进行回声消除、噪声抑制和音频增益处理，提高了直播过程中音频的传输稳定性，以及对视频数据和音频数据进行混流转码，实现了多人同屏直播的直播数据稳定性。

请参阅图4，本发明实施例中直播数据处理装置另一个实施例包括：

可选的，所述接收模块301具体用于：接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求分别创建所述多个第一终端对应的画布元素；基于所述画布元素实时捕获每个第一终端的鼠标滑动轨迹，并根据所述鼠标滑动轨迹进行本地白板互动；通过预置的网络传输协议构建所述多个第一终端之间的全双工通信，并通过所述全双工通信传递所述鼠标滑动轨迹，以对所述多个第一终端进行同屏互动；通过预置的视频采集端录制所述多个第一终端对应的视频数据，其中，所述视频数据包括屏幕动态视频和说话人视频。

可选的，所述处理模块303具体用于：将每个第一终端对应的原始音频数据输入预置的语音处理模型，其中，所述语音处理模型包括高斯混合函数；通过所述高斯混合函数对所述原始音频数据进行回声估计，得到回声估计值；基于所述回声估计值对所述原始音频数据进行滤波器系数调整，并对所述原始音频数据中的所述回声估计值进行去除，得到多个第一音频数据。

可选的，所述直播数据处理装置还包括：比较模块307，用于从预置的音频播放数据库中获取预设的音频播放端对应的历史音频输出值，并根据所述原始音频数据计算所述音频采集端的音频输入值；对所述历史音频输出值和所述音频输入值进行比较，生成比较结果；根据所述比较结果调整所述音频播放端和所述音频采集端之间的声学回声延迟。

可选的，所述增益模块304具体用于：检测所述多个第一音频数据中的固定频率杂音，并对所述多个第一音频数据中的固定频率杂音进行滤除，得到清晰音频数据；根据所述清晰音频数据对所述音频采集端进行收音量调整，得到多个第二音频数据。

可选的，所述转码模块305具体用于：分别将所述多个第二音频数据和所述多个第一终端对应的视频数据输入预置的实时混流转码模型；通过所述实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行解码操作，得到多个音频解码信号和多个视频解码信号；对所述多个视频解码信号进行视频混合，得到视频排版方案，并对所述多个音频解码信号进行音频混合，得到混音数据；对所述视频排版方案和所述混音数据进行音视频混合转码，得到混合音视频；对所述混合音视频进行二次编码和封装处理，得到目标直播数据流。

可选的，所述分发模块306具体用于：通过预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端；通过所述多个第二终端对所述目标直播数据流进行解封装和解码操作，并根据预置的视窗元数据对所述目标直播数据流进行直播画面渲染和音频播放。

上面图3和图4从模块化功能实体的角度对本发明实施例中的直播数据处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中直播数据处理设备进行详细描述。

图5是本发明实施例提供的一种直播数据处理设备的结构示意图，该直播数据处理设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对直播数据处理设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在直播数据处理设备500上执行存储介质530中的一系列指令操作。

直播数据处理设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的直播数据处理设备结构并不构成对直播数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种直播数据处理设备，所述直播数据处理设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述直播数据处理方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述直播数据处理方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种直播数据处理方法，其特征在于，所述直播数据处理方法包括：

接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据；

基于预设的音频采集端分别对所述多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；

分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；

分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；

根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；

调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示。

2.根据权利要求1所述的直播数据处理方法，其特征在于，所述接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据，包括：

接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求分别创建所述多个第一终端对应的画布元素；

基于所述画布元素实时捕获每个第一终端的鼠标滑动轨迹，并根据所述鼠标滑动轨迹进行本地白板互动；

通过预置的网络传输协议构建所述多个第一终端之间的全双工通信，并通过所述全双工通信传递所述鼠标滑动轨迹，以对所述多个第一终端进行同屏互动；

通过预置的视频采集端录制所述多个第一终端对应的视频数据，其中，所述视频数据包括屏幕动态视频和说话人视频。

3.根据权利要求1所述的直播数据处理方法，其特征在于，所述分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据，包括：

将每个第一终端对应的原始音频数据输入预置的语音处理模型，其中，所述语音处理模型包括高斯混合函数；

通过所述高斯混合函数对所述原始音频数据进行回声估计，得到回声估计值；

基于所述回声估计值对所述原始音频数据进行滤波器系数调整，并对所述原始音频数据中的所述回声估计值进行去除，得到多个第一音频数据。

4.根据权利要求1-3中任一项所述的直播数据处理方法，其特征在于，所述直播数据处理方法还包括：

从预置的音频播放数据库中获取预设的音频播放端对应的历史音频输出值，并根据所述原始音频数据计算所述音频采集端的音频输入值；

对所述历史音频输出值和所述音频输入值进行比较，生成比较结果；

根据所述比较结果调整所述音频播放端和所述音频采集端之间的声学回声延迟。

5.根据权利要求1所述的直播数据处理方法，其特征在于，所述分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据，包括：

检测所述多个第一音频数据中的固定频率杂音，并对所述多个第一音频数据中的固定频率杂音进行滤除，得到清晰音频数据；

根据所述清晰音频数据对所述音频采集端进行收音量调整，得到多个第二音频数据。

6.根据权利要求1所述的直播数据处理方法，其特征在于，所述根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流，包括：

分别将所述多个第二音频数据和所述多个第一终端对应的视频数据输入预置的实时混流转码模型；

通过所述实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行解码操作，得到多个音频解码信号和多个视频解码信号；

对所述多个视频解码信号进行视频混合，得到视频排版方案，并对所述多个音频解码信号进行音频混合，得到混音数据；

对所述视频排版方案和所述混音数据进行音视频混合转码，得到混合音视频；

对所述混合音视频进行二次编码和封装处理，得到目标直播数据流。

7.根据权利要求1所述的直播数据处理方法，其特征在于，所述调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示，包括：

通过预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端；

通过所述多个第二终端对所述目标直播数据流进行解封装和解码操作，并根据预置的视窗元数据对所述目标直播数据流进行直播画面渲染和音频播放。

8.一种直播数据处理装置，其特征在于，所述直播数据处理装置包括：

接收模块，用于接收预置的多个第一终端发送的直播互动请求，并根据所述直播互动请求和预置的网络传输协议对所述多个第一终端进行同屏互动，以及通过预置的视频采集端录制所述多个第一终端对应的视频数据；

采集模块，用于基于预设的音频采集端分别对所述多个第一终端进行音频数据采集，得到每个第一终端对应的原始音频数据；

处理模块，用于分别将每个第一终端对应的原始音频数据输入预置的语音处理模型进行回声消除处理，得到多个第一音频数据；

增益模块，用于分别对所述多个第一音频数据进行噪声抑制和音频增益，得到多个第二音频数据；

转码模块，用于根据预置的实时混流转码模型对所述多个第二音频数据和所述多个第一终端对应的视频数据进行混流转码处理，得到目标直播数据流；

分发模块，用于调用预置的内容分发网络将所述目标直播数据流分发至预置的多个第二终端，并通过所述多个第二终端对所述直播数据流进行直播展示。

9.一种直播数据处理设备，其特征在于，所述直播数据处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述直播数据处理设备执行如权利要求1-7中任一项所述的直播数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的直播数据处理方法。