CN114760492A

CN114760492A - 直播特效生成方法、装置、系统与计算机可读存储介质

Info

Publication number: CN114760492A
Application number: CN202210433641.0A
Authority: CN
Inventors: 吴怡; 潘兴浩; 谢于贵; 马晓; 于梦
Original assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-15
Anticipated expiration: 2042-04-22
Also published as: CN114760492B

Abstract

本发明公开了一种直播特效生成方法、装置、系统与计算机可读存储介质，该方法包括：在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点；根据所述直播特效点，生成并播放具有特效的直播数据流。本发明通过提取直播数据流的特征信息，并根据特征信息，确定直播特效点，再在直播数据流的直播特效点中加入特效，进而生成并播放具有特效的直播数据流，使得在直播中能实时加入特效，提高用户的观看体验。

Description

直播特效生成方法、装置、系统与计算机可读存储介质

技术领域

本发明涉及通讯技术领域，尤其涉及直播特效生成方法、装置、系统与计算机可读存储介质。

背景技术

在日常的场景实时拍摄、视频直播、点播等过程中，为了丰富播放的内容，需要在实时直播的音视频中实时加入对应的特效，而现有在音视频中加特效的方法是根据拍摄完成后的音视频的具体内容，对音视频进行后期处理加入特效，这并不能满足在直播场景下的特效实时生成需求，导致用户的观看直播时的观看体验较差。

因此，如何在实时直播的音视频中实时加入对应的特效，提高用户的观看体验是急需解决的问题。

发明内容

本发明的主要目的在于提出一种直播特效生成方法、装置、系统与计算机可读存储介质，旨在解决如何在实时直播的音视频中实时加入对应的特效，提高用户的观看体验的问题。

为实现上述目的，本发明提供一种直播特效生成方法，所述直播特效生成方法包括如下步骤：

在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点；

根据所述直播特效点，生成并播放具有特效的直播数据流。

优选地，在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点的步骤包括：

在直播过程中接收到所述直播数据流中的直播视频信号时，提取所述直播视频信号中的关键帧，获取所述直播的直播信息，并根据所述关键帧和所述直播信息，确定所述直播视频信号的特效帧；

获取所述特效帧对应的直播机位信息，并根据获取的直播机位信息与场地框架的对应关系，确定所述特效帧对应的场地框架；

根据所述特效帧和所述特效帧对应的场地框架，确定所述直播视频信号对应的直播视频特效点，其中，所述直播特效点包括所述直播视频特效点。

优选地，在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点的步骤还包括：

在直播过程中接收到所述直播数据流中的直播音频信号时，提取所述直播音频信号的直播音频特征集合；

将所述直播音频信号转换为字幕文本，提取所述字幕文本中的关键词，并根据所述直播音频特征集合和所述关键词在所述直播音频信号中的位置，确定直播音频特效点，其中，所述直播特效点包括所述直播音频特效点。

优选地，直播特效点包括所述直播视频特效点，且所述直播特效点包括所述直播音频特效点，所述根据所述直播特效点，生成并播放具有特效的直播数据流的步骤包括：

根据所述直播视频特效点生成具有特效的直播视频信号，并根据所述直播音频特效点生成具有特效的直播音频信号；

获取所述具有特效的直播音频信号对应的推送速度，并根据所述推送速度，将所述具有特效的直播视频信号与所述具有特效的直播音频信号进行同步，生成并播放具有特效的直播数据流。

优选地，在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点的步骤之前，所述直播特效生成方法包括：

获取每个直播机位信息对应的直播场地信息，并根据每个直播机位信息对应的直播场地信息，生成每个直播机位信息对应的场地框架，以得到场地框架集合。

优选地，根据所述直播视频特效点生成具有特效的直播视频信号，并根据所述直播音频特效点生成具有特效的直播音频信号的步骤包括：

根据所述直播视频特效点对应的特效帧，确定第一特效信息，并根据所述直播音频特效点对应的关键词，确定第二特效信息；

将所述第一特效信息和所述第二特效信息进行对比，若所述第一特效信息和所述第二特效信息相同，则根据所述第一特效信息生成具有特效的直播视频信号，同时根据所述第二特效信息生成具有特效的直播音频信号；

若所述第一特效信息和所述第二特效信息不相同，则根据所述第一特效信息生成具有特效的直播视频信号，并根据所述具有特效的直播视频信号和所述第二特效信息，生成具有特效的直播音频信号。

优选地，所述直播特效点包括直播视频特效点，所述根据所述直播特效点，生成并播放具有特效的直播数据流的步骤还包括：

获取所述直播视频特效点对应的特效帧，并根据所述直播视频特效点对应的特效帧，确定第一特效信息；

根据所述直播视频特效点和所述第一特效信息，生成并播放具有特效的直播数据流；

或者，所述直播特效点包括直播音频特效点，所述根据所述直播特效点，生成并播放具有特效的直播数据流的步骤包括：

获取所述直播音频特效点对应的关键词，并根据所述直播音频特效点对应的关键词，确定第二特效信息；

根据所述直播音频特效点和所述第二特效信息，生成并播放具有特效的直播数据流。

此外，为实现上述目的，本发明还提供一种直播特效生成装置，所述直播特效生成装置包括：

确定模块，用于在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点；

生成模块，用于根据所述直播特效点，生成并播放具有特效的直播数据流。

进一步地，所述确定模块还用于：

进一步地，所述生成模块还用于：

进一步地，所述确定模块还用于：

进一步地，所述生成模块还用于：

或者，获取所述直播音频特效点对应的关键词，并根据所述直播音频特效点对应的关键词，确定第二特效信息；

此外，为实现上述目的，本发明还提供一种直播特效生成系统，所述直播特效生成系统包括：存储器、处理器及储存在所述存储器上并可在所述处理器上运行的直播特效生成程序，所述直播特效生成程序被所述处理器执行时实现如上所述的直播特效生成方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上储存有直播特效生成程序，所述直播特效生成程序被处理器执行时实现如上所述的直播特效生成方法的步骤。

本发明提出的直播特效生成方法，在直播过程中接收到直播数据流时，提取直播数据流的特征信息，并根据特征信息，确定直播特效点；根据直播特效点，生成并播放具有特效的直播数据流。本发明通过提取直播数据流的特征信息，并根据特征信息，确定直播特效点，再在直播数据流的直播特效点中加入特效，进而生成并播放具有特效的直播数据流，使得在直播中能实时加入特效，提高用户的观看体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明直播特效生成方法第一实施例的流程示意图；

图3为本发明确定直播视频特征点的流程示意图；

图4为本发明生成具有特效的音视频流的流程示意图；

图5为本发明边界腐蚀确定场地框架的示意图；

图6为本发明连通域示意图；

图7为本发明边界像素对应关系示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例设备可以是PC机或服务器设备。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的储存装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机储存介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及直播特效生成程序。

其中，操作系统是管理和控制便携储存设备与软件资源的程序，支持网络通信模块、用户接口模块、直播特效生成程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1002；用户接口模块用于管理和控制用户接口1003。

在图1所示的储存设备中，所述储存设备通过处理器1001调用存储器1005中储存的直播特效生成程序，并执行下述直播特效生成方法各个实施例中的操作。

基于上述硬件结构，提出本发明直播特效生成方法实施例。

参照图2，图2为本发明直播特效生成方法第一实施例的流程示意图，所述方法包括：

步骤S10，在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点；

步骤S20，根据所述直播特效点，生成并播放具有特效的直播数据流。

本实施例直播特效生成方法运用于通信服务机构的直播系统中，该直播系统将直播过程中录制的直播数据流(直播音频信号和/或直播视频信号)实时加入对应的特效，生成并播放具有特效的直播数据流；为了方便描述，以直播系统为例进行说明；直播系统在直播过程中接收到直播数据流中的直播视频信号时，提取直播视频信号中的关键帧，获取直播的直播信息，并根据关键帧和直播信息，确定直播视频信号的特效帧；直播系统获取特效帧对应的直播机位信息，并根据获取的直播机位信息与场地框架的对应关系，确定特效帧对应的场地框架；直播系统根据特效帧和特效帧对应的场地框架，确定直播视频信号对应的直播视频特效点，其中，直播特效点包括直播视频特效点；直播系统在直播过程中接收到直播数据流中的直播音频信号时，提取直播音频信号的直播音频特征集合；直播系统将直播音频信号转换为字幕文本，提取所述字幕文本中的关键词，并根据直播音频特征集合和关键词在直播音频信号中的位置，确定直播音频特效点，其中，直播特效点包括直播音频特效点；直播系统根据直播视频特效点生成具有特效的直播视频信号，并根据直播音频特效点生成具有特效的直播音频信号；直播系统获取具有特效的直播音频信号对应的推送速度，并根据推送速度，将具有特效的直播视频信号和具有特效的直播音频信号进行同步，生成并播放具有特效的直播数据流。

本实施例的直播特效生成方法，在直播过程中接收到直播数据流时，提取直播数据流的特征信息，并根据特征信息，确定直播特效点；根据直播特效点，生成并播放具有特效的直播数据流。本发明通过提取直播数据流的特征信息，并根据特征信息，确定直播特效点，再在直播数据流的直播特效点中加入特效，进而生成并播放具有特效的直播数据流，使得在直播中能实时加入特效，提高用户的观看体验。

在直播过程中，获取直播场地信息，并根据直播场地信息，确定场地框架；接收直播音频信号和/或直播视频信号，并对直播音频信号进行第一特效点处理，确定直播音频特效点，和/或结合场地框架对直播视频信号进行第二特效点识别处理，确定直播视频特效点；根据直播音频特效点和/或直播视频特效点，生成并播放具有特效的音视频流。本发明提取直播场地信息的场地框架，确定直播音频特效点，并结合场地框架确定直播视频特效点，再根据直播音频特效点和直播视频特效点，生成并播放具有特效的音视频流，使得在直播中能实时加入特效，提高用户的观看体验。

以下将对各个步骤进行详细说明：

在本实施例中，在直播过程中接收到直播数据流时，提取直播数据流的特征信息，并根据特征信息，确定直播特效点，其中直播数据流包括直播音频信号和/或直播视频信号，即直播系统可能同时接收到直播音频信号和直播视频信号，也可能只接收到直播音频信号，还可能只接收到直播视频信号；在直播系统同时接收到直播视频信号和直播音频信号时，提取直播视频信号的特征信息，并根据直播视频信号的特征信息确定直播视频特效点，提取直播音频信号的特征信息，并根据直播音频信号的特征信息确定直播音频特效点；在直播系统只接收到直播音频信号时，只需要确定直播音频特效点，在直播系统只接收到视播直播音频信号时，只需要确定直播视频特效点。

具体地，步骤S10包括：

步骤a，在直播过程中接收到所述直播数据流中的直播视频信号时，提取所述直播视频信号中的关键帧，获取所述直播的直播信息，并根据所述关键帧和所述直播信息，确定所述直播视频信号的特效帧；

在该步骤中，直播系统在直播过程中接收到直播数据流中的直播视频信号时，对直播视频信号中的活动目标和场地特征进行识别，以提取直播视频信号的关键帧，并获取直播的直播信息，并根据关键帧和直播信息，确定直播视频信号的特效帧，如：直播视频信号是由若干帧图像组成的，一个GOP(一个连续的画面组)中关键帧的信息最完整，因此直播系统在直播视频信号中选取一个GOP进行分析可准确定位关键帧，进而提高对直播视频信号的处理速度，如图3所示，直播系统通过直播信息对直播视频信号进行粗筛选(如，开场类表演需加整体特效的比例较大)，用关键帧进行细筛选(如，比赛类节目关注的是细节信息，往往对某个动作加慢放或声音特效等)，确定直播视频信号的特效帧。需要说明的是，关键帧可以明确直播视频信号中的哪些场景或场景切换时刻是最可能需要加入特效的；直播信息包括但不限于节目类型、节目清单、后期需求、节目内容、字幕语义等。

步骤b，获取所述特效帧对应的直播机位信息，并根据获取的直播机位信息与场地框架的对应关系，确定所述特效帧对应的场地框架；

在该步骤中，直播系统在确定直播视频信号对应的特效帧后，获取直播视频信号对应的信息，进而确定特效帧对应的直播机位信息，根据获取的直播机位信息与场地框架的对应关系，确定特效帧对应的场地框架；可以理解的是，在直播过程中，直播现场具有多个摄像机的机位，每个摄像机拍摄的角度和场景都是不同的，因此，在直播开始之前，直播系统需要先确定每个机位对应的场地框架，在直播过程中，直播系统接收到直播视频信号时，便可以获取直播视频信号对应的信息，根据直播视频信号对应的信息确定该直播视频信号的拍摄机位，并确定该拍摄机位对应的场地框架，以该拍摄机位对应的场地框架作为该直播视频信号中的特效征对应的场地框架；需要说明的是，场地框架是在直播画面中出现的背景，例如，直播足球赛事时，场地框架对应地为足球场的场地框架，直播演唱会时，场地框架对应地为舞台和观众席等。

步骤c，根据所述特效帧和所述特效帧对应的场地框架，确定所述直播视频信号对应的直播视频特效点，其中，所述直播特效点包括所述直播视频特效点。

在该步骤中，直播系统在确定直播视频信号对应的特效帧和场地框架后，根据特效帧和场地框架，确定直播视频信号对应的直播视频特效点，其中，直播视频特效点是直播特效点中的一种类型的特效点；如：如图3所示，直播系统通过直播信息对直播视频信号进行粗筛选(如，开场类表演需加整体特效的比例较大)，用关键帧进行细筛选(如，比赛类节目关注的是细节信息，往往对某个动作加慢放或声音特效等)，确定直播视频信号的特效帧，并根据特效帧和场地框架进行关键点匹配，确定直播视频信号的特效帧中需要加入特效的关键点，进而由特效帧和关键点，确定直播视频特效点。需要说明的是，特效帧可以理解为一张图像，图像中包括多个不同的位置，由于不是特效帧中的每个位置都需要加入特效，因此直播系统将直播视频信号的特效帧与场地框架进行关键点匹配，确定特效帧中需要加入特效的具体位置，进而确定关键点，例如在篮球比赛的直播中，特效帧为运动员将篮球投入篮筐的图像，仅需要在特效帧的篮筐位置加入特效，则特效帧中的篮筐位置为关键点。

具体地，步骤S10还包括：

步骤d，在直播过程中接收到所述直播数据流中的直播音频信号时，提取所述直播音频信号的直播音频特征集合；

步骤e，将所述直播音频信号转换为字幕文本，提取所述字幕文本中的关键词，并根据所述直播音频特征集合和所述关键词在所述直播音频信号中的位置，确定直播音频特效点，其中，所述直播特效点包括所述直播音频特效点。

在步骤d至步骤e中，直播系统在直播过程中接收到直播数据流中的直播音频信号时，直播系统对直播音频信号进行特征提取，得到直播音频特征集合，并将直播音频信号转换为字幕文本，并识别字幕文本中的关键词，并根据直播音频特征集合和关键词在直播音频信号中的位置，确定直播音频特效点，其中，直播音频特效点是直播特效点中的一种类型的特效点；如：直播系统在直播过程中接收到直播数据流中的直播音频信号时，将直播音频信号分为两路进行处理：第一路，对直播音频信号进行语音翻译提取字幕文本，根据直播信息识别字幕文本中的关键词(如，直播信息为比赛类节目，解说员会有精彩、棒、哇等字眼)；第二路，对直播音频信号特征提取，得到直播音频特征集合，直播音频特征集合中包括时域特征、频域特征以及感知特征，从而能全方位的辨别特效点，其中，时域特征可以通过信号单位时间通过0点的次数(过零率)和与其沿时间位移后版本的相似度(自相关)描述，如若过零率越大说明直播音频信号的变化幅度越大，是特效点的概率就越大；频域特征通过识别频谱中能量集中点(谱质心)、考虑人耳对不同频率的感受程度(MFCC)和量化信号和噪音间的相似度(频谱通量)等描述；感知特征通过信号强弱(响度)和高频部分能量(尖锐度)描述，值越大人耳感觉就越尖锐，直播系统根据得到的直播音频特征集合和关键词，确定直播音频特效点，例如直播音频信号的某处的时域特征的过零率较大，且该时刻具有关键词(如，直播信息为比赛类节目，解说员会有精彩、棒、哇等字眼)，直播系统确定直播音频信号的此处最有可能需要加入特效，将此处确定为直播音频特效点。

在本实施例中，在一般情况下，直播系统会同时接收到直播音频信号和直播视频信号，直播系统在分别确定直播音频特效点和直播视频特效点后，根据直播音频特效点在直播音频信号中加入对应的特效，得到具有特效的直播音频信号，并根据直播视频特效点在直播视频信号中加入对应的特效，得到具有特效的直播视频信号，并将具有特效的直播音频信号和具有特效的直播视频信号进行同步，生成并播放具有特效的直播数据流；在某些特殊情况下，直播系统只接收到直播音频信号或只接受到直播视频信号，在只接受到直播音频信号时，直播系统根据直播音频特效点在音频信号中加入对应的特效，得到具有特效的直播音频信号，根据具有特效的直播音频信号生成并播放具有特效的直播数据流；在只接受到直播视频信号，直播系统根据直播视频特效点在直播视频信号中加入对应的特效，得到具有特效的直播视频信号，根据具有特效的直播视频信号生成并播放具有特效的直播数据流。

具体地，步骤S20包括：

步骤f，根据所述直播视频特效点生成具有特效的直播视频信号，并根据所述直播音频特效点生成具有特效的直播音频信号；

进一步地，步骤f包括：

步骤f1，根据所述直播视频特效点对应的特效帧，确定第一特效信息，并根据所述直播音频特效点对应的关键词，确定第二特效信息；

步骤f2，将所述第一特效信息和所述第二特效信息进行对比，若所述第一特效信息和所述第二特效信息相同，则根据所述第一特效信息生成具有特效的直播视频信号，同时根据所述第二特效信息生成具有特效的直播音频信号；

步骤f3，若所述第一特效信息和所述第二特效信息不相同，则根据所述第一特效信息生成具有特效的直播视频信号，并根据所述具有特效的直播视频信号和所述第二特效信息，生成具有特效的直播音频信号。

在步骤f1至步骤f3中，一般情况下，直播系统会同时接收到直播音频信号和直播视频信号，如图4所示，直播系统分别确定直播音频特效点和直播视频特效点后，根据直播视频特效点对应的特效帧中的内容，确定第一特效信令，并根据第一特效信令确定第一特效信息，根据直播音频特效点对应的关键词，确定第二特效信令，并根据第二特效信令确定第二特效信息；直播系统在分别确定第一特效信息和第二特效信息后，将第一特效信息和第二特效信息进行对比，以判断第一特效信息和第二特效信息的特效类型和特效内容是否相同，若相同，则直接同时在直播视频信号的直播视频特效点中加入第一特效信息，生成具有特效的直播视频信号，在直播音频信号的直播音频特效点加入第二特效信息，生成具有特效的直播音频信号，若不相同，由于直播视频信号和直播音频信号对音视频流的当前帧的影响因子和位置都不同，并且直播音频特效点需要加局部特效，直播视频特效点需要加整体特效，所以按照先整体后局部的原则进行特效匹配，即先在直播视频信号的直播视频特效点中加入第一特效信息，生成具有特效的直播视频信号，再根据具有特效的直播视频信号和第二特效信息，生成具有特效的直播音频信号，以先生成整体特效，后生成局部特效，避免只有局部特效的情况出现，影响用户的观看体验。需要说明的是，第一特效信息中包括视频类的特效和/或音频类的特效，第二特效信息中也包括视频类的特效和/或音频类的特效。

步骤g，获取所述具有特效的直播音频信号对应的推送速度，并根据所述推送速度，将所述具有特效的直播视频信号与所述具有特效的直播音频信号进行同步，生成并播放具有特效的直播数据流。

在该步骤中，直播系统提取具有特效的直播音频信号对应的时间序列，根据该时间序列，确定具有特效的直播音频信号的推送速度，进而根据推送速度，将具有特效的音频流和具有特效的视频流进行同步，进而生成并播放具有特效的直播数据流。

进一步地，步骤S20还包括：

步骤h，获取所述直播视频特效点对应的特效帧，并根据所述直播视频特效点对应的特效帧，确定第一特效信息；

步骤i，根据所述直播视频特效点和所述第一特效信息，生成并播放具有特效的直播数据流；

步骤j，或者，所述直播特效点包括直播音频特效点，所述根据所述直播特效点，生成并播放具有特效的直播数据流的步骤包括：

步骤k，获取所述直播音频特效点对应的关键词，并根据所述直播音频特效点对应的关键词，确定第二特效信息；

步骤l，根据所述直播音频特效点和所述第二特效信息，生成并播放具有特效的直播数据流。

在步骤h至步骤l中，某些特殊情况下，直播系统可能只接收到直播视频信号或直播音频信号，当直播系统仅仅接收到直播视频信号并确定直播视频特效点后，根据直播视频特效点确定第一特效信息，第一特效信息中可能包括音频特效和/或视频特效，根据第一特效信息和直播视频特效点进行特效匹配，生成具有特效的直播视频信号，将具有特效的直播视频信号作为具有特效的直播数据流，并进行播放；当直播系统仅仅接收到直播音频信号并确定直播音频特效点后，根据直播音频特效点确定第二特效信息，第二特效信息中可能包括视音频特效和/或视频特效，根据第二特效信息和直播音频特效点进行特效匹配，进而生成具有特效的直播音频信号，将具有特效的直播音频信号作为具有特效的直播数据流，并进行播放。

本实施例的直播系统在直播过程中接收到直播数据流中的直播视频信号时，提取直播视频信号中的关键帧，获取直播的直播信息，并根据关键帧和直播信息，确定直播视频信号的特效帧；直播系统获取特效帧对应的直播机位信息，并根据获取的直播机位信息与场地框架的对应关系，确定特效帧对应的场地框架；直播系统根据特效帧和特效帧对应的场地框架，确定直播视频信号对应的直播视频特效点；直播系统在直播过程中接收到直播数据流中的直播音频信号时，提取直播音频信号的直播音频特征集合；直播系统将直播音频信号转换为字幕文本，提取所述字幕文本中的关键词，并根据直播音频特征集合和关键词在直播音频信号中的位置，确定直播音频特效点；直播系统根据直播视频特效点生成具有特效的直播视频信号，并根据直播音频特效点生成具有特效的直播音频信号；直播系统获取具有特效的直播音频信号对应的推送速度，并根据推送速度，将具有特效的直播视频信号和具有特效的直播音频信号进行同步，生成并播放具有特效的直播数据流。通过提取直播场地信息的场地框架，并结合场地框架确定直播视频特效点，再确定直播音频特效点，根据直播音频特效点和直播视频特效点，生成并播放具有特效的直播数据流，使得在直播中能实时加入特效，提高用户的观看体验。

进一步地，基于本发明直播特效生成方法的第一实施例，提出本发明直播特效生成方法的第二实施例。

直播特效生成方法的第二实施例与直播特效生成方法的第一实施例的区别在于，步骤S10之前包括：

步骤n，获取每个直播机位信息对应的直播场地信息，并根据每个直播机位信息对应的直播场地信息，生成每个直播机位信息对应的场地框架，以得到场地框架集合。

在本实施例中，直播系统在直播开始之前，通过直播现场的每个直播机位，拍摄不同角度的直播场地信息，并对每个直播机位的直播场地信息进行处理，确定每个机位对应的场地框架图，并根据场地框架图确定每个机位对应的场地框架，以使得直播系统在直播过程中根据每个直播机位对应的场地框架，在直播视频信号中加入特效。可以理解的是，场地框架是在直播画面中出现的背景，例如，直播足球赛事时，场地框架对应地为足球场的场地框架，直播演唱会时，场地框架对应地为舞台和观众席等。

具体地，步骤n包括：

步骤n1，根据每个直播机位拍摄到的直播场地信息生成对应的场地框架二值图，并根据场地框架二值图确定连通域集合；

在该步骤中，直播系统获取每个直播机位拍摄到的直播场地信息，根据每个直播机位拍摄到的直播场地信息生成每个直播机位对应的场地框架图，并对场地框架图进行二值化处理，得到每个直播机位对应的场地框架二值图，再从上到下，从左到右的顺序对场地框架二值图中的每个像素点进行扫描，当扫描到某个像素点的像素值为1时，以该像素点作为种子像素点，然后根据连通域的两个基本条件(像素值相同和位置相邻)，将与种子像素点相邻并像素值同为1的前景像素点合并到同一个像素集合中，得到的像素集合则为一个连通区域，可以理解的是，连通域是在场地框架二值图上的；直播系统对场地框架二值图中的干扰信号(误入镜头的工作人员、拍摄机器等)进行预处理，即将场地框架二值图中面积小于预设面积阈值的连通域进行删除，进而确定场地框架二值图上的连通域集合。

步骤n2，对每个直播机位对应的连通域集合中的每个连通域进行边界腐蚀，以得到目标连通域集合，并根据目标连通域集合确定每个直播机位对应的场地框架，再根据每个直播机位对应的场地框架，确定场地框架集合。

在该步骤中，直播系统对每个直播机位对应的场地框架二值图上的连通域集合中的每个连通域进行边界腐蚀，以得到每个直播机位对应的目标连通域集合，并根据目标连通域集合确定每个直播机位对应的场地框架，再根据每个直播机位对应的场地框架，确定场地框架集合，如：如图5所示，图5为本发明边界腐蚀确定场地框架的示意图，其中，上半部分(箭头以上)是待处理的场地框架二值图，中间四角星状的区域和两个矩形框之间的空白部分则为场地框架二值图上的连通域集合，通过逐层腐蚀算法对场地框架二值图上的连通域集合中的每个连通域进行边界腐蚀，得到目标连通域集合，如下半部分(箭头以下)的黑色细线所示，目标连通域集合中的每个目标连通域的像素点的行数或列数较少，仅仅用于体现场地框架的核心位置，此时直播系统可根据目标连通域集合确定场地框架。

进一步地，对每个直播机位对应的连通域集合中的每个连通域进行边界腐蚀，以得到目标连通域集合的步骤包括：

步骤n21，根据每个直播机位对应的连通域集合中的每个连通域的形状特征，确定每个连通域对应的端点，并根据每个连通域对应的端点确定每个连通域对应的边界像素比；

在该步骤中，直播系统根据每个直播机位对应的场地框架二值图上的连通域集合中的每个连通域的形状特征，确定每个连通域对应的端点，并根据每个连通域对应的端点确定每个连通域对应的边界像素比；如：如图6所示，图6为连通域示意图，假设场地框架二值图中的某个连通域的形状特征如图6所示，直播系统通过切线寻找该连通域的边界上的切点，根据切点确定连通域上的两个端点分别为a和b，再根据端点确定该连通域对应的边界像素比。可以理解的是，直播系统对场地框架二值图上的每个连通域都进行上述操作，确定连通域集合中每个连通域对应的边界像素比。

进一步地，根据每个连通域对应的端点确定每个连通域对应的边界像素比的步骤包括：

步骤n211，在该步骤中，直播系统根据每个连通域对应的端点，计算出每个连通域的端点直线距离和端点实际距离，并将端点直线距离和端点实际距离进行对比，如图7所示，该连通域的两个端点分别为a和b，在a和b之间做一条直线，该直线的中包含的像素点个数即为端点直线距离，从a点开始，到b点结束，该连通域的下方边界包含的像素点个数或该连通域的上方边界包含的像素点个数，即为端点实际距离。

步骤n212，在该步骤中，直播系统将端点直线距离和端点实际距离进行对比后，若得到对比结果为端点直线距离和端点实际距离相等，则确定边界像素比为第一比值，第一比值为1:1，可以理解的是，当某个连通域的端点直线距离和端点实际距离相等时，则该连通域的下方边界进行边界腐蚀去除的像素点的个数与该连通域的上方边界进行边界腐蚀去除的像素点的个数相同。

步骤n213，在该步骤中，直播系统将端点直线距离和端点实际距离进行对比后，若得到对比结果为端点直线距离和端点实际距离不相等，则确定连通域的边界像素对应关系，根据边界像素对应关系，确定边界像素比为第二比值；可以理解的是若端点直线距离和端点实际距离不相等，则该连通域的端点实际距离大于端点直线距离，根据端点实际距离，确定该连通域的下方边界包含的像素点个数与该连通域的上方边界包含的像素点个数，进而确定该连通域的下方边界和上方边界长度关系，根据该连通域的下方边界和上方边界长度关系确定该连通域的边界像素对应关系，进而确定边界像素比为第二比值为1：n，即，该连通域中较短的边界进行边界腐蚀去除的像素点的个数为1时，同时较长的边界进行边界腐蚀去除的像素点的个数为n；如：如图7所示，图7为边界像素对应关系示意图，其中，x为a、b两端点之间沿边界的实际距离较短边界上的某个像素点，y1、y2、y3……分别为a、b两端点之间沿边界实际距离较长边界上的n个像素点，直播系统分别x和y1、y2、y3……的距离，并分别将x和y1、y2、y3……的距离与预设距离阈值进行对比，假设得到对比结果为x和y1、y2、y3的距离大于预设距离阈值，则说明当像素点x被腐蚀的同时另一侧的像素带你y1、y2、y3也被腐蚀，此时n为3，即第二比值为1:3。

步骤n22，根据每个连通域对应的边界像素比对每个连通域进行边界腐蚀，以得到目标连通域集合。

在该步骤中，直播系统在确定场地框架二值图中的每个连通域对应的边界像素比时，根据每个连通域对应的边界像素比对每个连通域进行边界腐蚀，以得到目标连通域集合；如：直播系统确定场地框架二值图中的某个连通域对应的边界像素比为1:1时，则该连通域的下方边界进行边界腐蚀去除的像素点的个数为1时，上方边界进行边界腐蚀去除的像素点的个数也为1；直播系统确定场地框架二值图中的某个连通域对应的边界像素比为1:n时，其中，n＝2、3、4……，则该连通域中较短的边界进行边界腐蚀去除的像素点的个数为1时，同时较长的边界进行边界腐蚀去除的像素点的个数为n，直到场地框架二值图中的所有连通域中包含的像素点的行数或列数为1时，则场地框架二值图中的连通域为目标连通域集合。

本实施例的直播系统直播系统在直播开始之前，通过直播现场的每个直播机位，拍摄不同角度的直播场地信息，并对每个直播机位的直播场地信息进行处理，确定每个机位对应的场地框架图，并根据场地框架图确定每个机位对应的场地框架，以使得直播系统在直播过程中根据每个直播机位对应的场地框架，在直播视频信号中加入特效，有助于提高用户的观看体验。

本发明还提供一种直播特效生成装置。本发明直播特效生成装置包括：

进一步地，所述确定模块还用于：

进一步地，所述生成模块还用于：

进一步地，所述确定模块还用于：

进一步地，所述生成模块还用于：

本发明还提供一种直播特效生成系统。

直播特效生成系统包括：存储器、处理器及储存在所述存储器上并可在所述处理器上运行的直播特效生成程序，所述直播特效生成程序被所述处理器执行时实现如上所述的直播特效生成方法的步骤。

其中，在所述处理器上运行的直播特效生成程序被执行时所实现的方法可参照本发明直播特效生成方法各个实施例，此处不再赘述。

本发明还提供一种计算机可读存储介质。

所述计算机可读存储介质上储存有直播特效生成程序，所述直播特效生成程序被处理器执行时实现如上所述的直播特效生成方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品储存在如上所述的一个储存介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种直播特效生成方法，其特征在于，所述直播特效生成方法包括如下步骤：

根据所述直播特效点，生成并播放具有特效的直播数据流。

2.如权利要求1所述的直播特效生成方法，其特征在于，所述在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点的步骤包括：

3.如权利要求1或2所述的直播特效生成方法，其特征在于，所述在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点的步骤还包括：

在直播过程中接收到所述直播数据流中的直播音频信号时，提取所述直播音频信号的直播音频特征；

将所述直播音频信号转换为字幕文本，提取所述字幕文本中的关键词，并根据所述直播音频特征和所述关键词在所述直播音频信号中的位置，确定直播音频特效点，其中，所述直播特效点包括所述直播音频特效点。

4.如权利要求3所述的直播特效生成方法，其特征在于，所述直播特效点包括所述直播视频特效点，且所述直播特效点包括所述直播音频特效点，所述根据所述直播特效点，生成并播放具有特效的直播数据流的步骤包括：

5.如权利要求2所述的直播特效生成方法，其特征在于，所述在直播过程中接收到直播数据流时，提取所述直播数据流的特征信息，并根据所述特征信息，确定直播特效点的步骤之前，所述直播特效生成方法包括：

6.如权利要求4中所述的直播特效生成方法，其特征在于，所述根据所述直播视频特效点生成具有特效的直播视频信号，并根据所述直播音频特效点生成具有特效的直播音频信号的步骤包括：

7.如权利要求1中所述的直播特效生成方法，其特征在于，所述直播特效点包括直播视频特效点，所述根据所述直播特效点，生成并播放具有特效的直播数据流的步骤还包括：

获取所述直播音频特效点对应的关键词，并根据所述直播音频特效点对应的关键词，确定第二特效信息；其中，所述直播音频特效点对应的关键词为所述直播音频特效点处对应的字幕文本；

8.一种直播特效生成装置，其特征在于，所述直播特效生成装置包括：

9.一种直播特效生成系统，其特征在于，所述直播特效生成系统包括：存储器、处理器及储存在所述存储器上并可在所述处理器上运行的直播特效生成程序，所述直播特效生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的直播特效生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上储存有直播特效生成程序，所述直播特效生成程序被处理器执行时实现如权利要求1至7中任一项所述的直播特效生成方法的步骤。