CN115022655A

CN115022655A - 直播卡顿处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN115022655A
Application number: CN202210555314.2A
Authority: CN
Inventors: 李瑞东; 李琳; 吴耀华; 陈晓辉; 李为
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-09-06

Abstract

本申请公开了一种直播卡顿处理方法、装置、电子设备及可读存储介质，属于视频处理技术领域。本申请实施例中的直播卡顿处理方法包括：当检测到直播画面卡顿时，获取目标视频帧，所述目标视频帧为直播视频的在卡顿前的视频帧，所述目标视频帧中包括人脸；对所述目标视频帧进行人脸识别，并基于识别结果，生成目标视频；将所述目标视频推送给主播客户端进行播放。由此，可以减小直播卡顿给用户带来的影响，提升用户的观看体验。

Description

直播卡顿处理方法、装置、电子设备及可读存储介质

技术领域

本申请属于视频处理技术领域，具体涉及一种直播卡顿处理方法、装置、电子设备及可读存储介质。

背景技术

目前，当直播视频卡顿后，通常会黑屏，或者利用广告或静止图片替换直播视频。这种情况下，如果卡顿时间较长，将会使得观看者感觉无聊，从而造成观看体验较差。

发明内容

本申请实施例的目的是提供一种直播卡顿处理方法、装置、电子设备及可读存储介质，以解决目前直播视频卡顿后造成的观看体验较差的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，提供了一种直播卡顿处理方法，应用于服务器，包括：

当检测到直播画面卡顿时，获取目标视频帧，所述目标视频帧为直播视频的在卡顿前的视频帧，所述目标视频帧中包括人脸；

对所述目标视频帧进行人脸识别，并基于识别结果，生成目标视频；

将所述目标视频推送给主播客户端进行播放。

第二方面，提供了一种直播卡顿处理方法，应用于主播客户端，包括：

从服务器接收目标视频，其中，所述目标视频是根据对目标视频帧进行人脸识别所得到的识别结果生成，所述目标视频帧为直播视频的在直播画面卡顿前的视频帧，所述目标视频帧中包括人脸；

播放所述目标视频。

第三方面，提供了一种直播卡顿处理装置，应用于服务器，包括：

获取模块，用于当检测到直播画面卡顿时，获取目标视频帧，所述目标视频帧为直播视频的在卡顿前的视频帧，所述目标视频帧中包括人脸；

生成模块，用于对所述目标视频帧进行人脸识别，并基于识别结果，生成目标视频；

推送模块，用于将所述目标视频推送给主播客户端进行播放。

第四方面，提供了一种直播卡顿处理装置，应用于主播客户端，包括：

接收模块，用于从服务器接收目标视频，其中，所述目标视频是根据对目标视频帧进行人脸识别所得到的识别结果生成，所述目标视频帧为直播视频的在卡顿前的视频帧，所述目标视频帧中包括人脸；

播放模块，用于播放所述目标视频。

第五方面，提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤，或者如第二方面所述的方法的步骤。

第六方面，提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤，或者如第二方面所述的方法的步骤。

在本申请实施例中，当检测到直播画面卡顿时，可以获取目标视频帧，该目标视频帧为直播视频的在卡顿前的视频帧，该目标视频帧中包括人脸，并对目标视频帧进行人脸识别，基于识别结果，生成目标视频，将该目标视频推送给主播客户端进行播放。由此，可以在直播视频卡顿后，播放与当前主播相关的目标视频，即利用合成的真人视频替换卡顿的直播视频，从而减小直播卡顿给用户带来的影响，提升用户的观看体验。

附图说明

图1是本申请实施例提供的一种直播卡顿处理方法的流程图；

图2A是本申请实施例中提示人脸位置的示意图；

图2B是本申请实施例中提示音频内容的示意图；

图3是本申请实施例提供的另一种直播卡顿处理方法的流程图；

图4是本申请实施例提供的一种直播卡顿处理装置的结构示意图；

图5是本申请实施例提供的一种直播卡顿处理装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的直播卡顿处理方法、装置、电子设备及可读存储介质进行详细地说明。

请参见图1，图1是本申请实施例提供的一种直播卡顿处理方法的流程图，该方法应用于服务器，该服务器比如为直播后端系统等。如图1所示，该方法包括如下步骤：

步骤11：当检测到直播画面卡顿时，获取目标视频帧。

本实施例中，目标视频帧为直播视频的在卡顿前的视频帧，目标视频帧中包括人脸。即目标视频帧为直播视频的在卡顿前的包含人脸的视频帧。

一些实施例中，目标视频帧为直播视频中距卡顿开始时间点最近的、卡顿前的包含人脸的视频帧。比如在获取目标视频帧时，可以先截取卡顿前1秒的视频帧，形成图片，并通过预先训练的人工智能(Artificial Intelligence，AI)模型对形成的图片进行人脸识别，如果识别到人脸，则将截取的视频帧作为目标视频帧，而如果没有识别到人脸，则再截取卡顿前2秒的视频帧，形成图片，并通过预先训练的AI模型对形成的图片进行人脸识别，以此类推直到找到包含人脸的视频帧，并将该包含人脸的视频帧作为目标视频帧。上述AI模型可以采用现有方法预先训练得到，对此不作限定。

步骤12：对目标视频帧进行人脸识别，并基于识别结果，生成目标视频。

本实施例中，在对目标视频帧进行人脸识别时，可以先将目标视频帧转换为静态图片，然后利用预先训练的模型对该静态图片进行人脸识别，以得到人脸的眼睛、鼻子和嘴巴等的特征值。之后，可以通过人像扣头技术等，结合识别得到的人脸的眼睛、鼻子和嘴巴等的特征值，生成目标视频，该目标视频比如为AI合成视频。相比于静态图片，在目标视频中，人眼可根据一个实时变化的眨眼系数A自然眨眼，眼球可根据一个实时变化的转动系数B自然转动，头部可根据一个实时变化的晃动系数C小幅度晃动，嘴巴可根据一个实时变化的张闭系数D自然张开关闭，像说话一样，等等，类似于真人视频。上述的眨眼系数A、转动系数B、晃动系数C和张闭系数D可以采用现有技术得到，只要能实现图片的人眼自然眨眼，眼球自然转动，头部微微晃动，嘴巴自然张开关闭，像说话一样即可，对此不作限定。

步骤13：将目标视频推送给主播客户端进行播放。

此步骤中，可以在直播视频的卡顿期间，将目标视频推送给主播客户端进行播放，以替换卡顿的直播视频。当直播正常后，恢复直播视频流的推流，取消目标视频的推流，从而达到自然替换的效果，使用户从感官上感到未发生直播卡顿一样。

可选的，上述目标视频的时长可以根据主播进行自定义设置，比如为10s到30s等。在将当前目标视频推送完，但直播仍然卡顿时，可以继续采用上述方法生成一段目标视频并推送，以此类推，直到卡顿问题解决。

本申请实施例的直播卡顿处理方法，当检测到直播画面卡顿时，可以获取目标视频帧，该目标视频帧为直播视频的在卡顿前的视频帧，该目标视频帧中包括人脸，并对目标视频帧进行人脸识别，基于识别结果，生成目标视频，将该目标视频推送给主播客户端进行播放。由此，可以直播视频卡顿后，播放与主播相关的目标视频，即利用合成的真人视频替换卡顿的直播视频，从而减小直播卡顿给用户带来的影响，提升用户的观看体验。

本申请实施例中，为了精准替换卡顿的直播视频，在基于识别结果，生成目标视频之前，可以先确定直播视频的卡顿时间，然后根据该识别结果以及卡顿时间，生成目标视频，该目标视频的时长等于卡顿时间。比如，若直播视频的卡顿时间为5秒，则生成5秒的目标视频；或者，若直播视频的卡顿时间为6秒，则生成6秒的目标视频。这样，由于生成的目标视频的时长等于卡顿时间，可以达到精准替换卡顿的直播视频的效果，从而减小直播卡顿给用户带来的影响，提升用户的观看体验。

需指出的，对于确定直播视频的卡顿时间，可以采用现有方法，比如结合数据传输率、资源占用情况等确定，对此不作限定。

可选的，在上述实施例的基础上，服务器可以将目标视频中的人脸位置信息发送给主播客户端，由主播客户端基于该人脸位置信息显示第一提示信息，第一提示信息用于提示目标视频中人脸的位置，以便提示主播可以在卡顿即将结束时将自己的人脸对准虚拟人脸。或者，服务器也可以将第一提示信息直接发送给主播客户端，并由主播客户端显示第一提示信息。这样，当卡顿结束或故障解除，进行正常直播视频推流，取消目标视频推流时，实际主播直播时的人脸可以刚好出现在目标视频主播人脸的位置，无缝链接，不会有顿挫感，使得直播观看用户感觉主播一直在正常直播一样，提升用户的观看体验。

一些实施例中，第一提示信息可以为基于人脸位置信息描绘出的虚线或者幻影的人脸形式。比如，主播客户端展示界面可以如图2A所示，其中虚线代表AI合成人脸位置，实线代表实际人脸位置，可进行正常直播的倒计时。通过此界面可以告知主播，当前目标视频人脸所在位置，提示主播可以在倒计时时间将自己的人脸对准虚线框位置，且在倒计时期间将目标视频中的虚拟人脸的晃动系数C置为0，让其虚拟人脸保持不动，只是眼睛和嘴巴仍然根据之前实时变化的系数继续进行眨眼，和张嘴闭嘴。当倒计时结束时，取消目标视频推流，进行正常直播视频推流，而且实际主播直播时的人脸刚好出现在目标视频主播人脸的位置，无缝链接，不会有顿挫感，使得直播观看用户从感官上感觉主播一直在正常直播一样。

可选的，在上述实施例的基础上，服务器可以向主播客户端发送第二提示信息，由主播客户端显示第二提示信息，该第二提示信息用于提示当前直播画面正在卡顿，和/或提示主播进行声音直播。

一些实施例中，由于卡顿时间较短时对直播进程的影响几乎没有，卡顿时间较长时才会影响直播进程，因此为了避免浪费资源，可以在卡顿时间大于或等于预设阈值比如5秒等，或者直播故障时，通过主播客户端显示第二提示信息，以告知主播目前时间段的直播视频流卡顿，同时告知主播仍然可以进行声音直播。

上述实施例主要针对直播画面卡顿的情况，但除此之外，还可能出现直播画面和直播声音都卡顿的情况，说明如下。

可选的，当检测到直播画面和直播声音都卡顿时，服务器在基于识别结果，生成目标视频时，可以先获取主播的音频，然后基于该识别结果以及主播的音频，生成目标视频。这样可以在卡顿期间，利用包含音频的目标视频来替换卡顿的直播流。当直播正常后，恢复直播视频流的推流，取消目标视频的推流，从而达到自然替换的效果，使用户从感官上感到未发生直播卡顿一样。

一些实施例中，在基于主播的音频生成目标视频时，可以利用音频调整目标视频中人脸的嘴型等，使得目标视频更逼真。

可选的，上述获取主播的音频可以包括任一项：

1)当直播视频的卡顿时间小于或等于第一阈值时，根据预设模型，生成主播的由语气助词组成的音频；也就是说，由于卡顿时间较短，可以利用预设模型仿制主播的声音发出“恩，哦，啊”等等类似于正在思考一样的声音流，感觉主播像是在思考问题或者说话卡壳；比如，如果卡顿时间只有1～2秒，可以生成主播音频“恩，哦，啊”等，同时配合声音调整目标视频中人脸的嘴型，就像是在真的说话一般。

2)当直播视频的卡顿时间大于第一阈值时，根据直播视频中的直播内容，确定直播场景，并根据所述直播场景以及预设模型，生成主播的与直播内容匹配的音频。此情况下，预设模型具备新的能力，可以识别直播场景，比如为游戏直播、美妆直播、带货直播等等场景，以及根据具体场景和直播内容，生成与直播内容逻辑相关的一段音频。

需指出的，上述的第一阈值可以基于实际需求设置，比如为5秒或7秒等，对此不作限定。上述预设模型可选为AI模型，能够利用语音模仿算法仿制主播的声音，可以基于获取的主播音频样本，采用现有方法预先训练得到，对此不作限定。

3)获取预存储的主播音频；该预存储的主播音频可以为一段或多段，可选为主播的口头禅，比如为“奥力给”之类的具有自己鲜明主播特色的口头禅录音，时长比如为30秒或1分钟等。这样在卡顿期间，可以基于主播真实音频来生成目标视频，使得目标视频更逼真。

一些实施例中，在直播之前，可以由主播客户端提示主播录制一段或多段音频文件，并将录制的音频文件传输给服务器供使用。

一些实施例中，可以在卡顿时间较短比如低于预设阈值(如5秒等)的情况下，利用预先存储/录制的主播音频生成目标视频。

可选的，当获取的主播的音频为预存储的主播音频，即利用预先存储/录制的主播音频生成目标视频时，目标视频可以满足以下任一项：

当直播视频的卡顿时间小于或等于预存储的主播音频的时长时，所述目标视频的时长等于预存储的主播音频的时长；即按照预存储的主播音频的时长，生成目标视频，同时需配合主播音频调整目标视频中人脸的嘴型，就像是在真的说话一般；

当直播视频的卡顿时间大于预存储的主播音频的时长时，所述目标视频的时长等于卡顿时间，即按照卡顿时间生成目标视频。此情况下，在获得目标视频时，可以将主播音频加上目标视频的中间部分，同时需配合主播音频调整目标视频中人脸的嘴型，就像是在真的说话一般。

可选的，在上述实施例的基础上，服务器可以向主播客户端发送第三提示信息，由主播客户端显示第三提示信息，该第三提示信息用于提示目标视频中的音频内容，比如以字幕的形式提示，以便主播获知目标视频中的音频内容。

比如，服务器在将一段X秒(如10s到30s，具体时间可根据主播进行自定义设置)的目标视频推送给主播客户端时，可以通过发送提示信息使得主播客户端的界面如图2B所示，其中AI人脸是淡化的幻影，实时通过虚线或幻影显示AI主播的人脸位置，实线代表实际人脸位置，以及通过字幕显示AI主播读的文字内容。当恢复直播倒计时剩下最后3秒时，可以提示主播的脸去对准AI主播的脸，同时可以通过字幕显示AI主播读到的当前内容(如图2B中的aaaaaaaaaaa)，当恢复直播后，AI主播的字幕仍然显示，并提示主播可以根据目标视频的直播文字去读，达到无缝交接的效果。如果主播不想读这段文字，也可以自由发挥去交接过来，但是字幕仍可显示，让用户从感官上感知直播从来没有卡顿一样。

请参见图3，图3是本申请实施例提供的一种直播卡顿处理方法的流程图，该方法应用于主播客户端，该主播客户端比如为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备等，对此不作限定。如图3所示，该方法包括如下步骤：

步骤31：从服务器接收目标视频。

本实施例中，所述目标视频是服务器根据对目标视频帧进行人脸识别所得到的识别结果生成，所述目标视频帧为直播视频的在直播画面卡顿前的视频帧，所述目标视频帧中包括人脸。对于目标视频的生成过程，可以参见上述实施例所述，在此不再赘述。

步骤32：播放目标视频。

本申请实施例的直播卡顿处理方法，可以从服务器接收目标视频，该目标视频是根据对目标视频帧进行人脸识别所得到的识别结果生成，目标视频帧为直播视频的在直播画面卡顿前的视频帧，目标视频帧中包括人脸，并播放目标视频。由此，可以直播视频卡顿后，播放与主播相关的目标视频，即利用合成的真人视频替换卡顿的直播视频，从而减小直播卡顿给用户带来的影响，提升用户的观看体验。

可选的，主播客户端可以从服务器接收目标视频中的人脸位置信息，并基于该人脸位置信息，显示第一提示信息，所述第一提示信息用于提示目标视频中人脸的位置，以便提示主播可以在卡顿即将结束时将自己的人脸对准虚拟人脸。或者，主播客户端可以从服务器直接接收第一提示信息，并显示第一提示信息。这样，当卡顿结束或故障解除，进行正常直播视频推流，取消目标视频推流时，实际主播直播时的人脸可以刚好出现在目标视频主播人脸的位置，无缝链接，不会有顿挫感，使得直播观看用户感觉主播一直在正常直播一样，提升用户的观看体验。

可选的，主播客户端可以从服务器接收第二提示信息，并显示第二提示信息，所述第二提示信息用于提示当前直播画面正在卡顿，和/或提示主播进行声音直播。

可选的，当所述直播视频的直播画面和直播声音都卡顿时，主播客户端可以从服务器接收第三提示信息，并显示第三提示信息，所述第三提示信息用于提示目标视频中的音频内容，比如以字幕的形式提示，以便主播获知目标视频中的音频内容。

需要说明的是，本申请实施例提供的直播卡顿处理方法，执行主体可以为直播卡顿处理装置，或者该直播卡顿处理装置中的用于执行直播卡顿处理方法的控制模块。本申请实施例中以直播卡顿处理装置执行直播卡顿处理方法为例，说明本申请实施例提供的直播卡顿处理装置。

请参见图4，图4是本申请实施例提供的一种直播卡顿处理装置的结构示意图，该装置应用于服务器，如图4所示，直播卡顿处理装置40包括：

获取模块41，用于当检测到直播画面卡顿时，获取目标视频帧，所述目标视频帧为直播视频的在卡顿前的视频帧，所述目标视频帧中包括人脸；

生成模块42，用于对所述目标视频帧进行人脸识别，并基于识别结果，生成目标视频；

推送模块43，用于将所述目标视频推送给主播客户端进行播放。

可选的，直播卡顿处理装置40还包括：

确定模块，用于确定所述直播视频的卡顿时间；

所述生成模块42具体用于：根据所述识别结果以及所述卡顿时间，生成所述目标视频，所述目标视频的时长等于所述卡顿时间。

可选的，直播卡顿处理装置40还包括：

发送模块，用于将所述目标视频中的人脸位置信息发送给所述主播客户端，由所述主播客户端基于所述人脸位置信息显示第一提示信息，所述第一提示信息用于提示所述目标视频中人脸的位置。

可选的，所述发送模块还用于：向所述主播客户端发送第二提示信息，由所述主播客户端显示所述第二提示信息，所述第二提示信息用于提示当前直播画面正在卡顿，和/或提示主播进行声音直播。

可选的，当检测到直播画面和直播声音都卡顿时，所述生成模块42包括：

获取单元，用于获取主播的音频；

生成单元，用于基于所述识别结果以及所述主播的音频，生成所述目标视频。

可选的，所述获取单元具体用于以下任一项：

当所述直播视频的卡顿时间小于或等于第一阈值时，根据预设模型，生成所述主播的由语气助词组成的音频；

当所述直播视频的卡顿时间大于所述第一阈值时，根据所述直播视频中的直播内容，确定直播场景，并根据所述直播场景以及预设模型，生成所述主播的与所述直播内容匹配的音频；

获取预存储的主播音频。

可选的，当获取的主播的音频为预存储的主播音频时，所述目标视频满足以下任一项：

当所述直播视频的卡顿时间小于或等于所述预存储的主播音频的时长时，所述目标视频的时长等于所述预存储的主播音频的时长；

当所述直播视频的卡顿时间大于所述预存储的主播音频的时长时，所述目标视频的时长等于所述卡顿时间。

可选的，所述发送模块还用于：向所述主播客户端发送第三提示信息，由所述主播客户端显示所述第三提示信息，所述第三提示信息用于提示所述目标视频中的音频内容。

本申请实施例的直播卡顿处理装置40，可以实现上述图1所示的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

请参见图5，图5是本申请实施例提供的一种直播卡顿处理装置的结构示意图，该装置应用于主播客户端，该主播客户端比如为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备等，对此不作限定。如图5所示，直播卡顿处理装置50包括：

接收模块51，用于从服务器接收目标视频，其中，所述目标视频是根据对目标视频帧进行人脸识别所得到的识别结果生成，所述目标视频帧为直播视频的在卡顿前的视频帧，所述目标视频帧中包括人脸；

播放模块52，用于播放所述目标视频。

可选的，所述接收模块51还用于：从所述服务器接收第一提示信息；

直播卡顿处理装置50还包括：显示模块，用于显示第一提示信息，所述第一提示信息用于提示所述目标视频中人脸的位置。

可选的，所述接收模块51还用于：从所述服务器接收第二提示信息；

所述显示模块还用于：显示所述第二提示信息，所述第二提示信息用于提示当前直播画面正在卡顿，和/或提示主播进行声音直播。

可选的，当所述直播视频的直播画面和直播声音都卡顿时，所述接收模块51还用于：从所述服务器接收第三提示信息；

所述显示模块还用于：显示所述第三提示信息，所述第三提示信息用于提示所述目标视频中的音频内容。

本申请实施例的直播卡顿处理装置50，可以实现上述图3所示的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，如图6所示，本申请实施例还提供一种电子设备60，包括处理器61，存储器62，存储在存储器62上并可在所述处理器61上运行的程序或指令，该程序或指令被处理器61执行时实现上述直播卡顿处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供了一种可读存储介质，其上存储有程序或指令，所述程序或指令被处理器执行时可实现上述直播卡顿处理方法实施例的各个过程且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台服务分类设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种直播卡顿处理方法，应用于服务器，其特征在于，包括：

当检测到直播画面卡顿时，获取目标视频帧，所述目标视频帧为直播视频的在卡顿前的视频帧，所述目标视频帧中包括人脸；对所述目标视频帧进行人脸识别，并基于识别结果，生成目标视频；

将所述目标视频推送给主播客户端进行播放。

2.根据权利要求1所述的方法，其特征在于，当检测到直播画面卡顿时，所述方法还包括：

确定所述直播视频的卡顿时间；

其中，所述基于识别结果，生成目标视频，包括：

根据所述识别结果以及所述卡顿时间，生成所述目标视频，所述目标视频的时长等于所述卡顿时间。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

将所述目标视频中的人脸位置信息发送给所述主播客户端，由所述主播客户端基于所述人脸位置信息显示第一提示信息，所述第一提示信息用于提示所述目标视频中人脸的位置。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

向所述主播客户端发送第二提示信息，由所述主播客户端显示所述第二提示信息，所述第二提示信息用于提示当前直播画面正在卡顿，和/或提示主播进行声音直播。

5.根据权利要求1所述的方法，其特征在于，当检测到直播画面和直播声音都卡顿时，所述基于识别结果，生成目标视频，包括：

获取主播的音频；

基于所述识别结果以及所述主播的音频，生成所述目标视频。

6.根据权利要求5所述的方法，其特征在于，所述获取主播的音频，包括以下任一项：

获取预存储的主播音频。

7.根据权利要求6所述的方法，其特征在于，当获取的主播的音频为预存储的主播音频时，所述目标视频满足以下任一项：

8.根据权利要求5至7任一项所述的方法，其特征在于，所述方法还包括：

向所述主播客户端发送第三提示信息，由所述主播客户端显示所述第三提示信息，所述第三提示信息用于提示所述目标视频中的音频内容。

9.一种直播卡顿处理方法，应用于主播客户端，其特征在于，包括：

播放所述目标视频。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括以下至少一项：

从所述服务器接收第一提示信息，并显示所述第一提示信息，所述第一提示信息用于提示所述目标视频中人脸的位置；

从所述服务器接收第二提示信息，并显示所述第二提示信息，所述第二提示信息用于提示当前直播画面正在卡顿，和/或提示主播进行声音直播；

从所述服务器接收第三提示信息，并显示所述第三提示信息，所述第三提示信息用于提示所述目标视频中的音频内容。

11.一种直播卡顿处理装置，其特征在于，包括：

12.一种直播卡顿处理装置，其特征在于，包括：

播放模块，用于播放所述目标视频。

13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至8任一项所述的直播卡顿处理方法的步骤，或者如权利要求9或10所述的直播卡顿处理方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至8任一项所述的直播卡顿处理方法的步骤，或者如权利要求9或10所述的直播卡顿处理方法的步骤。