CN111556335A

CN111556335A - 一种视频贴纸处理方法及装置

Info

Publication number: CN111556335A
Application number: CN202010297623.5A
Authority: CN
Inventors: 林倩雅; 夏天; 何雷米一阳; 陈斯; 黄子汕; 刘荣潺
Original assignee: Good Morning Technology Guangzhou Co ltd
Current assignee: Good Morning Technology Guangzhou Co ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-18
Also published as: US20210329176A1; US11218648B2

Abstract

本发明公开了一种视频贴纸处理方法及装置。所述方法包括：分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本；将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据所述语音识别文本获取目标视频帧；在所述目标视频帧的默认位置或目标位置添加所述目标贴纸；其中，所述目标位置是根据所述人脸位置数据计算而获得。本发明能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置，实现智能选择和摆放目标贴纸，提高视频贴纸处理效率。

Description

一种视频贴纸处理方法及装置

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频贴纸处理方法及装置。

背景技术

自视频社交成为一种新兴的互联网社交方式后，各种各样的视频编辑软件应运而生。为了增强视频的娱乐效果，用户经常会应用视频编辑软件在视频中添加贴纸。在实际应用中，用户根据个人偏好需求从贴纸库中手动选择目标贴纸，从视频的视频帧中手动选择目标视频帧，并在目标视频帧中添加有目标贴纸后手动调整目标贴纸的摆放位置，以在视频的播放过程中，实现在目标视频帧中渲染显示目标贴纸。由于现有技术需要用户手动操作来对视频贴纸进行处理，增加了对视频贴纸的处理时间，导致视频贴纸处理效率低下。

发明内容

为克服现有技术的缺陷，本发明提供一种视频贴纸处理方法及装置，能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置，实现智能选择和摆放目标贴纸，提高视频贴纸处理效率。

为了解决上述技术问题，第一方面，本发明一实施例提供一种视频贴纸处理方法，包括：

分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本；

将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据所述语音识别文本获取目标视频帧；

在所述目标视频帧的默认位置或目标位置添加所述目标贴纸；其中，所述目标位置是根据所述人脸位置数据计算而获得。

进一步地，所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本，具体为：

依序对所述待处理视频的视频帧进行人脸识别，并在一视频帧人脸识别成功时，得到对应视频帧的所述人脸位置数据；

对所述待处理视频进行语音识别，并在语音识别成功时，将识别的语音数据转换为文本数据，得到所述语音识别文本。

进一步地，所述将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据所述语音识别文本获取目标视频帧，具体为：

将对所述语音识别文本进行切词处理得到的文本词与所述贴纸库中每一贴纸的描述文本进行匹配，得到所述目标贴纸；

获取所述语音识别文本在所述待处理视频中的出现时间，将播放时间对应于所述出现时间的视频帧作为所述目标视频帧。

进一步地，所述在所述目标视频帧的默认位置或目标位置添加所述目标贴纸，还包括：

当所述目标贴纸在所述默认位置或所述目标位置的出现时长达到预设阈值时，移除所述目标贴纸。

进一步地，在所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本之后，还包括：

在所述目标视频帧的字幕位置添加所述语音识别文本。

第二方面，本发明一实施例提供一种视频贴纸处理装置，包括：

人脸和语音识别模块，用于分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本；

目标贴纸获取模块，用于将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据所述语音识别文本获取目标视频帧；

目标贴纸添加模块，用于在所述目标视频帧的默认位置或目标位置添加所述目标贴纸；其中，所述目标位置是根据所述人脸位置数据计算而获得。

进一步地，所述目标贴纸添加模块，还用于当所述目标贴纸在所述默认位置或所述目标位置的出现时长达到预设阈值时，移除所述目标贴纸。

进一步地，所述视频贴纸处理装置，还包括语音识别文本添加模块，用于在所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本之后，在所述目标视频帧的字幕位置添加所述语音识别文本。

本发明的实施例，具有如下有益效果：

通过分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本，进而将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据语音识别文本获取目标视频帧，从而在目标视频帧的默认位置或根据人脸位置数据计算而获得的目标位置添加目标贴纸，完成视频贴纸处理。相比于现有技术，本发明的实施例通过对待处理视频进行人脸识别和语音识别，以当语音识别成功时，将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸，并根据语音识别文本获取目标视频帧，当人脸识别失败时，根据针对目标贴纸而预先设置的默认位置，在目标视频帧的默认位置添加目标贴纸，当人脸识别成功时，根据人脸位置数据计算得到目标位置，在目标视频帧的目标位置添加目标贴纸。本发明的实施例能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置，实现智能选择和摆放目标贴纸，提高视频贴纸处理效率。

附图说明

图1为本发明第一实施例中的一种视频贴纸处理方法的流程示意图；

图2为本发明第一实施例中的一种视频贴纸处理方法的另一流程示意图；

图3为本发明第二实施例中的一种视频贴纸处理装置的结构示意图；

图4为本发明第二实施例中的一优选实施例的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行，且下文均以服务器作为执行主体为例进行说明。

请参阅图1-2。

如图1-2所示，第一实施例提供一种视频贴纸处理方法，包括步骤S1～S3：

S1、分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本。

S2、将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据语音识别文本获取目标视频帧。

S3、在目标视频帧的默认位置或目标位置添加目标贴纸；其中，目标位置是根据人脸位置数据计算而获得。

作为示例性的，用户通过用户终端上传待处理视频，由服务器在接收到待处理视频时，分别对待处理视频进行人脸识别和语音识别。若人脸识别成功，则可得到人脸位置数据，若语音识别成功，则可得到语音识别文本。其中，用户终端包括手机、电脑、平板等可与服务器连接的通信设备。

在本实施例的一优选实施方式中，在得到语音识别文本后，服务器可向用户终端下发语音识别文本，使得用户可通过用户终端确认语音识别文本。

当语音识别成功时，将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，与语音识别文本匹配成功的描述文本对应的贴纸即为目标贴纸。同时，根据语音识别文本获取目标视频帧。

在本实施例的一优选实施方式中，在得到目标贴纸后，服务器可向用户终端下发目标贴纸，使得用户可通过用户终端确认目标贴纸。在得到目标视频帧后，服务器可向用户终端下发目标视频帧，使得用户可通过用户终端确认目标视频帧。

在得到目标贴纸和目标视频帧后，结合人脸识别结果确定目标贴纸的添加位置，即当人脸识别失败时，根据针对目标贴纸而预先设置的默认位置，在目标视频帧的默认位置添加目标贴纸，当人脸识别成功时，根据人脸位置数据计算得到目标位置，在目标视频帧的目标位置添加目标贴纸。

其中，默认位置的设置过程可参考：当待处理视频人脸识别失败，即无法识别人脸或人脸矩形宽度小于手机屏幕宽度的30％时，首先在手机屏幕居中添加一个300*380的默认矩形，接着画出默认矩形的内切椭圆，内切椭圆上的点即为默认有效点，最后从所有默认有效点中随机筛选一个默认有效点作为默认位置。

其中，目标位置的计算过程可参考：当待处理视频人脸识别成功，即人脸矩形宽度大于手机屏幕宽度的30％时，首先将人脸矩形宽度加宽40％，人脸矩形上半部分加高60％，人脸矩形下半部分加高30％，确保整个人脸矩形宽度不小于手机屏幕宽度的65％。接着画出人脸矩形的内切椭圆，椭圆上的点为目标贴纸的备用点(等分为8～10个)，在手机屏幕外的备用点为不可用点，在手机屏幕内的备用点为可用点。然后在每个可用点添加一个默认贴纸(贴纸宽度大于人脸矩形宽度的45％)，若默认贴纸的放置面积超出手机屏幕20％，则对应的可用点为无效点，若默认贴纸的放置面积未超出手机屏幕20％，则对应的可用点为有效点。最后从所有有效点中随机筛选一个有效点作为目标位置。当有效点少于3个时，则居中一个width＝80％playerWidth，height＝70％playerHeight(安全区域的矩形)，此时需要判断矩形中心点偏上或偏下高度是否大于手机屏幕高度的5％，若是则确定反向的有效点作为目标位置。

其中，目标贴纸旋转角度的选择过程可参考：若目标贴纸的添加位置在手机屏幕的左边，则其旋转角度为顺时针0～45°的随机角度，若目标贴纸的添加位置在手机屏幕的右边，则其旋转角度为逆时针0～45°的随机角度。

在本实施例的一优选实施方式中，在目标视频帧的默认位置或目标位置添加目标贴纸后，服务器可向用户终端下发添加有目标贴纸的目标视频帧，使得用户可通过用户终端确认视频贴纸处理。

本实施例通过分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本，进而将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据语音识别文本获取目标视频帧，从而在目标视频帧的默认位置或根据人脸位置数据计算而获得的目标位置添加目标贴纸，完成视频贴纸处理。

本实施例通过对待处理视频进行人脸识别和语音识别，以当语音识别成功时，将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸，并根据语音识别文本获取目标视频帧，当人脸识别失败时，根据针对目标贴纸而预先设置的默认位置，在目标视频帧的默认位置添加目标贴纸，当人脸识别成功时，根据人脸位置数据计算得到目标位置，在目标视频帧的目标位置添加目标贴纸。本实施例能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置，实现智能选择和摆放目标贴纸，提高视频贴纸处理效率。

在优选的实施例当中，所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本，具体为：依序对待处理视频的视频帧进行人脸识别，并在一视频帧人脸识别成功时，得到对应视频帧的人脸位置数据；对待处理视频进行语音识别，并在语音识别成功时，将识别的语音数据转换为文本数据，得到语音识别文本。

作为示例性的，用户通过用户终端录制待处理视频，上传待处理视频的视频帧，由服务器在接收到待处理视频的视频帧时，按照待处理视频的视频帧接收顺序，依序对待处理视频的视频帧进行人脸识别，若对一视频帧的人脸识别成功，则判定待处理视频人脸识别成功，得到该视频帧的人脸位置数据，若对所有视频帧的人脸识别均失败，则判定待处理视频人脸识别失败。用户通过用户终端结束录制待处理视频，上传待处理视频的最后一视频帧，由服务器在接收到最后一视频帧时，对待处理视频进行语音识别，若语音识别成功，则将识别的语音数据转换为文本数据，得到语音识别文本，若语音识别失败，则退出视频贴纸处理。

本实施例通过依序对待处理视频的视频帧进行人脸识别，并在一视频帧人脸识别成功时得到对应视频帧的人脸位置数据，能够在用户录制待处理视频时即可对接收的视频帧进行人脸识别，且在得到人脸位置数据后无需对其余视频帧进行人脸识别，极大地缩短了待处理视频人脸识别的处理时间，从而提高视频贴纸处理效率。

在优选的实施例当中，所述将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据语音识别文本获取目标视频帧，具体为：将对语音识别文本进行切词处理得到的文本词与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸；获取语音识别文本在待处理视频中的出现时间，将播放时间对应于出现时间的视频帧作为目标视频帧。

作为示例性的，在得到语音识别文本后，由服务器对语音识别文本进行切词处理，得到文本词集合，并逐一将文本词集合中的文本词与贴纸库中每一贴纸的描述文本进行匹配，若所有匹配结果中有贴纸的描述文本与文本词相匹配，则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸，若所有匹配结果中均没有贴纸的描述文本与文本词相匹配，则退出视频贴纸处理。

比如，将语音识别文本“好开心”从前往后进行切词处理，得到文本词集合{(“好”、“开”、“心”)，(“好开”、“心”)，(“好”、“开心”)，(“好开心”)}，分别将“好”、“开”、“心”、“好开”、“开心”、“好开心”与贴纸库中每一贴纸的描述文本进行匹配，若所有匹配结果中有贴纸的描述文本与文本词相匹配，则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸，若所有匹配结果中均没有贴纸的描述文本与文本词相匹配，则退出视频贴纸处理。

在本实施例的一优选实施方式中，优先从文本长度最长的文本词的匹配结果中随机筛选一个贴纸作为目标贴纸。

比如，从“好开心”的匹配结果中随机筛选一个贴纸作为目标贴纸。

作为示例性的，在得到语音识别文本后，由服务器对语音识别文本进行切词处理，得到文本词集合，并按照文本词文本长度从长到短的顺序，逐一将文本词集合中的文本词与贴纸库中每一贴纸的描述文本进行匹配，若当前匹配结果中有贴纸的描述文本与文本词相匹配，则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸，若所有匹配结果中均没有贴纸的描述文本与文本词相匹配，则退出视频贴纸处理。

比如，将语音识别文本“好开心”从前往后进行切词处理，得到文本词集合{(“好开心”)，(“好开”、“心”)，(“好”、“开心”)，(“好”、“开”、“心”)}，依序将“好开心”、“好开”、“开心”、“好”、“开”、“心”与贴纸库中每一贴纸的描述文本进行匹配，若当前匹配结果中有贴纸的描述文本与文本词相匹配，则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸，若所有匹配结果中均没有贴纸的描述文本与文本词相匹配，则退出视频贴纸处理。

本实施例通过对语音识别文本进行切词处理，将得到的文本词与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸，能够有效增加贴纸匹配成功率，从而提高视频贴纸处理效率。

在本实施例的一优选实施方式中，在得到文本词集合后，服务器可向用户终端下发文本词集合，使得用户可通过用户终端确认文本词集合。

其中，下发文本词集合的数据结构可参考：{(文本词1，startTime，endTime)，(文本词2，startTime，endTime)，……}，startTime表示对应文本词的开始时间，endTime表示对应文本词的结束时间。

在本实施例的一优选实施方式中，在得到匹配贴纸后，服务器可向用户终端下发匹配贴纸，使得用户可通过用户终端确认匹配贴纸。

其中，下发匹配贴纸的数据结构可参考：{(文本词1：匹配贴纸1)，(文本词2，匹配贴纸2)，……}。

在优选的实施例当中，所述在目标视频帧的默认位置或目标位置添加目标贴纸，还包括：当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时，移除目标贴纸。

作为示例性的，当在目标视频帧的默认位置或目标位置添加目标贴纸后，检测目标贴纸在默认位置或目标位置的出现时长，若目标贴纸在默认位置或目标位置的出现时长达到预设阈值，则从目标视频帧中移除目标贴纸。其中，预设阈值是根据实际需要而预先设置的，比如2秒。

本实施例通过当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时移除目标贴纸，能够避免目标贴纸在默认位置或目标位置停留过长而遮挡视频内容。

在优选的实施例当中，在所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本之后，还包括：在目标视频帧的字幕位置添加语音识别文本。

本实施例通过在目标视频帧的字幕位置添加语音识别文本，能够根据语音识别文本自动确定字幕的添加位置，从而提高视频编辑处理效率。

请参阅图3-4。

如图3所示，第二实施例提供一种视频贴纸处理装置，包括：人脸和语音识别模块21，用于分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本；目标贴纸获取模块22，用于将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据语音识别文本获取目标视频帧；目标贴纸添加模块23，用于在目标视频帧的默认位置或目标位置添加目标贴纸；其中，目标位置是根据人脸位置数据计算而获得。

作为示例性的，用户通过用户终端上传待处理视频，由人脸和语音识别模块21在接收到待处理视频时，分别对待处理视频进行人脸识别和语音识别。若人脸识别成功，则可得到人脸位置数据，若语音识别成功，则可得到语音识别文本。其中，用户终端包括手机、电脑、平板等可与服务器连接的通信设备。

在本实施例的一优选实施方式中，在得到语音识别文本后，可通过人脸和语音识别模块21向用户终端下发语音识别文本，使得用户可通过用户终端确认语音识别文本。

当语音识别成功时，通过目标贴纸获取模块22，将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，与语音识别文本匹配成功的描述文本对应的贴纸即为目标贴纸。同时，通过目标贴纸获取模块22，根据语音识别文本获取目标视频帧。

在本实施例的一优选实施方式中，在得到目标贴纸后，可通过目标贴纸获取模块22向用户终端下发目标贴纸，使得用户可通过用户终端确认目标贴纸。在得到目标视频帧后，可通过目标贴纸获取模块22向用户终端下发目标视频帧，使得用户可通过用户终端确认目标视频帧。

在得到目标贴纸和目标视频帧后，通过目标贴纸添加模块23，结合人脸识别结果确定目标贴纸的添加位置，即当人脸识别失败时，根据针对目标贴纸而预先设置的默认位置，在目标视频帧的默认位置添加目标贴纸，当人脸识别成功时，根据人脸位置数据计算得到目标位置，在目标视频帧的目标位置添加目标贴纸。

在本实施例的一优选实施方式中，在目标视频帧的默认位置或目标位置添加目标贴纸后，可通过目标贴纸添加模块23向用户终端下发添加有目标贴纸的目标视频帧，使得用户可通过用户终端确认视频贴纸处理。

本实施例通过人脸和语音识别模块21，分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本，进而通过目标贴纸获取模块22，将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据语音识别文本获取目标视频帧，从而通过目标贴纸添加模块23，在目标视频帧的默认位置或根据人脸位置数据计算而获得的目标位置添加目标贴纸，完成视频贴纸处理。

作为示例性的，用户通过用户终端录制待处理视频，上传待处理视频的视频帧，由人脸和语音识别模块21在接收到待处理视频的视频帧时，按照待处理视频的视频帧接收顺序，依序对待处理视频的视频帧进行人脸识别，若对一视频帧的人脸识别成功，则判定待处理视频人脸识别成功，得到该视频帧的人脸位置数据，若对所有视频帧的人脸识别均失败，则判定待处理视频人脸识别失败。用户通过用户终端结束录制待处理视频，上传待处理视频的最后一视频帧，由人脸和语音识别模块21在接收到最后一视频帧时，对待处理视频进行语音识别，若语音识别成功，则将识别的语音数据转换为文本数据，得到语音识别文本，若语音识别失败，则退出视频贴纸处理。

本实施例通过人脸和语音识别模块21，依序对待处理视频的视频帧进行人脸识别，并在一视频帧人脸识别成功时得到对应视频帧的人脸位置数据，能够在用户录制待处理视频时即可对接收的视频帧进行人脸识别，且在得到人脸位置数据后无需对其余视频帧进行人脸识别，极大地缩短了待处理视频人脸识别的处理时间，从而提高视频贴纸处理效率。

作为示例性的，在得到语音识别文本后，由目标贴纸获取模块22对语音识别文本进行切词处理，得到文本词集合，并逐一将文本词集合中的文本词与贴纸库中每一贴纸的描述文本进行匹配，若所有匹配结果中有贴纸的描述文本与文本词相匹配，则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸，若所有匹配结果中均没有贴纸的描述文本与文本词相匹配，则退出视频贴纸处理。

作为示例性的，在得到语音识别文本后，由目标贴纸获取模块22对语音识别文本进行切词处理，得到文本词集合，并按照文本词文本长度从长到短的顺序，逐一将文本词集合中的文本词与贴纸库中每一贴纸的描述文本进行匹配，若当前匹配结果中有贴纸的描述文本与文本词相匹配，则从匹配的贴纸中随机筛选一个贴纸作为目标贴纸，若所有匹配结果中均没有贴纸的描述文本与文本词相匹配，则退出视频贴纸处理。

本实施例通过目标贴纸获取模块22，对语音识别文本进行切词处理，将得到的文本词与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸，能够有效增加贴纸匹配成功率，从而提高视频贴纸处理效率。

在本实施例的一优选实施方式中，在得到文本词集合后，可通过目标贴纸获取模块22向用户终端下发文本词集合，使得用户可通过用户终端确认文本词集合。

在本实施例的一优选实施方式中，在得到匹配贴纸后，可通过目标贴纸获取模块22向用户终端下发匹配贴纸，使得用户可通过用户终端确认匹配贴纸。

其中，下发匹配贴纸的数据结构可参考：{(文本词1：匹配贴纸1)，(文本词2，匹配贴纸2)，……}。在优选的实施例当中，所述目标贴纸添加模块23，还用于当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时，移除目标贴纸。

在优选的实施例当中，目标贴纸添加模块23，还用于当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时，移除目标贴纸。

本实施例通过目标贴纸添加模块23，当目标贴纸在默认位置或目标位置的出现时长达到预设阈值时移除目标贴纸，能够避免目标贴纸在默认位置或目标位置停留过长而遮挡视频内容。

如图4所示，在优选的实施例当中，所述视频贴纸处理装置，还包括语音识别文本添加模块24，用于在所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本之后，在目标视频帧的字幕位置添加语音识别文本。

本实施例通过语音识别文本添加模块24，在目标视频帧的字幕位置添加语音识别文本，能够根据语音识别文本自动确定字幕的添加位置，从而提高视频编辑处理效率。

综上所述，实施本发明的实施例，具有如下有益效果：

通过分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本，进而将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据语音识别文本获取目标视频帧，从而在目标视频帧的默认位置或根据人脸位置数据计算而获得的目标位置添加目标贴纸，完成视频贴纸处理。本发明的实施例通过对待处理视频进行人脸识别和语音识别，以当语音识别成功时，将语音识别文本与贴纸库中每一贴纸的描述文本进行匹配得到目标贴纸，并根据语音识别文本获取目标视频帧，当人脸识别失败时，根据针对目标贴纸而预先设置的默认位置，在目标视频帧的默认位置添加目标贴纸，当人脸识别成功时，根据人脸位置数据计算得到目标位置，在目标视频帧的目标位置添加目标贴纸。本发明的实施例能够根据待处理视频的人脸识别结果和语音识别结果自动确定目标贴纸及其添加位置，实现智能选择和摆放目标贴纸，提高视频贴纸处理效率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

Claims

1.一种视频贴纸处理方法，其特征在于，包括：

2.如权利要求1所述的视频贴纸处理方法，其特征在于，所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本，具体为：

3.如权利要求1所述的视频贴纸处理方法，其特征在于，所述将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据所述语音识别文本获取目标视频帧，具体为：

4.如权利要求1所述的视频贴纸处理方法，其特征在于，所述在所述目标视频帧的默认位置或目标位置添加所述目标贴纸，还包括：

5.如权利要求1所述的视频贴纸处理方法，其特征在于，在所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本之后，还包括：

在所述目标视频帧的字幕位置添加所述语音识别文本。

6.一种视频贴纸处理装置，其特征在于，包括：

7.如权利要求6所述的视频贴纸处理装置，其特征在于，所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本，具体为：

8.如权利要求6所述的视频贴纸处理装置，其特征在于，所述将所述语音识别文本与贴纸库中每一贴纸的描述文本进行匹配，得到目标贴纸，并根据所述语音识别文本获取目标视频帧，具体为：

9.如权利要求6所述的视频贴纸处理装置，其特征在于，所述目标贴纸添加模块，还用于当所述目标贴纸在所述默认位置或所述目标位置的出现时长达到预设阈值时，移除所述目标贴纸。

10.如权利要求6所述的视频贴纸处理装置，其特征在于，还包括语音识别文本添加模块，用于在所述分别对待处理视频进行人脸识别和语音识别，以在人脸识别成功时得到人脸位置数据，在语音识别成功时得到语音识别文本之后，在所述目标视频帧的字幕位置添加所述语音识别文本。