CN115022712B

CN115022712B - 视频处理方法、装置、设备以及存储介质

Info

Publication number: CN115022712B
Application number: CN202210553116.2A
Authority: CN
Inventors: 单文睿; 郑程; 王正宜; 奉伟; 孙卫亮; 郭永惠; 卜琴; 郭毅; 秦志伟; 张晶; 邱亚可; 赖欣; 范晋豪; 吴悦; 王博智; 郭志冠; 程宏愿; 王腾飞; 贾增义; 李鹏飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-12-29
Anticipated expiration: 2042-05-20
Also published as: CN118055291A; CN115022712A; CN118055292A

Abstract

本公开提供了一种视频处理方法、装置、设备以及存储介质。涉及人工智能领域，尤其涉及素材查找、素材推荐、视频剪辑、智能交互等领域。具体实现方案为：响应于接收到针对第一视频的素材推荐触发操作，上传该第一视频的字幕；接收服务器基于该第一视频的字幕返回的至少一个素材组；基于该至少一个素材组，确定目标素材组；将该目标素材组中的素材添加至该第一视频中，生成第二视频。根据本公开的技术方案，能自动为视频添加素材，提高视频剪辑效率。

Description

视频处理方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能领域，尤其涉及素材查找、素材推荐、视频剪辑、智能交互等领域。

背景技术

随着视频化浪潮的快速发展，一些新型的视频如口播类端视频应运而生。这类视频以真人面对镜头持续输出内容为主要特点。由于画面以人物说话为主，缺少变化，往往比较枯燥。为了解决这个问题，往往向这类视频中添加一些素材，通过对这类视频进行剪辑，使剪辑后的视频更加有趣。但是，手动添加素材慢，视频剪辑效率低。

发明内容

本公开提供了一种视频处理方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种视频处理方法，应用于终端，包括：

响应于接收到针对第一视频的素材推荐触发操作，上传该第一视频的字幕；

接收服务器基于该第一视频的字幕返回的至少一个素材组；

基于该至少一个素材组，确定目标素材组；

将该目标素材组中的素材添加至该第一视频中，生成第二视频。

根据本公开的第二方面，提供了一种视频处理方法，应用于服务器，包括：

接收第一视频的字幕，第一视频的字幕是终端在接收到针对第一视频的素材推荐触发操作的情况下上传的；

从第一视频的字幕中识别出第一视频的至少一个关键词；

基于该至少一个关键词，为第一视频确定至少一个素材组；

发送该至少一个素材组，该至少一个素材组用于指示可供第一视频添加的素材。

根据本公开的第三方面，提供了一种视频处理装置，应用于终端，包括：

第一发送模块，用于响应于接收到针对第一视频的素材推荐触发操作，上传该第一视频的字幕；

第一接收模块，用于接收服务器基于该第一视频的字幕返回的至少一个素材组；

第一确定模块，用于基于该至少一个素材组，确定目标素材组；

生成模块，用于将该目标素材组中的素材添加至该第一视频中，生成第二视频。

根据本公开的第四方面，提供了一种视频处理装置，应用于服务器，包括：

第二接收模块，用于接收第一视频的字幕，该第一视频的字幕是终端在接收到针对第一视频的素材推荐触发操作的情况下上传的；

第一识别模块，用于从该第一视频的字幕中识别出该第一视频的至少一个关键词；

第二确定模块，用于基于该至少一个关键词，为该第一视频确定至少一个素材组；

第二发送模块，用于发送该至少一个素材组，该至少一个素材组用于指示可供该第一视频添加的素材。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行上述第一方面和第二方面所提供的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行上述第一方面和第二方面所提供的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述第一方面和第二方面所提供的方法。

根据本公开的技术方案，能自动为视频添加素材，提高视频剪辑效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的视频处理方法的流程示意图一；

图2是根据本公开实施例的在视频图像中显示素材的示意图；

图3是根据本公开实施例的视频图像在添加素材前后的对比示意图；

图4是根据本公开实施例的视频处理方法的流程示意图二；

图5是根据本公开实施例的终端与服务器的交互流程示意图；

图6是根据本公开实施例的视频处理装置的结构示意图一；

图7是根据本公开实施例的视频处理装置的结构示意图二；

图8是根据本公开实施例的视频处理的场景示意图；

图9是用来实现本公开实施例的视频处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"和"第三"等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语"包括"和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，在以人物说话为主的视频如口播类视频中，为了使视频更加生动、有趣、有吸引性，可采用以下两种处理方式：一，添加综艺类的花字、贴纸，配合上音效，使视频更加有趣；二，增添解释性视频或图片，来改变画面内容。然而，一般需要用户自行进行搜索、筛选、下载、添加和调整等一系列流程，整个操作流程繁琐且耗时。另外，对于从事自媒体行业的新手用户而言，判断在什么时间点添加素材、添加什么样的素材十分困难。一些客户端虽能提供一些素材包，但是依然需要用户自行寻找视频中需要添加的素材，操作过程繁琐。一些客户端能提供可套用的视频模板，但是，这类视频模板大量同质化，对于需要每期内容不同的视频并不适用。

本公开实施例提供一种视频处理方法，该视频处理方法可以应用于终端，具体可应用于安装在该终端上的客户端，该客户端具有视频剪辑功能，支持视频导入、素材推荐、视频剪辑和视频生成等。实际应用中，该终端包括但不限于手机、平板电脑、穿戴设备或个人计算机等设备。如图1所示，该视频处理方法可包括：

S101：响应于接收到针对第一视频的素材推荐触发操作，上传该第一视频的字幕；

S102：接收服务器基于该第一视频的字幕返回的至少一个素材组；

S103：基于该至少一个素材组，确定目标素材组；

S104：将该目标素材组中的素材添加至该第一视频中，生成第二视频。

本公开实施例中，第一视频是待进行素材添加处理的视频。这里，第一视频可以是用户刚刚录制完毕的视频，也可以是新导入的用户之前录制的视频，还可以是本地存储的视频。

这里，客户端上可设置有素材推荐功能。在一些实施方式中，终端在接收到用户通过语音输入的触发素材推荐功能的指令时，确定接收到针对第一视频的素材推荐触发操作。在另一些实施方式中，终端检测到针对素材推荐触发按键的操作，确定接收到针对第一视频的素材推荐触发操作。在又一些实施方式中，终端在检测到第一视频的录制完成时间超出预设时间值时，自动触发启动素材推荐功能，确定接收到针对第一视频的素材推荐触发操作。本公开不对素材推荐触发操作的触发方式进行限定。

本公开实施例中，第一视频的字幕是与第一视频中音频对应的字幕。该字幕可以是由终端根据第一视频的音频识别得到的字幕，也可以是由服务器根据第一视频的音频识别得到的字幕。本公开不对具体如何根据第一视频的音频识别得到字幕进行限定，也不对具体由谁负责识别进行强制性限定。

本公开实施例中，不对素材组的个数进行限定。素材组的个数可根据用户需求进行设定或调整。示例性的，终端根据用户需求指示服务器返回一定数量的素材组，如返回3个素材组。如此，在服务器返回多个素材组的情况下，终端展示可供选择的多个素材组，不仅为第一视频提供了素材组的多样性，也丰富了剪辑的多种可能性。

本公开实施例中，目标素材组是用户指定的添加至第一视频中的素材组。在接收到多个素材组时，目标素材组可以是多个素材组中的一个素材组。在只接收到一个素材组时，目标素材组可以是该素材组，还可以是对该素材组中的素材进行增加或删减后得到的新的素材组。

在一些实施方式中，基于该至少一个素材组，确定目标素材组，包括：接收第一操作，该第一操作用于指示被选中的素材组；基于该第一操作从该至少一个素材组中确定出目标素材组。在另一些实施方式中，基于该至少一个素材组，确定目标素材组，包括：按照每个素材组的接收顺序或者推荐排序，从该至少一个素材组中确定出目标素材组。比如，将接收时间最早的素材组作为目标素材组。又比如，将推荐排名最靠前的素材组作为目标素材组。以上仅为示例性说明，不作为对确定目标素材组的全部可能的方式的限定，只是这里不做穷举。

本公开实施例中，第二视频是添加有素材的视频。第二视频相比于第一视频，展现形式更加多样，更生动，更有趣。

本公开实施例中，不对素材组中素材的类型进行限定。示例性的，按照有无文字分类，素材分为无文字类型素材和有文字类型素材。又例性的，按照有无音效分类，素材分为无音效类型素材和有音效类型素材。

本公开实施例的技术方案，终端响应于接收到针对第一视频的素材推荐触发操作，上传该第一视频的字幕；接收服务器基于该第一视频的字幕返回的至少一个素材组；基于该至少一个素材组，确定目标素材组；将该目标素材组中的素材添加至该第一视频中，生成第二视频。相对于向服务器发送第一视频而言，终端向服务器发送的是第一视频的字幕，所需传出的数据量减少，提高了传输速度，便于服务器基于第一视频的字幕为第一视频快速筛选出与第一视频相适应的素材组，进而使终端快速获取到素材组，从而有助于提高视频剪辑效率。另外，相对于由服务器侧剪辑第一视频而言，由终端根据至少一个素材组确定目标素材组，不仅减轻了服务器的负荷，还增强了终端剪辑视频的自主性，使终端能自动为视频添加素材，提高了视频剪辑效率。

在一些实施例中，在S101之前，该视频处理方法还可包括：在接收到第一视频的情况下，向服务器上传第一视频的音频；接收服务器基于第一视频的音频返回的第一视频的字幕；保存第一视频的字幕。

这里，本公开不对如何从第一视频中获取音频进行限定。比如，终端自带音频和图像分离功能，在接收到第一视频后，利用该功能得到第一视频的音频。又比如，终端通过音频提取技术从第一视频中提取音频。

这里，本公开不对第一视频的字幕的存储位置进行限定。

这里，第一视频的字幕，既能作为向服务器请求素材组的依据，又能作为生成的第二视频的字幕。

如此，在导入第一视频后，先将第一视频的音频上传至服务器，能充分利用服务器强大的计算资源，快速识别得到第一视频的字幕，从而为后续向终端请求素材组提前做准备。相对于向服务器上传第一视频来获取字幕的处理方式而言，提高了字幕的获取速度，也为后续向服务器请求素材组提供字幕依据，便于快速从服务器处获得素材组，从而有助于提高视频的剪辑效率。

在一些实施例中，将目标素材组中的素材添加至第一视频中，包括：确定目标素材组中每个素材在第一视频的出现时间；在第一视频的时间轴上的相应出现时间，添加与相应出现时间对应的素材。

在一些实施方式中，确定目标素材组中每个素材在第一视频的出现时间，包括：根据目标素材组中素材与关键词的对应关系，从第一视频的字幕中查找目标素材组包括的关键词，将该关键词在第一视频中的出现时间作为与该关键词对应的素材的出现时间。

示例性的，素材组包括m个素材，分别记为m1、m2、…、mm；素材m1与关键词c1对应，素材m2与关键词c2对应，…，素材mm与关键词cm对应；若关键词c1对应的时间为t1，关键词c2对应的时间为t2，…，关键词cm对应的时间为tm，则素材m1对应的时间为t1，素材m2对应的时间为t2，…，素材mm对应的时间为tm。

如此，能够自动匹配素材在第一视频中的出现时间，提高了视频剪辑的智能性。

在一些实施例中，将目标素材组中的素材添加至第一视频中，生成第二视频，包括：确定目标素材组中每个素材的显示信息；基于每个素材的显示信息，将每个素材添加至第一视频中的图像中。

其中，显示信息包括但不限于：显示位置、显示角度和显示大小。

这里，显示位置是素材在视频图像或画面中的位置，包括显示坐标。

这里，显示角度是素材在视频图像或画面中，相对于水平线或竖直线的角度。这里的水平线和竖直线可以是相对于终端显示屏而言的。

这里，显示大小是素材在视频图像或画面中的大小。

图2示出了在视频图像中显示素材的示意图，如图2所示，在当前视频图像中，在主播提到“我们应该为孩子准备一套整墙式的大书架”时，在主播后面显示有图片类素材，如以书架为背景的背景墙，同时，在主播前面显示文字类素材，如“整墙！”和“大书架”。从图2可以看出，“整墙！”的显示角度略微倾斜，与水平线有一定的角度，使整个图像画面更加灵动。“大书架”的显示角度与水平线平行，“整墙！”与“大书架”的字体大小不同，背景墙覆盖整个画面的背景，使整个图像画面的内容更加丰富，表现形式更加多样。

如此，通过调整每个素材的显示位置、显示大小和显示角度等显示信息，能够扩展素材的显示形式，提高素材的烘托作用。

在一些实施例中，将目标素材组中的素材添加至第一视频中，生成第二视频，包括：在目标素材组中存在第一素材的情况下，按照预设音量比确定第一素材的音量；将第一素材的音量添加至第一视频中的音频中。

其中，预设音量比等于素材音量与视频音量之间的比值。

这里，第一素材是音效类素材，如风声、雨声、海啸声、鸟叫声等。

这里，不同第一素材对应的预设音量比可以不同。该预设音量比可根据第一素材的内容属性而确定。比如，内容属性为海啸的预设音量比，可大于内容属性为鸟叫的预设音量比。又比如，内容属性为雨声的预设音量比，可小于内容属性为风声的预设音量比。

一般来说，在音效素材原始音量较大时，为了使音效不过于突出，可设置一定的音量比例。

如此，能使素材的音量与第一视频的音量相适应，在不影响第一视频的音量的情况下，让素材发挥更好的烘托作用。

在一些实施例中，将目标素材组中的素材添加至第一视频中，生成第二视频，包括：在目标素材组中存在第二素材的情况下，识别第二素材对应的第一视频中的目标图像，将第二素材添加至目标图像中对应的预设位置处。

这里，第二素材是用于修饰目标图像中目标对象的素材。目标对象包括但不限于人、动物、植物等。

这里，第二素材主要包括装饰性或修饰性素材。示例性的，第二素材是与视频主播相关的素材。比如，第二素材包括但不限于腮红、红眼、眼影、红唇、酒窝等素材。又比如，第二素材包括但不限于手镯、戒指、项链、服装等素材。

以第二素材为腮红为例，目标图像为当前视频图像，预设位置为当前视频图像中主播的两腮所在位置。

以第二素材为红眼为例，目标图像为当前视频图像，预设位置为当前视频图像中主播的两眼所在位置。

以第二素材为戒指为例，目标图像为当前视频图像，预设位置为当前视频图像中主播的无名指所在位置。

本公开实施例不对如何识别目标图像中的目标对象的预设位置进行限定。比如，可通过人脸识别技术识别出五官所在位置。又比如，通过人手检测技术识别出人手所在位置。

如此，通过在目标图像中对应的预设位置处添加第二素材，使第二素材添加在指定位置，不仅能丰富视频图像的多样性，还能节省用户手动调整图像如修图的时间成本。

图3示出了视频图像在添加素材前后的对比示意图。如图3左图所示，图像中的主播说出“首先我们可以打开提词器”，该图像中并没有任何素材。为图3左图所示的图像添加素材后，添加效果如图3右图所示，具体的，图像中的主播说出“首先我们可以打开提词器”，该图像中出现有2个素材，包括：“首先”和“尝试一下”。显然，添加素材后的显示效果明显优于添加素材前的显示效果。

本公开实施例提供一种视频处理方法，该视频处理方法可以应用于服务器，该服务器具有素材推荐功能，支持素材查找、素材筛选、素材组生成等。实际应用中，该服务器包括但不限于普通服务器、云服务器等。如图4所示，该视频处理方法可包括：

S401：接收第一视频的字幕，第一视频的字幕是终端在接收到针对第一视频的素材推荐触发操作的情况下上传的；

S402：从第一视频的字幕中识别出第一视频的至少一个关键词；

S403：基于至少一个关键词，为第一视频确定至少一个素材组；

S404：发送该至少一个素材组，该至少一个素材组用于指示可供第一视频添加的素材。

本公开实施例中，素材组中包括至少一个素材。本公开不对素材组中包括的素材的个数进行限定。素材组中素材个数的多少，一般取决于从字幕中识别出的关键词的多少。以一个素材组为例，若为每个关键词分配一个素材，则素材组中素材的个数，可等于字幕中关键词的个数。若为部分关键词分配多个素材，则素材组中素材的个数，将大于字幕中关键词的个数。

本公开实施例中，素材组中的素材，是与关键词所表征的信息相匹配的。比如，当关键词为沙滩时，为沙滩匹配出的素材均为与沙滩相关的素材，如沙滩图片。又比如，当关键词为书架时，为书架匹配出的素材均为与书架相关的素材，如“书架”两个字、书架图片等。

本公开实施例不对素材的来源进行限定。比如，素材可来源于素材数据库，也可来源于终端主动上传的素材，还可来源于从第三方如网站获取的素材。

如此，服务器能基于第一视频的字幕为第一视频快速筛选出与第一视频相适应的素材组，进而能使终端快速获取到至少一个素材组，由服务器为终端提供素材组，不仅增加了终端侧剪辑视频的自主性，还有助于提高终端侧的视频剪辑效率。另外，相对于由服务器剪辑第一视频而言，减轻了服务器的负荷，使服务器在同一时间能为更多的终端提供素材推荐服务。

在一些实施例中，该视频处理方法还可包括：在接收到第一视频的音频的情况下，识别第一视频的音频，得到第一视频的字幕；发送第一视频的字幕。这里，第一视频的音频可以是终端在接收到第一视频的情况下上传的。比如，在终端导入第一视频后，立即向服务器上传第一视频的音频。

在一些实施方式中，识别第一视频的音频，得到第一视频的字幕，包括：服务器利用音频识别技术，将音频转换为文字；基于文字生成字幕。在另一些实施方式中，识别第一视频的音频，得到第一视频的字幕，包括：通过音频转换器，将音频转为文字；基于文字生成字幕。本公开不对具体如何根据音频识别得到字幕进行限定。

如此，利用服务器强大的计算资源，能为终端快速提供字幕，节省由终端生成字幕所耗费的时间，能提升终端侧获取字幕的速度。

在一些实施例中，从第一视频的字幕中识别出第一视频的至少一个关键词，包括：将第一视频的字幕进行拆分，得到第一视频的多个第一目标词；在预设词表库中查找第一视频的多个第一目标词；将能在预设词表库查找到的至少一个第一目标词，作为第一视频的至少一个关键词。

这里，第一目标词是将字幕拆分后的词。示例性的，将字幕“请打开百度地图”拆分成的第一目标词包括：“请”、“打开”、“百度地图”。

这里，预设词表库存储有大量的词。

这里，预设词表库中的词的来源包括但不限于：(1)词典，比如通用辞典及百度百科提供的常用词条；(2)数字词、祝福语等标志性词语，如十三亿、大吉大利等；(3)自建情绪词：通过自媒体视频取样、团队内部评估等方式确定的一批互动词、章节词，如关注我、第一等。

需要说明的是，预设词表库中的词，可进行增加或删减。比如，在自建情绪词中增加新的词语。又比如，删减部分过时的祝福语。

如此，基于预设词表库确定字幕中的关键词，能够提高关键词的确定速度，从而有助于为第一视频快速生成素材组。

在一些实施例中，从第一视频的字幕中识别出第一视频的至少一个关键词，包括：通过语义识别算法提取第一视频的字幕中的多个第二目标词；将多个第二目标词中的至少两个第二目标词进行组合，得到至少一个组合词；将至少一个组合词，作为第一视频的至少一个关键词。

这里，第二目标词是根据语义识别算法识别出的词。示例性的，第二目标词是具有一定信息含量的词，如百度百科、生日、快乐、第一等。

这里，组合词是指由至少两个第二目标词组合成的词。示例性的，“生日”、“快乐”组合成为一个组合词“生日快乐”。又示例性的，“第一”、“搜索目的”组合成为一个组合词“第一，搜索目的”。再示例性的，“第二”、“搜索结果”组合成为一个组合词“第二，搜索结果”。如此，通过组合关键词，形成更为复杂的关键词，更适用于结构清晰的章节标题中。

如此，通过组合关键词，使确定出的关键词更符合语义和语境，提高了所选关键词的合理性，从而有助于提升素材组的适配性。

在一些实施例中，基于至少一个关键词，为第一视频确定至少一个素材组，包括：从素材数据库中为至少一个关键词中的每个关键词召回至少一种素材类型的多个素材；从每个关键词对应的至少一种素材类型的多个素材中，为每个关键词确定目标数量的素材；根据每个关键词对应的目标数量的素材，为第一视频确定至少一个素材组。

这里，素材数据库中存储有大量素材。本公开不对素材数据库的具体数量进行限定。实际应用中，可以将不同类型的素材，存储到一个素材数据库中。实际应用中，也可以将不同类型的素材存储在不同的素材数据库，每个素材数据库用于存储一种类型的素材，比如，素材数据库1用于存储文字类型的素材，素材数据库2用于存储贴纸类型的素材，素材数据库3用于存储声音类型的素材，素材数据库4用于存储动画类型的素材。

这里，目标数量可以用由终端侧指定，也可由服务器侧确定。比如，目标数量＝5，即为每个关键词选取5个素材。

如此，能够为第一视频提供多个素材组，从而有助于为终端侧提供丰富的素材支撑，也能为终端侧进行不同风格的视频剪辑提供支撑。

在一些实施例中，从每个关键词对应的至少一种素材类型的多个素材中，为每个关键词确定目标数量的素材，包括：分别对每个关键词的同一类型的多个素材进行优先级排序；根据每个关键词的同一类型的多个素材的优先级排序情况，为每个关键词选取不同类型的待推荐素材；根据每个关键词的不同类型的待推荐素材，为每个关键词确定目标数量的素材。

这里，为每个关键词选取不同类型的待推荐素材可包括：为每个关键词选取优先级排名靠前且满足期望数量的素材作为待推荐的素材。

需要说明的是，不同类型的素材对应的期望数量可以不同。

举例来说，从第一视频的字幕中识别出关键词1、关键词2和关键词3；为关键词1选择第一类型的素材S11、S12；为关键词1选择第二类型的素材S21；为关键词1选择第三类型的素材S31；同理，为关键词2选择第一类型的素材S13；为关键词2选择第二类型的素材S22；为关键词2选择第三类型的素材S32；为关键词3选择第一类型的素材S14、S15、S16；为关键词3选择第二类型的素材S23；为关键词3选择第三类型的素材S33；那么，可生成素材组1＝{S11、S13、S14}，素材组2＝{S12、S13、S15}，素材组3＝{S21、S22、S33}，素材组4＝{S31、S22、S33}等多个素材组，在此不再一一列举。

如此，能根据每个关键词的不同类型对应的待推荐的素材，确定出每个关键词的目标数量的素材，提高了可生成的素材组的多样性，进而能满足终端侧频繁变换素材内容和形式的需求。

在一些实施例中，生成素材组后，还可包括：在素材组中存在两个或两个以上相同关键词的情况下，对相同关键词所对应的素材进行去重处理。

举例来说，素材组包括关键词1的素材、关键词2的素材、关键词3的素材和关键词4的素材，若关键词1和关键词3为相同的关键词，则对关键词1的素材和关键词3的素材进行去重处理，保留关键词1的素材或关键词3的素材。需要说明的是，关键词1和关键词3为相同关键词，但关键词1的素材和关键词2的素材可以相同，也可以不同。

如此，将同一视频下相同关键词的素材进行去重，能减少同一视频出现大量重复素材的情况，能提升素材的烘托效果。

在一些实施例中，生成素材组后，还可包括：在素材组中存在目标类型的多个素材的情况下，对该目标类型的多个素材进行推荐频次去重处理。

这里，目标类型可以包括素材类型的一种或多种。比如，目标类型可以是起烘托氛围作用的素材。如撒花、动画飞入飞出。

这里，频次去重处理，包括：若在预设时间段内有目标类型的多个素材，则保留该预设时间段内的一个素材，如保留第一个素材。

这里，预设时间段可根据烘托效果进行设定或调整。如预设时间段可以设置为1秒或10秒等。

如此，通过对推荐密度去重，能提升素材的烘托效果。

图5示出了终端与服务器的交互示意图，如图5所示，该交互流程包括：终端客户端导入视频，将视频的音频上传至服务器；服务器针对音频进行字幕识别，将识别出的字幕返回给终端客户端。在终端客户端接收到素材推荐功能的触发操作时，将字幕上传给服务器，以由服务器根据字幕提取关键词，筛选关键词、召回素材、对素材进行优先级排序，密度过滤等处理，得到多个素材组。服务器向终端客户端返回推荐的素材组，最后，终端客户端根据素材类型策略添加素材组中的素材。

如此，缩短了繁琐的素材添加流程，提升了视频剪辑效率；降低了视频制作的门槛，使新手用户也能轻松制作有趣的视频；能够主动发掘被用户忽视的趣味点，创造出更多的可能性，进而提升产品热度。

应理解，图5所示的交互示意图仅仅是示例性而不是限制性的，并且其是可扩展的，本领域技术人员可以基于图5的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种视频处理装置，该视频处理装置应用于终端，如图6所示，该视频处理装置可以包括：第一发送模块601，用于响应于接收到针对第一视频的素材推荐触发操作，上传所述第一视频的字幕；第一接收模块602，用于接收服务器基于所述第一视频的字幕返回的至少一个素材组；第一确定模块603，用于基于所述至少一个素材组，确定目标素材组；生成模块604，用于将所述目标素材组中的素材添加至所述第一视频中，生成第二视频。

在一些实施例中，该第一发送模块601，还用于在接收到第一视频的情况下，向服务器上传第一视频的音频；该第一接收模块602，还用于接收服务器基于第一视频的音频返回的第一视频的字幕。

在一些实施例中，该视频处理装置还可以包括：保存模块605(图中未示出)，用于保存第一视频的字幕。

在一些实施例中，该生成模块604，包括：第一确定子模块，用于确定目标素材组中每个素材在第一视频的出现时间；第一添加子模块，用于在第一视频的时间轴上的对应出现时间，添加与出现时间对应的素材。

在一些实施例中，该生成模块604，包括：第二确定子模块，用于确定目标素材组中每个素材的显示信息；第二添加子模块，用于基于目标素材组中每个素材的显示信息，将目标素材组中每个素材添加至第一视频的图像中。

在一些实施例中，该生成模块604，包括：第三确定子模块，用于在目标素材组中存在第一素材的情况下，按照预设音量比确定第一素材的音量；第三添加子模块，用于将第一素材的音量添加至第一视频的音频中。

在一些实施例中，该生成模块604，包括：第一识别子模块，用于在目标素材组中存在第二素材的情况下，识别第二素材对应的第一视频中的目标图像；第四添加子模块，用于将第二素材添加至目标图像的预设位置处。

本领域技术人员应当理解，本公开实施例的视频处理装置中各处理模块的功能，可参照前述的应用于终端的视频处理方法的相关描述而理解，本公开实施例的视频处理装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的视频处理装置，能自动为视频添加素材，提高视频剪辑效率。

本公开实施例提供了一种视频处理装置，该视频处理装置应用于服务器，如图7所示，该视频处理装置可以包括：第二接收模块701，用于接收第一视频的字幕，第一视频的字幕是终端在接收到针对第一视频的素材推荐触发操作的情况下上传的；第一识别模块702，用于从第一视频的字幕中识别出第一视频的至少一个关键词；第二确定模块703，用于基于至少一个关键词，为第一视频确定至少一个素材组；第二发送模块704，用于发送至少一个素材组，该至少一个素材组用于指示可供第一视频添加的素材。

在一些实施例中，该第二接收模块701，还用于接收第一视频的音频，第一视频的音频是终端在接收到第一视频的情况下上传的。

在一些实施例中，该视频处理装置还包括：第二识别模块705(图中未示出)，用于识别第一视频的音频，得到第一视频的字幕。相应的，该第二发送模块704，还用于发送第一视频的字幕。

在一些实施例中，该第一识别模块702，包括：拆分子模块，用于将第一视频的字幕进行拆分，得到第一视频的多个第一目标词；第二识别子模块，用于将能在预设词表库查找到的至少一个第一目标词，作为第一视频的至少一个关键词。

在一些实施例中，该第一识别模块702，包括：提取子模块，用于通过语义识别算法提取第一视频的字幕中的多个第二目标词；组合子模块，用于将多个第二目标词中的至少两个第二目标词组合，得到至少一个组合词；第三识别子模块，用于将至少一个组合词，作为第一视频的至少一个关键词。

在一些实施例中，该第二确定模块703，包括：召回子模块，用于从素材数据库中为至少一个关键词中每个关键词召回至少一种类型的多个素材；第四确定子模块，用于基于每个关键词对应的至少一种类型的多个素材，为每个关键词确定目标数量的素材；第五确定子模块，用于根据每个关键词对应的目标数量的素材，为第一视频确定至少一个素材组。

在一些实施例中，该第四确定子模块，用于：分别对每个关键词的同一类型的多个素材进行优先级排序；根据每个关键词的同一类型的多个素材的优先级排序情况，为每个关键词选取不同类型的待推荐素材；根据每个关键词的不同类型的待推荐素材，为每个关键词确定目标数量的素材。

在一些实施例中，该视频处理装置还可以包括：第一去重模块706(图中未示出)，用于在一个素材组中包括多个相同关键词的情况下，对多个相同关键词所对应的素材，进行去重处理。

在一些实施例中，该视频处理装置还可以包括：第二去重模块707(图中未示出)，用于在一个素材组中包括目标类型的多个素材的情况下，对该目标类型的多个素材进行去重处理。

本领域技术人员应当理解，本公开实施例的视频处理装置中各处理模块的功能，可参照前述的应用于服务器的视频处理方法的相关描述而理解，本公开实施例的视频处理装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的视频处理装置，能基于第一视频的字幕为第一视频快速筛选出与第一视频相适应的素材组，进而使终端快速获取到至少一个素材组，由服务器为终端提供素材组，不仅能增加终端侧剪辑视频的自主性，还能有助于提高终端侧的视频剪辑效率。

图8示出了视频处理的场景示意图，从图8可以看出，电子设备如云服务器接收到来自各终端上传的音频后，为各音频生成并返回对应的字幕。电子设备接收到来自各终端上传的字幕后，基于预设词表库识别字幕，得到关键词；基于关键词从素材数据库中召回素材，生成素材组，并向终端返回对应的素材组，进而由终端基于素材组对视频进行剪辑，生成添加有素材的视频。

下面列举几个视频剪辑场景。比如，用户录制好一个口播视频后，导入终端上的剪辑客户端，由剪辑客户端自动将该口播视频剪辑成添加有素材的视频。又比如，用户通过终端上的剪辑客户端录制完视频后，触发素材推荐功能，从服务器返回的多个素材组中选择一个作为目标素材组，由剪辑客户端基于该目标素材组生成新的视频。

应理解，图8所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图8的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(Read-OnlyMemory，ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RandomAccess Memory，RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output，I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如视频处理方法。例如，在一些实施例中，视频处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的视频处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、负载可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频处理方法，应用于终端，包括：

获取第一视频，所述第一视频是录制完成的视频或本地存储的视频；

基于所述第一视频来获取所述第一视频的音频；

向服务器上传所述第一视频的所述音频；

从所述服务器接收与所述第一视频的所述音频相对应的所述第一视频的字幕；

响应于接收到针对所述第一视频的素材推荐触发操作，上传所述第一视频的所述字幕；

接收所述服务器基于所述字幕返回的至少一个素材组，其中，每个素材组中包括多个素材，且所述多个素材基于从所述字幕中识别出的多个关键词而确定；

基于所述至少一个素材组，确定目标素材组；

根据所述目标素材组中的所述多个素材与所述多个关键词的对应关系，将所述多个关键词分别对应的在所述第一视频中的出现时间作为与所述多个关键词分别对应的素材在所述第一视频中的出现时间，将所述目标素材组中的所述多个素材添加至所述第一视频中，生成第二视频，

其中将所述目标素材组中的所述多个素材添加至所述第一视频中，包括：

确定与所述多个素材相对应的多个显示信息，所述多个显示信息中的显示信息包括显示位置、显示角度和显示大小，其中所述显示位置是素材在所述第一视频的图像中的显示坐标，所述显示角度是素材在所述第一视频的图像中相对于水平线或竖直线的角度，所述显示大小是素材在所述第一视频的图像中的大小；以及

基于所述多个显示信息，将所述多个素材添加至所述第一视频的图像中。

2.根据权利要求1所述的方法，其中，所述多个关键词包括至少一个组合词，所述组合词基于所述字幕中多个第二目标词中的至少两个第二目标词进行组合而得到，其中，所述第二目标词通过语义识别算法从所述字幕中提取。

3.根据权利要求1所述的方法，其中，所述将所述目标素材组中的所述多个素材添加至所述第一视频中，包括：

确定所述目标素材组中每个素材在所述第一视频的出现时间；

在所述第一视频的时间轴上的对应所述出现时间，添加与所述出现时间对应的素材。

4.根据权利要求1所述的方法，其中，所述将所述目标素材组中的所述多个素材添加至所述第一视频中，包括：

在所述目标素材组中存在第一素材的情况下，按照预设音量比确定所述第一素材的音量；

将所述第一素材的音量添加至所述第一视频的音频中。

5.根据权利要求1所述的方法，其中，所述将所述目标素材组中的所述多个素材添加至所述第一视频中，包括：

在所述目标素材组中存在第二素材的情况下，识别所述第二素材对应的所述第一视频中的目标图像，将所述第二素材添加至所述目标图像的预设位置处。

6.一种视频处理方法，应用于服务器，包括：

从终端接收音频，所述音频与第一视频相关联，所述第一视频是录制完成的视频或本地存储的视频；

基于所述音频来生成与所述音频相对应的字幕；

向所述终端发送所述字幕；

从所述终端接收所述第一视频的所述字幕，所述字幕是终端在接收到针对第一视频的素材推荐触发操作的情况下上传的；

从所述字幕中识别出多个关键词；

基于所述多个关键词，为所述第一视频确定至少一个素材组；

发送所述至少一个素材组，所述至少一个素材组用于指示可供所述第一视频添加的素材，其中：

所述至少一个素材组用于由终端基于所述至少一个素材组，确定目标素材组；

所述目标素材组用于由终端根据所述目标素材组中的所述多个素材与所述多个关键词的对应关系，将所述多个关键词分别对应的在所述第一视频中的出现时间作为与所述多个关键词分别对应的素材在所述第一视频中的出现时间；并且

所述目标素材组中的所述多个素材用于由终端确定与所述多个素材相对应的多个显示信息，所述多个显示信息中的显示信息包括显示位置、显示角度和显示大小，其中所述显示位置是素材在所述第一视频的图像中的显示坐标，所述显示角度是素材在所述第一视频的图像中相对于水平线或竖直线的角度，所述显示大小是素材在所述第一视频的图像中的大小，以及由终端基于所述多个显示信息，将所述多个素材添加至所述第一视频的图像中，生成第二视频。

7.根据权利要求6所述的方法，其中，所述从所述字幕中识别出多个关键词，包括：

将所述第一视频的字幕进行拆分，得到所述第一视频的多个第一目标词；

将能在预设词表库查找到的至少一个第一目标词，作为所述第一视频的至少一个关键词。

8.根据权利要求7所述的方法，其中，所述从所述字幕中识别出多个关键词，包括：

通过语义识别算法提取所述字幕中的多个第二目标词；

将所述多个第二目标词中的至少两个第二目标词组合，得到至少一个组合词；

将所述至少一个组合词，作为所述多个关键词中的至少一个关键词。

9.根据权利要求6所述的方法，其中，所述基于所述多个关键词，为所述第一视频确定至少一个素材组，包括：

从素材数据库中为所述多个关键词中每个关键词召回至少一种类型的多个素材；

基于每个关键词对应的所述至少一种类型的多个素材，为每个关键词确定目标数量的素材；

根据每个关键词对应的所述目标数量的素材，为所述第一视频确定至少一个素材组。

10.根据权利要求9所述的方法，其中，所述基于每个关键词对应的所述至少一种类型的多个素材，为每个关键词确定目标数量的素材，包括：

分别对每个关键词的同一类型的多个素材进行优先级排序；

根据每个关键词的同一类型的多个素材的优先级排序情况，为每个关键词选取不同类型的待推荐素材；

根据每个关键词的不同类型的待推荐素材，为每个关键词确定目标数量的素材。

11.根据权利要求6所述的方法，还包括：

在一个素材组中包括多个相同关键词的情况下，对所述多个相同关键词所对应的素材，进行去重处理。

12.根据权利要求6所述的方法，还包括：

在一个素材组中包括目标类型的多个素材的情况下，对所述目标类型的所述多个素材进行去重处理。

13.一种视频处理装置，应用于终端，包括：

第一获取模块，用于获取第一视频，所述第一视频是录制完成的视频或本地存储的视频；

第二获取模块，用于基于所述第一视频来获取所述第一视频的音频；

第一上传模块，用于向服务器上传所述第一视频的所述音频；

第三获取模块，从所述服务器接收与所述第一视频的所述音频相对应的所述第一视频的字幕；

第一发送模块，用于响应于接收到针对第一视频的素材推荐触发操作，上传所述第一视频的字幕；

第一接收模块，用于接收服务器基于所述第一视频的字幕返回的至少一个素材组，其中，每个素材组中包括多个素材，且所述多个素材基于从所述字幕中识别出的多个关键词而确定；

第一确定模块，用于基于所述至少一个素材组，确定目标素材组；

生成模块，用于根据所述目标素材组中的所述多个素材与所述多个关键词的对应关系，将所述多个关键词分别对应的在所述第一视频中的出现时间作为与所述多个关键词分别对应的素材在所述第一视频中的出现时间，将所述目标素材组中的所述多个素材添加至所述第一视频中，生成第二视频，

其中所述生成模块包括：

第二确定子模块，用于确定与所述多个素材相对应的多个显示信息，所述多个显示信息中的显示信息包括显示位置、显示角度和显示大小，其中，所述显示位置是素材在所述第一视频的图像中的显示坐标，所述显示角度是素材在所述第一视频的图像中相对于水平线或竖直线的角度，所述显示大小是素材在所述第一视频的图像中的大小；以及

第二添加子模块，用于基于所述多个显示信息，将所述多个素材添加至所述第一视频的图像中。

14.根据权利要求13所述的装置，其中，所述多个关键词包括至少一个组合词，所述组合词基于所述字幕中多个第二目标词中的至少两个第二目标词进行组合而得到，其中，所述第二目标词通过语义识别算法从所述字幕中提取。

15.根据权利要求13所述的装置，其中，所述生成模块，包括：

第一确定子模块，用于确定所述目标素材组中每个素材在所述第一视频的出现时间；

第一添加子模块，用于在所述第一视频的时间轴上的对应所述出现时间，添加与所述出现时间对应的素材。

16.根据权利要求13所述的装置，其中，所述生成模块，包括：

第三确定子模块，用于在所述目标素材组中存在第一素材的情况下，按照预设音量比确定所述第一素材的音量；

第三添加子模块，用于将所述第一素材的音量添加至所述第一视频的音频中。

17.根据权利要求13所述的装置，其中，所述生成模块，包括：

第一识别子模块，用于在所述目标素材组中存在第二素材的情况下，识别所述第二素材对应的所述第一视频中的目标图像；

第四添加子模块，用于将所述第二素材添加至所述目标图像的预设位置处。

18.一种视频处理装置，应用于服务器，包括：

第一接收模块，用于从终端接收音频，所述音频与第一视频相关联，所述第一视频是录制完成的视频或本地存储的视频；

第二识别模块，用于基于所述音频来生成与所述音频相对应的字幕；

第一发送模块，用于向所述终端发送所述字幕；

第二接收模块，用于从所述终端接收所述第一视频的所述字幕，所述字幕是所述终端在接收到针对第一视频的素材推荐触发操作的情况下上传的；

第一识别模块，用于从所述字幕中识别出多个关键词；

第二确定模块，用于基于所述多个关键词，为所述第一视频确定至少一个素材组，每个素材组中包括多个素材，且所述多个素材基于所述多个关键词而确定；

第二发送模块，用于发送所述至少一个素材组，所述至少一个素材组用于指示可供所述第一视频添加的素材，其中：

19.根据权利要求18所述的装置，其中，所述第一识别模块，包括：

拆分子模块，用于将所述字幕进行拆分，得到所述第一视频的多个第一目标词；

第二识别子模块，用于将能在预设词表库查找到的多个第一目标词，作为所述第一视频的多个关键词。

20.根据权利要求18所述的装置，其中，所述第一识别模块，包括：

提取子模块，用于通过语义识别算法提取所述字幕中的多个第二目标词；

组合子模块，用于将所述多个第二目标词中的至少两个第二目标词组合，得到至少一个组合词；

第三识别子模块，用于将所述至少一个组合词，作为所述多个关键词中的至少一个关键词。

21.根据权利要求18所述的装置，其中，所述第二确定模块，包括：

召回子模块，用于从素材数据库中为所述多个关键词中每个关键词召回至少一种类型的多个素材；

第四确定子模块，用于基于每个关键词对应的所述至少一种类型的多个素材，为每个关键词确定目标数量的素材；

第五确定子模块，用于根据每个关键词对应的所述目标数量的素材，为所述第一视频确定至少一个素材组。

22.根据权利要求21所述的装置，其中，所述第四确定子模块，用于：

分别对每个关键词的同一类型的多个素材进行优先级排序；

23.根据权利要求18所述的装置，还包括：

第一去重模块，用于在一个素材组中包括多个同一关键词的情况下，对所述多个同一关键词所对应的素材，进行去重处理。

24.根据权利要求18所述的装置，还包括：

第二去重模块，用于在一个素材组中包括目标类型的多个素材的情况下，对所述目标类型的所述多个素材进行去重处理。

25. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。