CN113268635A

CN113268635A - 视频处理方法、装置、服务器及计算机可读存储介质

Info

Publication number: CN113268635A
Application number: CN202110545074.3A
Authority: CN
Inventors: 刘旭东; 张梦馨; 梅晓茸; 李�杰; 漆跃昕; 高帆
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-17
Anticipated expiration: 2041-05-19
Also published as: CN113268635B

Abstract

本公开关于一种视频处理方法、装置、服务器及计算机可读存储介质，属于多媒体处理技术领域。本公开中，通过从视频对应的文本数据中识别出用于对物品的相关信息进行介绍的第一文本片段，进而自动从视频中拆解出目标第一文本片段对应的目标视频片段，由于目标第一文本片段都是用来对相同物品的相关信息进行介绍的，因而这些目标视频片段也是对相同物品的相关信息进行介绍的，从而基于这些目标视频片段，自动生成对某个物品的相关信息进行介绍的目标视频，无需手动生成视频，提高了生成视频的效率。

Description

视频处理方法、装置、服务器及计算机可读存储介质

技术领域

本公开涉及多媒体处理技术领域，尤其涉及一种视频处理方法、装置、服务器及计算机可读存储介质。

背景技术

随着移动互联网的飞速发展，视频播放类应用程序中的视频资源也越来越丰富。为了在视频播放类应用程序中持续发布视频，视频发布者需要不断的提供新的视频素材，而这些视频素材，需要视频发布者自行拍摄才能得到，耗费时间较长，从而导致生成视频的效率较低。

发明内容

本公开提供一种视频处理方法、装置、服务器及计算机可读存储介质，以提高生成视频的效率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，该方法包括：

获取视频对应的文本数据；

从该文本数据中确定多个第一文本片段，该第一文本片段用于对物品的相关信息进行介绍；

基于该多个第一文本片段，从该视频中确定目标第一文本片段对应的多个目标视频片段，该目标第一文本片段用于对相同物品的相关信息进行介绍；

基于该多个目标视频片段，生成目标视频。

本公开实施例中，通过从视频对应的文本数据中识别出用于对物品的相关信息进行介绍的第一文本片段，进而自动从视频中拆解出目标第一文本片段对应的目标视频片段，由于目标第一文本片段都是用来对相同物品的相关信息进行介绍的，因而这些目标视频片段也是对相同物品的相关信息进行介绍的，从而基于这些目标视频片段，自动生成对某个物品的相关信息进行介绍的目标视频，无需手动生成视频，提高了生成视频的效率。

在一些实施例中，该从该文本数据中确定多个第一文本片段，包括：

将该文本数据输入文本识别模型，通过该文本识别模型，输出该第一文本片段的时间戳。

本公开实施例中，通过文本识别模型来对文本数据进行识别，从而直接能够直接从文本数据中，确定出对物品的相关信息进行介绍的第一文本片段的时间戳，无需视频发布者手动操作，提高第一文本片段的确定效率，而且，通过模型来进行第一文本片段的确定，能够提高确定出的第一文本片段的准确性。

在一些实施例中，该通过该文本识别模型，输出该第一文本片段的时间戳，包括：

通过该文本识别模型，对该文本数据进行语义识别，得到该文本数据的语义描述信息，该语义描述信息用于指示该文本数据的各个文本片段所描述的内容；

从该文本数据中确定满足第一目标条件的语义描述信息对应的第一文本片段，输出该第一文本片段的时间戳。

本公开实施例中，通过文本识别模型来对文本数据进行识别，进而基于识别出的语义描述信息，从文本数据中确定出对物品的相关信息进行介绍的第一文本片段，无需视频发布者手动操作，提高第一文本片段的确定效率，而且，通过模型来进行第一文本片段的确定，能够提高确定出的第一文本片段的准确性。

在一些实施例中，该基于该多个第一文本片段，从该视频中确定目标第一文本片段对应的多个目标视频片段，包括：

将该视频、该文本数据和该第一文本片段的时间戳输入片段分割模型，通过该片段分割模型，输出该目标视频片段的时间戳；

基于该目标视频片段的时间戳，从该视频中确定该多个目标视频片段。

本公开实施例中，通过片段分割模型，来确定目标视频片段的时间戳，进而根据确定出的时间戳，从视频中拆解出多个目标视频片段，实现可使用的视频片段的自动挑选，无需视频发布者手动操作，提高目标视频片段的确定效率，而且，通过模型来进行目标视频片段的确定，能够提高确定出的目标视频片段的准确性。

在一些实施例中，该通过该片段分割模型，输出该目标视频片段的时间戳，包括：

通过该片段分割模型，从该文本数据中确定该目标第一文本片段对应的第二文本片段；

基于该第二文本片段，从该视频中确定目标视频片段，作为该目标第一文本片段对应的多个目标视频片段。

本公开实施例中，通过片段分割模型，从文本数据中识别出语义完整的第二文本片段，进而根据第二文本片段，从视频中拆解出多个目标视频片段，实现可使用的视频片段的自动挑选，无需视频发布者手动操作，提高目标视频片段的确定效率，还能够保证确定出的目标视频片段的完整性，而且，通过模型来进行目标视频片段的确定，能够提高确定出的目标视频片段的准确性。

在一些实施例中，该基于该多个第一文本片段，从该视频中确定目标第一文本片段对应的多个目标视频片段之后，该方法还包括：

对于任一目标视频片段，获取该任一目标视频片段对应的第三文本片段；

将该第三文本片段输入文本分类模型，通过该文本分类模型，确定该第三文本片段的内容类型，作为该任一目标视频片段的内容类型，该内容类型用于指示该任一目标视频片段所介绍的物品的相关信息的类型；

该基于该多个目标视频片段，生成目标视频，包括：

基于该多个目标视频片段的内容类型，对满足第二目标条件的目标视频片段进行拼接，得到该目标视频。

本公开实施例中，通过对目标视频片段对应的第三文本片段进行识别，以获取各个目标视频片段的内容类型，以获知各个目标视频片段所介绍的物品的相关信息的类型，进而对内容类型满足第二目标条件的目标视频片段进行拼接，以实现目标视频的生成，无需视频发布者手动操作，提高视频生成效率。

在一些实施例中，该基于该多个目标视频片段，生成目标视频之后，该方法还包括：

获取目标音频，合成该目标视频和该目标音频。

本公开实施例中，通过合成目标视频和目标音频，以实现对目标视频的配乐，进而提高目标视频的质量，以便通过目标视频能够吸引更多的用户，提高用户体验。

在一些实施例中，该合成该目标视频和该目标音频之后，该方法还包括：

对于任一目标视频片段，基于目标音频的节奏点时间戳，对该目标视频片段的播放时长进行调整，得到调整后的目标视频片段；

其中，该调整后的目标视频片段的起始时间戳与第一节奏点的时间戳重合，且该调整后的目标视频片段的结束时间戳与第二节奏点的时间戳重合，该第一节奏点的时间戳在该第二节奏点的时间戳之前。

本公开实施例中，通过在目标视频片段的画面切换时间与目标音频的节奏点时间戳不匹配时，对目标视频片段的播放时长进行调整，以保证调整后的目标视频片段的起止时间戳均能与目标音频的节奏时间戳重合，增强目标视频的节奏感，提高目标视频的配乐效果，从而提高用户体验。

在一些实施例中，该对于任一目标视频片段，基于目标音频的节奏点时间戳，对该目标视频片段的播放时长进行调整，得到调整后的目标视频片段，包括下述至少一项：

基于目标音频的节奏点时间戳，对该任一目标视频片段的播放速度进行调整，得到调整后的目标视频片段；

基于目标音频的节奏点时间戳，删除该任一目标视频片段中不满足第三目标条件的视频帧，得到调整后的目标视频片段。

本公开实施例中，通过对目标视频片段的播放速度进行调整，或者，删除目标视频片段中不满足第三目标条件的视频帧，能够在保证目标视频片段的完整性的前提下，实现对目标视频片段的播放时长的调整，以使调整后的目标视频片段的起止时间戳均能与目标音频的节奏时间戳重合，增强目标视频的节奏感。

在一些实施例中，该基于目标音频的节奏点时间戳，删除该任一目标视频片段中不满足第三目标条件的视频帧，得到调整后的目标视频片段，包括：

对该任一目标视频片段中的视频帧进行识别，得到该视频帧中不包括人物的目标视频帧；

从该任一目标视频片段中删除该目标视频帧。

本公开实施例中，通过从目标视频片段中识别出不包括人物的目标视频帧，以保证目标视频帧都是不包含信息量的视频帧，从而使得删除这些目标视频帧，也不会对目标视频片段的完整性造成影响，在保证目标视频片段的完整性的前提下，实现对目标视频片段的播放时长的调整。

根据本公开实施例的第二方面，提供一种视频处理装置，该装置包括：

获取单元，被配置为执行获取视频对应的文本数据；

确定单元，被配置为执行从该文本数据中确定多个第一文本片段，该第一文本片段用于对物品的相关信息进行介绍；

该确定单元，还被配置为执行基于该多个第一文本片段，从该视频中确定目标第一文本片段对应的多个目标视频片段，该目标第一文本片段用于对相同物品的相关信息进行介绍；

生成单元，被配置为执行基于该多个目标视频片段，生成目标视频。

在一些实施例中，该确定单元，被配置为执行将该文本数据输入文本识别模型，通过该文本识别模型，输出该第一文本片段的时间戳。

在一些实施例中，该确定单元，被配置为执行通过该文本识别模型，对该文本数据进行语义识别，得到该文本数据的语义描述信息，该语义描述信息用于指示该文本数据的各个文本片段所描述的内容；从该文本数据中确定满足第一目标条件的语义描述信息对应的第一文本片段，输出该第一文本片段的时间戳。

在一些实施例中，该确定单元包括处理子单元和确定子单元；

该处理子单元，被配置为执行将该视频、该文本数据和该第一文本片段的时间戳输入片段分割模型，通过该片段分割模型，输出该目标视频片段的时间戳；

该确定子单元，被配置为执行基于该目标视频片段的时间戳，从该视频中确定该多个目标视频片段。

在一些实施例中，该处理子单元，被配置为执行通过该片段分割模型，从该文本数据中确定该第一文本片段对应的第二文本片段；基于该第二文本片段，从该视频中确定目标视频片段，作为该第一文本片段对应的目标视频片段。

在一些实施例中，该获取单元，还被配置为执行对于任一目标视频片段，获取该任一目标视频片段对应的第三文本片段；

该确定单元，还被配置为执行将该第三文本片段输入文本分类模型，通过该文本分类模型，确定该第三文本片段的内容类型，作为该任一目标视频片段的内容类型，该内容类型用于指示该任一目标视频片段所介绍的物品的相关信息的类型；

该生成单元，被配置为执行基于该多个目标视频片段的内容类型，对满足第二目标条件的目标视频片段进行拼接，得到该目标视频。

在一些实施例中，该获取单元，还被配置为执行获取目标音频；

该装置还包括：

合成单元，被配置为执行合成该目标视频和该目标音频。

在一些实施例中，该装置还包括：

调整单元，被配置为执行对于任一目标视频片段，基于目标音频的节奏点时间戳，对该目标视频片段的播放时长进行调整，得到调整后的目标视频片段；

在一些实施例中，该调整单元包括调整子单元和删除子单元；

该调整子单元，被配置为执行基于目标音频的节奏点时间戳，对该任一目标视频片段的播放速度进行调整，得到调整后的目标视频片段；

该删除子单元，被配置为执行基于目标音频的节奏点时间戳，删除该任一目标视频片段中不满足第三目标条件的视频帧，得到调整后的目标视频片段。

在一些实施例中，该删除子单元，被配置为执行对该任一目标视频片段中的视频帧进行识别，得到该视频帧中不包括人物的目标视频帧；从该任一目标视频片段中删除该目标视频帧。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储该处理器可执行指令的存储器；

其中，该处理器被配置为执行该指令，以实现上述视频处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述视频处理方法。

根据本公开实施例提供的第五方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被服务器的处理器执行时上述视频处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频处理方法的实施环境示意图。

图2是根据一示例性实施例示出的一种视频处理方法的流程图。

图3是根据一示例性实施例示出的一种视频处理方法的流程图。

图4是根据一示例性实施例示出的视频处理方法的流程示意图。

图5是根据一示例性实施例示出的一种视频处理装置的框图。

图6是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

另外，本公开所涉及的数据(如音视频数据、反馈信息等)可以为经用户授权或者经过各方充分授权的数据。

图1是根据一示例性实施例示出的一种视频处理方法的实施环境示意图，如图1所示，该实施环境包括：终端101和服务器102。

终端101为智能手机、平板电脑、电子书阅读器、智能手表、台式电脑、手提电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机中的至少一种。终端101具有通信功能，可以接入有线网络或无线网络。终端101可以泛指多个终端中的一个，本公开实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者更多数量，本公开实施例对终端101的数量和设备类型均不加以限定。

视频发布者通过终端101将待处理的视频发送给服务器102，以便服务器基于待处理的视频生成目标视频，或者，视频发布者通过终端101授权服务器102能够自行获取视频发布者上传的视频，进而基于获取到的视频生成目标视频。终端101接收服务器102返回的目标视频，视频发布者能够通过终端101来对目标视频进行播放，以便视频发布者来对目标视频进行查看，进而在目标视频符合视频发布者的要求时，将目标视频发布到目标平台对应的服务器。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102和终端101通过有线或无线通信方式进行连接，本公开实施例对此不加以限定。可选地，上述服务器的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

服务器102接收终端101发送的待处理的视频，或者，服务器102自行获取视频发布者通过终端101上传的视频，从该视频中确定出可使用的视频片段，基于这些视频片段生成目标视频，进而将生成的目标视频发送给终端101，以便视频发布者通过终端101来对目标视频进行查看。

本公开实施例提供的视频处理方法，可以应用于发布广告视频的场景，例如，发布物品宣传广告视频的场景，相应过程可以为：当视频发布者(也即是广告主)想要在视频播放类应用程序中发布广告视频时，可以在终端101上进行操作，上传一个或多个视频，并触发终端101向服务器发送视频获取请求，以获取这一个或多个视频对应的广告视频，则服务器102响应于对该视频获取请求，执行本公开实施例所提供的视频处理方法，从而基于这一个或多个视频，生成广告视频，进而将生成的广告视频返回给终端101，以便视频发布者从接收到的广告视频中进行选择，将被视频发布者选中的广告视频发布至目标平台。

相应过程还可以为：视频发布者(也即是广告主)授权服务器102自动获取该视频发布者上传的视频，并基于上传的视频生成用于广告投放的广告视频，则服务器102即可实时获取视频发布者上传的视频，通过执行本公开实施例所提供的视频处理方法，从而基于获取到的视频，生成广告视频，实现在后台为视频发布者智能生成广告视频，进而将生成的广告视频推送给终端101，为视频发布者扩展广告素材量，当视频发布者想要在视频播放类应用程序中发布广告视频时，可以通过终端101查看服务器102智能生成的广告视频，从而通过在终端101上进行操作，以将被选中的广告视频发布至目标平台。

通过将本公开实施例所提供的视频处理方法应用于发布广告视频的场景，相当于为广告视频的生成提供了一种自动制作工具，这种自动制作工具采用本公开实施例所提供的视频处理方法，使得视频发布者只需上传待处理的视频，自动制作工具即可自动获取待处理的视频，并基于待处理的视频生成广告视频，无需其他手动操作，即可为视频发布者生成用于广告投放的广告视频，提升视频发布者制作广告视频的生产力，提升视频生成效率。而且，通过本公开实施例所提供的视频处理方法，能够批量生成广告视频，提升视频发布者的广告素材量，加快视频发布者的素材迭代。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，如图2所示，该视频处理方法由服务器执行，该视频处理方法包括以下步骤。

在步骤S201中，服务器获取视频对应的文本数据。

在步骤S202中，服务器从该文本数据中确定多个第一文本片段，该第一文本片段用于对物品的相关信息进行介绍。

在步骤S203中，服务器基于该多个第一文本片段，从该视频中确定目标第一文本片段对应的多个目标视频片段，该目标第一文本片段用于对相同物品的相关信息进行介绍。

在步骤S204中，服务器基于该多个目标视频片段，生成目标视频。

从该文本数据中确定满足第一目标条件的语义描述信息对应的第一文本片段。

基于该目标视频片段的时间戳，从该视频中确定该多个目标视频片段，输出该第一文本片段的时间戳。

该基于该多个目标视频片段，生成目标视频，包括：

获取目标音频，合成该目标视频和该目标音频。

从该任一目标视频片段中删除该目标视频帧。

上述图2所示仅为本公开的基本流程，下面基于一种具体实施方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的一种视频处理方法的流程图，如图3所示，该视频处理方法包括以下步骤。

在步骤S301中，服务器获取视频对应的文本数据。

在一些实施例中，服务器获取视频，进而从视频中提取出对应的音频，通过对音频进行语音识别，得到音频对应的文本数据，也即是视频对应的文本数据。

可选地，服务器在获取视频时，获取视频发布者的授权信息，响应于该授权信息指示视频发布者同意服务器对该视频发布者所上传的视频进行处理，服务器实时获取视频发布者上传的视频。或者，终端提供视频剪辑入口，视频发布者通过触发该视频剪辑入口，显示可选择的视频，以便视频发布者从中进行选择，终端响应于视频发布者的选择操作，将被选中的视频发送给服务器，以便服务器获取到该视频。

其中，该视频为对物品进行介绍的直播录制视频(也即是对直播过程进行录制得到的视频)，或者，该视频为视频发布者自行通过拍摄软件拍摄的视频，本公开实施例对此不加以限定。但无论是上述哪种视频，均用于对物品进行介绍，以便观看视频的用户了解物品的价格、性能等，以实现物品的推广和宣传，以便越来越多的用户了解物品，提升物品的购买率。

需要说明的是，服务器在对音频进行语音识别时，将音频输入语音识别模型，通过该语音识别模型来对音频进行语音识别，得到该音频对应的文本数据，作为该视频对应的文本数据。

其中，该语音识别模型为深度神经网络(Deep Neural Network，DNN)，在另一些实施例中，该语音识别模型为其他类型，本公开实施例对此不加以限定。

以该语音识别模型为DNN为例，该语音识别模型包括输入层、多个隐层和输出层。服务器在通过语音识别模型对音频进行语音识别时，先从音频中提取出该音频的声学特征，进而将提取出的声学特征输入语音识别模型的输入层，通过该语音识别模型的输入层将该声学特征传递给语音识别模型的隐层，通过语音识别模型的隐层提取该声学特征的隐层特征，以便将声学特征映射到隐层空间，并通过该语音识别模型的最后一个隐层，采用归一化(Softmax)函数提取该隐层特征的状态特征，以便将隐层特征映射到状态空间，进而通过该语音识别模型的输出层，确定该状态特征对应于各个音素的概率值，进而基于该状态特征对应于各个音素的概率值以及语言模型，确定出该音频对应的文本数据。该语言模型用于确定组成文本数据的各个词对应的概率值，该语言模型采用N-Gram(N元模子)模型，或者，该语言模型采用其他模型，本公开实施例对此不加以限定。

其中，该声学特征为频谱特征，该频谱特征用于指示音频在各个频率的振幅变化信息。可选地，该声学特征为其他特征，本公开实施例对此不加以限定。以该声学特征为频谱特征为例，服务器在获取到音频后，对音频进行傅里叶变换，得到音频在频域上的各个频率对应的振幅，即得到该音频的频谱特征。

需要说明的是，该语音识别模型基于多个样本音频和对应的样本文本数据训练得到。相应地，该语音识别模型的训练过程包括：服务器获取多个样本音频和对应的样本文本数据，在第一次迭代过程中，服务器将第一个样本音频输入初始语音识别模型，通过该初始语音识别模型对该第一个样本音频进行语音识别，得到该第一个样本音频对应的文本数据，进而基于该第一个样本音频对应的文本数据和第一个样本文本数据，对初始语音识别模型中的模型参数进行调整，将调整后的模型参数作为下一次迭代时的模型参数，继续进行模型训练，直至满足训练条件，将满足训练条件的模型作为语音识别模型。

上述仅为一种对视频对应的音频进行语音识别，得到视频对应的文本数据的示例性方式，在另一些实施例中，采用其他方式来对音频进行语音识别，以得到视频对应的文本数据，本公开实施例对采用哪种方式不加以限定。

在步骤S302中，服务器将该文本数据输入文本识别模型，通过该文本识别模型，输出该第一文本片段的时间戳。

在一些实施例中，服务器将该文本数据输入文本识别模型，通过该文本识别模型，对该文本数据进行语义识别，得到该文本数据的语义描述信息，进而从该文本数据中确定满足第一目标条件的语义描述信息对应的第一文本片段，输出该第一文本片段的时间戳。其中，该语义描述信息用于指示该文本数据的各个文本片段所描述的内容。

需要说明的是，该第一文本片段的时间戳，也即是第一文本片段对应的视频片段的时间戳，在一些实施例中，该视频中各个视频片段的时间戳为视频生产者在录制视频时设置得到，从而使得服务器在获取各个视频片段或文本片段的时间戳时，能够直接获取到已设置好的时间戳。

其中，该文本识别模型为卷积神经网络(Convolutional Neural Network，CNN)，在另一些实施例中，该文本识别模型为其他类型，本公开实施例对此不加以限定。

以该文本识别模型为CNN为例，该文本识别模型包括输入层、卷积层、池化层、全连接层和输出层。服务器在通过文本识别模型对文本数据进行语义识别时，将该文本数据输入该文本识别模型的输入层，通过该输入层将该文本数据转化为矩阵形式的数据，进而将矩阵形式的数据传递给文本识别模型的卷积层，通过该文本识别模型的卷积层提取矩阵形式的数据对应的卷积特征，从而将该卷积特征传递给文本识别模型的池化层，通过该文本识别模型的池化层，来对提取出的卷积特征进行压缩，以实现对卷积特征的降维处理，得到降维后的卷积特征，进而将降维后的卷积特征传递给文本识别模型的全连接层，通过文本识别模型的全连接层，来对降维后的卷积特征进行归一化处理，并基于归一化处理后的结果来确定文本数据的语义描述信息，最后将该语义描述信息传递给文本识别模型的输出层，通过文本识别模型的输出层，从该文本数据中确定出满足第一目标条件的语义描述信息对应的第一文本片段，并输出该第一文本片段的时间戳。其中，满足第一目标条件的语义描述信息对应于物品的相关信息，相应地，满足第一目标条件的语义描述信息对应的第一文本片段，也即是用于对物品的相关信息进行介绍的文本片段。

通过文本识别模型来对文本数据进行识别，进而基于识别出的语义描述信息，从文本数据中确定出对物品的相关信息进行介绍的第一文本片段，无需视频发布者手动操作，提高第一文本片段的确定效率，而且，通过模型来进行第一文本片段的确定，能够提高确定出的第一文本片段的准确性。

需要说明的是，该文本识别模型基于多个样本文本数据和对应的样本第一文本片段的时间戳训练得到。相应地，该文本识别模型的训练过程包括：服务器获取多个样本文本数据和对应的样本第一文本片段的时间戳，在第一次迭代过程中，服务器将第一个样本文本数据输入初始文本识别模型，通过该初始文本识别模型对该第一个样本文本数据进行处理，输出该第一个样本文本数据对应的第一文本片段的时间戳，进而基于该第一个样本文本数据对应的第一文本片段的时间戳和第一个样本文本数据对应的样本第一文本片段的时间戳，对初始文本识别模型中的模型参数进行调整，将调整后的模型参数作为下一次迭代时的模型参数，继续进行模型训练，直至满足训练条件，将满足训练条件的模型作为文本识别模型。

上述仅为一种对文本数据进行语义识别，以从文本数据中确定多个第一文本片段数据的示例性方式，在另一些实施例中，采用其他方式来对文本数据进行语义识别，以确定多个第一文本片段，本公开实施例对采用哪种方式不加以限定。

在步骤S303中，服务器将该视频、该文本数据和该第一文本片段的时间戳输入片段分割模型，通过该片段分割模型，输出该目标视频片段的时间戳。

在一些实施例中，服务器将该视频、该文本数据和该第一文本片段的时间戳输入片段分割模型，通过该片段分割模型，从该文本数据中确定该目标第一文本片段对应的第二文本片段；基于该第二文本片段，从该视频中确定目标视频片段，作为该目标第一文本片段对应的多个目标视频片段。

其中，该片段分割模型包括N-Gram模型和图像检测模型，该图像检测模型采用基于直方图的图像检测算法，在另一些实施例中，该图像检测模型采用其他算法，或者，该片段分割模型为其他类型，本公开实施例对此不加以限定。

以该片段分割模型包括N-Gram模型和图像检测模型为例。服务器在通过片段分割模型确定第一文本片段对应的目标视频片段时，先将该文本数据和第一文本片段的时间戳输入N-Gram模型，得到第一文本片段与文本数据中其他文本片段之间具有依赖关系的概率，以及各个第一文本片段的标签，该标签用于指示各个第一文本片段所介绍的物品；进而基于确定出的概率以及标签确定目标第一文本片段对应的第二文本片段，输出第二文本片段的时间戳，该目标第一文本片段为用于对相同物品的相关信息进行介绍的第一文本片段；再将该视频和该第二文本片段的时间戳输入图像检测模型，通过图像检测模型确定发生画面切换的视频帧，进而基于发生画面切换的视频帧来对视频进行拆分。下面分别对N-Gram模型和图像检测模型的处理过程进行介绍：

N-Gram模型的处理过程包括：服务器将该文本数据和第一文本片段的时间戳输入N-Gram模型，基于第一文本片段的时间戳，在该文本数据中定位到第一文本片段，并基于第一文本片段的内容确定第一文本片段的标签，进而基于确定出的标签确定第一文本片段依赖于该文本数据中位于第一文本片段之前的文本片段的概率，若概率大于第一预设阈值，则将第一文本片段与位于第一文本片段之前的文本片段确定为新的第一文本片段，进而继续确定新的第一文本片段依赖于该文本数据中位于新的第一文本片段之前的文本片段的概率，以此类推，直至确定出的概率小于或等于第一预设阈值；同理，确定该文本数据中位于第一文本片段之后的文本片段依赖于第一文本片段的概率，直至确定出的概率小于或等于第一预设阈值，从而实现基于第一文本片段的完整语义片段的划分，进而将最后一次更新得到的第一文本片段确定为第二文本片段，输出该第二文本片段的时间戳。该第一预设阈值为任意正数值，本公开实施例对此不加以限定。

图像检测模型的处理过程包括：服务器将该视频和第二文本片段的时间戳输入图像检测模型，基于第二文本片段的时间戳，在该视频中定位到第二文本片段的时间戳对应的视频片段，并确定第二文本片段的时间戳对应的视频片段的起止视频帧，进而确定起始视频帧的直方图与该起始视频帧的前一视频帧的直方图之间的相似度，若相似度大于第二预设阈值，则继续对前一视频帧与该前一视频帧之前的视频帧之间的直方图相似度进行检测将，直至确定出的相似度小于或等于第二预设阈值，进而将相似度小于或等于第二预设阈值的两个视频帧中时间戳较大的视频帧作为目标视频片段的起始视频帧；同理，确定终止视频帧的直方图与该起始视频帧的后一视频帧的直方图之间的相似度，若相似度大于第二预设阈值，则继续对后一视频帧与该后一视频帧之后的视频帧之间的直方图相似度进行检测将，直至确定出的相似度小于或等于第二预设阈值，进而将相似度小于或等于第二预设阈值的两个视频帧中时间戳较小的视频帧作为目标视频片段的终止视频帧，从而实现目标视频片段的划分，进而输出该目标视频片段的时间戳。该第二预设阈值为任意正数值，本公开实施例对此不加以限定。

由于第一文本片段仅为对物品的相关信息进行介绍的文本片段，可能存在第一文本片段的语义不完整的情况，因而通过片段分割模型，来基于第一文本片段的时间戳，从文本数据中识别出语义完整的第二文本片段，进而根据第二文本片段，从视频中拆解出多个目标视频片段，目标视频片段对应的是语义完整的第二文本片段，且目标视频片段的起始视频帧基于前一视频帧发生了画面切换，且目标视频片段的终止视频帧基于后一视频帧发生了画面切换，从而在保证目标视频片段的完整性的前提下，实现了可使用的视频片段的自动挑选，无需视频发布者手动操作，提高目标视频片段的确定效率，还能够保证确定出的目标视频片段的完整性，而且，通过模型来进行目标视频片段的确定，能够提高确定出的目标视频片段的准确性。

需要说明的是，该片段分割模型中的N-Gram模型和图像检测模型均由预先训练得到，其中，该N-Gram模型基于多个样本文本数据、对应的样本第一文本片段的时间戳和对应的样本第二文本片段的时间戳训练得到，该图像检测模型基于多个样本视频、对应的样本第二文本片段的时间戳和对应的样本目标视频片段的时间戳训练得到。下面分别对N-Gram模型和图像检测模型的训练过程进行介绍：

该N-Gram模型的训练过程包括：服务器获取多个样本文本数据、对应的样本第一文本片段的时间戳和对应的样本第二文本片段的时间戳，在第一次迭代过程中，服务器将第一个样本文本数据和对应的样本第一文本片段的时间戳输入初始N-Gram模型，通过该N-Gram模型对该第一个样本文本数据和对应的样本第一文本片段的时间戳进行处理，输出该第一个样本文本数据对应的第二文本片段的时间戳，进而基于该第一个样本文本数据对应的第二文本片段的时间戳和第一个样本文本数据对应的样本第二文本片段的时间戳，对初始N-Gram模型中的模型参数进行调整，将调整后的模型参数作为下一次迭代时的模型参数，继续进行模型训练，直至满足训练条件，将满足训练条件的模型作为片段分割模型中的N-Gram模型。

该图像检测模型的训练过程包括：服务器获取多个样本视频、对应的样本第二文本片段的时间戳和对应的样本目标视频片段的时间戳，在第一次迭代过程中，服务器将第一个样本视频和对应的样本第二文本片段的时间戳输入初始图像检测模型，通过该初始图像检测模型对该第一个样本视频和对应的样本第二文本片段的时间戳进行处理，输出该第一个样本视频对应的目标视频片段的时间戳，进而基于该第一个样本视频对应的目标视频片段的时间戳和第一个样本视频对应的样本目标视频片段的时间戳，对初始图像检测模型中的模型参数进行调整，将调整后的模型参数作为下一次迭代时的模型参数，继续进行模型训练，直至满足训练条件，将满足训练条件的模型作为片段分割模型中的图像检测模型。

上述仅为一种确定目标视频片段的示例性方式，在另一些实施例中，采用其他方式来进行目标视频片段的确定，本公开实施例对采用哪种方式不加以限定。

在步骤S304中，服务器基于该目标视频片段的时间戳，从该视频中确定多个目标视频片段，该多个目标视频片段用于对相同物品的相关信息进行介绍。

在一些实施例中，服务器基于目标视频片段的时间戳，将目标视频片段从视频中拆分出来，以获取到该多个目标视频片段。

在步骤S305中，对于任一目标视频片段，服务器获取该任一目标视频片段对应的第三文本片段。

在一些实施例中，对于任一目标视频片段，服务器基于该任一目标视频片段的时间戳，从文本数据中获取该任一目标视频片段的时间戳对应的第三文本片段。

在步骤S306中，服务器将该第三文本片段输入文本分类模型，通过该文本分类模型，确定该第三文本片段的内容类型，作为该任一目标视频片段的内容类型，该内容类型用于指示该任一目标视频片段所介绍的物品的相关信息的类型。

需要说明的是，各个目标视频片段的内容类型，能够指示各个目标视频片段是对物品的哪种信息进行介绍，例如，某个目标视频片段的内容类型指示该目标视频片段是对物品的名称进行介绍，或者，某个目标视频片段的内容类型指示该目标视频片段是对物品的价格进行介绍，或者，某个目标视频片段的内容类型指示该目标视频片段是对物品的性能进行介绍，等等。

其中，该文本分类模型为CNN，在另一些实施例中，该文本分类模型为其他类型，本公开实施例对此不加以限定。

以该文本分类模型为CNN为例，该文本分类模型包括输入层、卷积层、池化层和全连接层。服务器在通过文本分类模型确定第三文本片段的内容类型时，将各个第三文本片段逐个输入该文本分类模型，以便通过该文本分类模型来确定各个第三文本片段的内容类型。以任一第三文本片段的处理过程为例，将该任一第三文本片段输入该文本分类模型的输入层，通过该输入层将该任一第三文本片段转化为向量形式的数据，进而将向量形式的数据传递给文本分类模型的卷积层，通过该文本分类模型的卷积层提取向量形式的数据对应的卷积特征，将该卷积特征传递给文本分类模型的池化层，通过该文本分类模型的池化层，来对提取出的卷积特征进行压缩，以实现对卷积特征的降维处理，得到降维后的卷积特征，从而将降维后的卷积特征传递给文本分类模型的全连接层，通过文本分类模型的全连接层，来对降维后的卷积特征进行归一化处理，进而基于归一化处理后的结果确定该任一第三文本片段的内容类型。其他第三文本片段的处理过程，与该任一第三文本片段的处理过程同理，此处不再赘述。

通过对目标视频片段对应的第三文本片段进行识别，以获取各个目标视频片段的内容类型，以获知各个目标视频片段所介绍的物品的相关信息的类型，进而对内容类型满足第二目标条件的目标视频片段进行拼接，以实现目标视频的生成，无需视频发布者手动操作，提高视频生成效率。

需要说明的是，该文本分类模型基于多个样本文本片段和对应的样本内容类型训练得到。相应地，该文本分类模型的训练过程包括：服务器获取多个样本文本片段和对应的样本内容类型，在第一次迭代过程中，服务器将第一个样本文本片段输入初始文本分类模型，通过该初始文本分类模型对该第一个样本文本片段进行处理，输出该第一个样本文本片段的内容类型，进而基于该第一个样本文本片段的内容类型和第一个样本文本片段对应的第一个样本内容类型，对初始文本分类模型中的模型参数进行调整，将调整后的模型参数作为下一次迭代时的模型参数，继续进行模型训练，直至满足训练条件，将满足训练条件的模型作为文本分类模型。

上述仅为一种确定第三文本片段的内容类型的示例性方式，在另一些实施例中，采用其他方式来确定各个第三文本片段的内容类型，本公开实施例对采用哪种方式不加以限定。

在步骤S307中，服务器基于该多个目标视频片段的内容类型，对满足第二目标条件的目标视频片段进行拼接，得到目标视频。

在一些实施例中，视频发布者通过终端预先设置一个视频生成规则，该视频生成规则用于指示该目标视频所包括的目标视频片段的内容类型，进而将设置好的视频拼接规则发送给服务器，以便服务器在对目标视频片段进行拼接时，基于预设好的视频生成规则和多个目标视频片段的内容类型，从多个目标视频片段中确定出符合该视频生成规则的目标视频片段，也即是，满足第二目标条件的目标视频片段，进而对第二目标条件的目标视频片段进行拼接，得到该目标视频。

例如，视频发布者通过终端设置目标视频要包括哪些内容类型对应的目标视频片段，终端基于视频发布者的设置，生成相应的视频生成规则，进而将该视频生成规则发送给服务器，以便服务器基于视频生成规则来进行目标视频片段的拼接。

例如，该视频生成规则为：目标视频包括对物品的名称进行介绍的视频片段、对物品的价格进行介绍的视频片段以及对物品的性能进行介绍的视频片段，则满足第二目标条件的目标视频片段即为对物品的名称进行介绍的视频片段、对物品的价格进行介绍的视频片段以及对物品的性能进行介绍的视频片段，也即是，满足第二目标条件的目标视频片段对应的第三文本片段，是对物品的名称进行介绍的文本片段、对物品的价格进行介绍的文本片段以及对物品的性能进行介绍的文本片段。

在另一些实施例中，视频发布者通过终端设置视频生成规则时，基于目标视频所包括的目标视频片段的内容类型，以及各个内容类型的目标视频片段的时长来进行设置，相应地，该视频生成规则用于指示该目标视频所包括的目标视频片段的内容类型，以及各个内容类型的目标视频片段的时长。

通过提供一种视频生成规则的设置功能，以便视频发布者能够基于自己的需求来设置视频生成规则，使得目标视频片段拼接得到的目标视频更加符合自己的需求，提高用户体验。

需要说明的是，服务器在生成该目标视频后，还可以为该目标视频进行配乐，在一些实施例中，获取目标音频，进而合成该目标视频和该目标音频。通过合成目标视频和目标音频，以实现对目标视频的配乐，进而提高目标视频的质量，以便通过目标视频能够吸引更多的用户，提高用户体验。

其中，在获取目标音频时，服务器可以自行从该服务器所关联的音频数据库中，随机获取一个音频，作为目标音频，或者，视频发布者通过终端向服务器发送音频信息获取请求，服务器从该服务器所关联的音频数据库中，获取已存储的音频的音频信息(如音频名称、作者、发布时间等)，并将获取到的音频信息发送给终端，终端接收到音频信息后，对接收到的音频信息进行展示，以便视频发布者根据所展示的音频信息进行选择，终端响应于视频发布者的选中操作，向服务器发送音频设置请求，该音频设置请求携带被选中的音频信息，以便服务器根据接收到的音频设置请求，获取被选中的音频信息对应的目标音频。

在一些实施例中，服务器在为该目标视频进行配乐后，还可以通过调整目标视频片段的播放时长，实现目标视频片段的智能缩放，以使目标视频的画面切换与目标音频的节奏点吻合，增强目标视频的节奏感。对于任一目标视频片段，服务器基于目标音频的节奏点时间戳，对该目标视频片段的播放时长进行调整，得到调整后的目标视频片段；其中，该调整后的目标视频片段的起始时间戳与第一节奏点的时间戳重合，且该调整后的目标视频片段的结束时间戳与第二节奏点的时间戳重合，该第一节奏点的时间戳在该第二节奏点的时间戳之前。

需要说明的是，在基于目标音频的节奏点时间戳，对该目标视频片段的播放时长进行调整时，服务器可以先基于目标视频片段的时间戳，确定该目标视频片段对应的目标音频中的第一节奏点，再基于第一节奏点的时间戳，以及位于第一节奏点之后的各个节奏点的时间戳，确定第一节奏点与位于第一节奏点之后的节奏点之间的间隔时长，进而基于目标视频片段的播放时长，确定与该播放时长最接近的间隔时长，在该间隔时长与该播放时长不一致时，对该目标视频片段的播放时长进行调整，得到调整后的目标视频片段。

通过在目标视频片段的画面切换时间与目标音频的节奏点时间戳不匹配时，对目标视频片段的播放时长进行调整，以保证调整后的目标视频片段的起止时间戳均能与目标音频的节奏时间戳重合，增强目标视频的节奏感，提高目标视频的配乐效果，从而提高用户体验。

其中，在对目标视频片段的播放时间进行调整时，可以有如下两种方式：基于目标音频的节奏点时间戳，对该任一目标视频片段的播放速度进行调整，得到调整后的目标视频片段；或者，基于目标音频的节奏点时间戳，删除该任一目标视频片段中不满足第三目标条件的视频帧，得到调整后的目标视频片段。

通过对目标视频片段的播放速度进行调整，或者，删除目标视频片段中不满足第三目标条件的视频帧，能够在保证目标视频片段的完整性的前提下，实现对目标视频片段的播放时长的调整，以使调整后的目标视频片段的起止时间戳均能与目标音频的节奏时间戳重合，增强目标视频的节奏感。

需要说明的是，在对目标视频片段的播放时长进行调整时，可以采用上述两种方式中的任一种，或者，可以同时采用这两种方式，本公开实施例对此不加以限定。

其中，在删除该任一目标视频片段中不满足第三目标条件的视频帧时，服务器对该任一目标视频片段中的视频帧进行识别，得到该视频帧中不包括人物的目标视频帧；从该任一目标视频片段中删除该目标视频帧。

通过从目标视频片段中识别出不包括人物的目标视频帧，以保证目标视频帧都是不包含信息量的视频帧，从而使得删除这些目标视频帧，也不会对目标视频片段的完整性造成影响，在保证目标视频片段的完整性的前提下，实现对目标视频片段的播放时长的调整。

参见图4，图4是根据一示例性实施例示出的视频处理方法的流程示意图，服务器在获取到待处理的视频后，通过对视频进行物品介绍识别，以识别出视频中进行物品介绍的部分，进而通过对片段完整性的识别，识别出用于进行物品介绍的完整视频片段，再通过视频生成规整、音乐节奏点匹配以及视频片段的智能缩放等手段，生成目标视频，该图4仅展示一个流程上的大致过程，具体实现过程参见上述步骤S301至步骤S307，此处不再赘述。

本公开实施例中，通过从视频对应的文本数据中识别出用于对物品的相关信息进行介绍的第一文本片段，进而自动从视频中拆解出目标第一文本片段对应的目标视频片段，由于目标第一文本片段都是用来对相同物品的相关信息进行介绍的，因而这些目标视频片段也是对相同物品的相关信息进行介绍的，从而基于这些目标视频片段，自动生成对某个物品的相关信息进行介绍的目标视频，无需手动生成视频，提高了生成视频的效率。本公开实施例中，通过自然语言处理(Nature Language Processing，NLP)和计算机视觉(Computer Vision，CV)等人工智能算法，采用语音识别模型、文本识别模型、片段分割模型和文本分类模型等，实现用于物品介绍的视频片段的提取，无需视频发布者查看视频并手动进行视频剪切，提高视频片段的获取效率。而且，在基于目标视频片段生成目标视频后，还可以为目标视频进行配乐，并通过对目标视频片段进行智能缩放的方式，使得目标视频的画面切换和音乐节奏点匹配，提高视频和音频合成后得到的视频的流畅性，提高视频质量。此外，在对目标视频片段进行视频缩放时，可以采用删除不包含信息量的视频帧的方式，以保证目标视频片段中各个视频帧的有效性，提高目标视频片段的质量。

图5是根据一示例性实施例示出的一种视频处理装置的框图。参照图5，该装置包括：

获取单元501，被配置为执行获取视频对应的文本数据；

确定单元502，被配置为执行从该文本数据中确定多个第一文本片段，该第一文本片段用于对物品的相关信息进行介绍；

该确定单元502，还被配置为执行基于该多个第一文本片段，从该视频中确定目标第一文本片段对应的多个目标视频片段，该目标第一文本片段用于对相同物品的相关信息进行介绍；

生成单元503，被配置为执行基于该多个目标视频片段，生成目标视频。

在一些实施例中，该确定单元502，被配置为执行将该文本数据输入文本识别模型，通过该文本识别模型，输出该第一文本片段的时间戳。

在一些实施例中，该确定单元502，被配置为执行通过该文本识别模型，对该文本数据进行语义识别，得到该文本数据的语义描述信息，该语义描述信息用于指示该文本数据的各个文本片段所描述的内容；从该文本数据中确定满足第一目标条件的语义描述信息对应的第一文本片段，输出该第一文本片段的时间戳。

在一些实施例中，该确定单元502包括处理子单元和确定子单元；

在一些实施例中，该获取单元501，还被配置为执行对于任一目标视频片段，获取该任一目标视频片段对应的第三文本片段；

该确定单元502，还被配置为执行将该第三文本片段输入文本分类模型，通过该文本分类模型，确定该第三文本片段的内容类型，作为该任一目标视频片段的内容类型，该内容类型用于指示该任一目标视频片段所介绍的物品的相关信息的类型；

该生成单元503，被配置为执行基于该多个目标视频片段的内容类型，对满足第二目标条件的目标视频片段进行拼接，得到该目标视频。

在一些实施例中，该获取单元501，还被配置为执行获取目标音频；

该装置还包括：

合成单元，被配置为执行合成该目标视频和该目标音频。

在一些实施例中，该装置还包括：

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种服务器的框图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)601和一个或多个的存储器602，其中，该一个或多个存储器602中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器601加载并执行以实现上述各个方法实施例提供的视频处理方法的过程。当然，该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器602，上述指令可由服务器600的处理器601执行以完成上述视频处理方法。可选地，计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序可以由服务器600的处理器601执行，以完成上述实施例中提供的视频处理方法的方法步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取视频对应的文本数据；

从所述文本数据中确定多个第一文本片段，所述第一文本片段用于对物品的相关信息进行介绍；

基于所述多个第一文本片段，从所述视频中确定目标第一文本片段对应的多个目标视频片段，所述目标第一文本片段用于对相同物品的相关信息进行介绍；

基于所述多个目标视频片段，生成目标视频。

2.根据权利要求1所述的视频处理方法，其特征在于，所述从所述文本数据中确定多个第一文本片段，包括：

将所述文本数据输入文本识别模型，通过所述文本识别模型，输出所述第一文本片段的时间戳。

3.根据权利要求2所述的方法，其特征在于，所述通过所述文本识别模型，输出所述第一文本片段的时间戳，包括：

通过所述文本识别模型，对所述文本数据进行语义识别，得到所述文本数据的语义描述信息，所述语义描述信息用于指示所述文本数据的各个文本片段所描述的内容；

从所述文本数据中确定满足第一目标条件的语义描述信息对应的第一文本片段，输出所述第一文本片段的时间戳。

4.根据权利要求2所述的视频处理方法，其特征在于，所述基于所述多个第一文本片段，从所述视频中确定目标第一文本片段对应的多个目标视频片段，包括：

将所述视频、所述文本数据和所述第一文本片段的时间戳输入片段分割模型，通过所述片段分割模型，输出所述目标视频片段的时间戳；

基于所述目标视频片段的时间戳，从所述视频中确定所述多个目标视频片段。

5.根据权利要求4所述的方法，其特征在于，所述通过所述片段分割模型，输出所述目标视频片段的时间戳，包括：

通过所述片段分割模型，从所述文本数据中确定所述目标第一文本片段对应的第二文本片段；

基于所述第二文本片段，从所述视频中确定目标视频片段，作为所述目标第一文本片段对应的多个目标视频片段。

6.根据权利要求1所述的视频处理方法，其特征在于，所述基于所述多个第一文本片段，从所述视频中确定目标第一文本片段对应的多个目标视频片段之后，所述方法还包括：

对于任一目标视频片段，获取所述任一目标视频片段对应的第三文本片段；

将所述第三文本片段输入文本分类模型，通过所述文本分类模型，确定所述第三文本片段的内容类型，作为所述任一目标视频片段的内容类型，所述内容类型用于指示所述任一目标视频片段所介绍的物品的相关信息的类型；

所述基于所述多个目标视频片段，生成目标视频，包括：

基于所述多个目标视频片段的内容类型，对满足第二目标条件的目标视频片段进行拼接，得到所述目标视频。

7.根据权利要求1所述的视频处理方法，其特征在于，所述基于所述多个目标视频片段，生成目标视频之后，所述方法还包括：

获取目标音频，合成所述目标视频和所述目标音频。

8.一种视频处理装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取视频对应的文本数据；

确定单元，被配置为执行从所述文本数据中确定多个第一文本片段，所述第一文本片段用于对物品的相关信息进行介绍；

所述确定单元，还被配置为执行基于所述多个第一文本片段，从所述视频中确定目标第一文本片段对应的多个目标视频片段，所述目标第一文本片段用于对相同物品的相关信息进行介绍；

生成单元，被配置为执行基于所述多个目标视频片段，生成目标视频。

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频处理方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的视频处理方法。