CN117851639A

CN117851639A - 视频处理方法、装置、电子设备以及存储介质

Info

Publication number: CN117851639A
Application number: CN202410052243.3A
Authority: CN
Inventors: 沈铮阳; 苏立新; 程苏琦; 聂颖; 王俊峰; 殷大伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-09

Abstract

本公开提供了视频处理方法、装置、电子设备以及存储介质，涉及人工智能技术领域，尤其涉及大模型、视频技术、自然语言处理、深度学习、智能搜索技术领域。具体实现方案为：从视频中抽取得到多个视频帧；利用大语言模型处理多个视频帧各自包含的文本信息，得到多个视频段落数据；将每一个视频段落数据与多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图；以及基于多个视频段落数据和与多个视频段落数据各自对应的段落配图，得到视频的图文化处理结果。

Description

视频处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及大模型、视频技术、自然语言处理、深度学习、智能搜索技术领域。

背景技术

随着互联网技术的发展，视频已成为了用户获取信息的主要渠道之一。互联网平台可以汇集互联网上的开源视频资源而建立视频库，并开放视频搜索接口，以便用户通过互联网平台进行视频的搜索。

发明内容

本公开提供了一种视频处理方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种视频处理方法，包括：从视频中抽取得到多个视频帧；利用大语言模型处理上述多个视频帧各自包含的文本信息，得到多个视频段落数据；将每一个视频段落数据与上述多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图；以及基于上述多个视频段落数据和与上述多个视频段落数据各自对应的段落配图，得到上述视频的图文化处理结果。

根据本公开的另一方面，提供了一种视频处理装置，包括：抽取模块，用于从视频中抽取得到多个视频帧；第一处理模块，用于利用大语言模型处理上述多个视频帧各自包含的文本信息，得到多个视频段落数据；匹配模块，用于将每一个视频段落数据与上述多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图；以及第二处理模块，用于基于上述多个视频段落数据和与上述多个视频段落数据各自对应的段落配图，得到上述视频的图文化处理结果。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用视频处理方法及装置的示例性系统架构。

图2示意性示出了根据本公开实施例的视频处理方法的流程图。

图3示意性示出了根据本公开实施例的视频帧的示意图。

图4示意性示出了根据本公开实施例的基于大语言模型的对话系统的工作流程的示意图。

图5示意性示出了根据本公开实施例的搜索结果页面的示意图。

图6示意性示出了根据本公开实施例的视频处理装置的框图。

图7示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

互联网平台可以提供多种视频搜索方式，如基于url(uniform resourcelocator，统一资源定位系统)地址以及网页内容进行视频搜索、基于图片的视频搜索、基于活动目标的特征进行视频搜索等。由于视频库的规模一般较大，用户在使用如上任意一种的视频搜索方式时，互联网平台均会返回较多的视频作为搜索结果。对于返回的每一个视频，互联网平台通常会基于该视频的封面图像、视频简介等由视频上传用户设置的信息进行该视频的展示，每个视频能够直接展示的信息量较少，使得用户需要较多次地对返回的视频进行播放，以获取用户所需的信息，因而用户在通过视频渠道进行信息获取的时间成本和操作成本较高。

有鉴于此，本公开的实施例提供了一种视频处理方法、装置、电子设备以及存储介质，该视频处理方法可以将视频库中的每个视频转化为图文化处理结果，该图文化处理结果可以在视频被检索到时，替代该视频的原有信息在显示页面上进行展示，以提高视频展示的信息密度，提高用户的视频搜索体验。该视频处理方法的具体实现方案为：从视频中抽取得到多个视频帧；利用大语言模型处理多个视频帧各自包含的文本信息，得到多个视频段落数据；将每一个视频段落数据与多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图；以及基于多个视频段落数据和与多个视频段落数据各自对应的段落配图，得到视频的图文化处理结果。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用视频处理方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的视频处理方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如搜索类应用、网页浏览器应用等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所搜索的视频提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户视频搜索请求进行分析处理，并将视频搜索结果反馈给终端设备。

需要说明的是，本公开实施例所提供的视频处理方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的视频处理装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的视频处理方法一般也可以由服务器105执行。相应地，本公开实施例所提供的视频处理装置一般可以设置于服务器105中。本公开实施例所提供的视频处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的视频处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

如图2所示，该方法包括操作S210～S240。

在操作S210，从视频中抽取得到多个视频帧。

在操作S220，利用大语言模型处理多个视频帧各自包含的文本信息，得到多个视频段落数据。

在操作S230，将每一个视频段落数据与多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图。

在操作S240，基于多个视频段落数据和与多个视频段落数据各自对应的段落配图，得到视频的图文化处理结果。

根据本公开的实施例，视频可以是互联网平台汇集互联网上的开源视频资源而建立的视频库中的任意一个视频。多个视频帧可以是该视频所包含的全部视频帧，例如，对于一段时长为10s，帧率为60FPS(Framesper Second，每秒显示帧数)的视频，从该视频中可以抽取得到600个视频帧。或者，对个视频帧可以从该视频所包含的全部视频帧中采样得到，采样方式包括随机采样、周期采样等，在此不作限定。

根据本公开的实施例，大语言模型可以指任意的开源大型语言模型。在利用大语言模型处理多个视频帧之前，可以对该大语言模型进行微调，以使得该大语言模型可以处理多个视频帧各自包含的文本信息，得到多个视频段落数据。对大语言模型进行微调的方式可以包括基于模型插件的微调、基于提示词的微调、模型参数的微调等。例如，可以在大语言模型中加载适于处理该任务的模型插件，在将多个视频帧各自包含的文本信息作为输入文本输入到大语言模型时，可以将该模型插件的信息加载到该输入文本的上下文中，以通过大语言模型调用该模型插件来处理多个视频帧各自包含的文本信息，得到多个视频段落数据。再例如，大语言模型可以具有附属的提示模型，可以利用样本视频包括的多个视频帧各自包含的文本信息作为训练样本，利用样本视频包括的多个视频段落各自的视频段落数据作为样本标签，对提示模型进行训练，以完成对大语言模型的微调。又例如，该大语言模型可以是具有较小参数量的轻量型大语言模型，如Llama-7b、ChatGLM等，可以通过蒸馏学习的方式，以能够实现上述任务的具有较多参数量的大语言模型作为教师模型，对该轻量型大语言模型进行参数调整，以得到微调后的大语言模型。

根据本公开的实施例，视频段落数据中可以包含文本数据，将每一个视频段落数据与多个视频帧进行图文匹配，可以是利用该每一个视频段落数据中的文本数据和该多个视频帧各自的图像数据进行图文相似度的计算。图文相似度的计算方式在此不作限定，例如，可以使用CLIP(Contrastive Language-Image Pre-Training，对比语言-图像预训练)模型等已有模型，将图像和文本作为模型的输入数据，输入到该模型中，并在模型的输出中得到该图文相似度。或者，也可以将图像和文本映射为同一个向量空间的两个向量，再利用各种相似度计算方法来计算两个向量之间的相似度，来得到该图文相似度。

根据本公开的实施例，通过图文匹配确定的段落配图可以是与该每一个视频段落数据具有最高的图文相似度的视频帧的图像。

根据本公开的实施例，对于视频包括的多个视频段落，可以将多个视频段落各自的视频段落数据和与多个视频段落各自对应的段落配图按设定的规则形成数据结构，以得到该视频的图文化处理结果。在需要对该视频进行展示时，可以基于该视频的图文化处理结果来进行该视频的信息展示。

根据本公开的实施例，对于视频库中的每个视频，可以利用大语言模型将视频分为多个视频段落，并确定每个视频段落的主题及摘要数据，即视频段落数据，再通过图文匹配的方式确定与每个视频段落对应的段落配图，多个视频段落各自的视频段落数据和多个视频段落各自对应的段落配图可以构成该视频的图文化处理结果。基于该图文化处理结果可以作为该视频的搜索返回结果进行展示，可以有效提升视频展示信息的信息丰富度，提升用户获取视频信息的效率，从而提升用户在视频搜索过程中的使用体验。

下面参考图3～图5，结合具体实施例对图2所示的方法做进一步说明。

根据本公开的实施例，对于视频库中的任意一个视频，在对该视频进行处理时，可以基于该视频包括的全部视频帧进行后续的视频处理，即可以从视频中抽取该视频的每一个视频帧，以得到多个视频帧。

根据本公开的实施例，为了提高视频播放的流畅性，视频的帧率呈不断增高的方向发展。较高的视频帧率会使得相邻的多个视频帧之间的相似度较高，在此情况下，使用视频包括的全部视频帧进行视频处理的方式会带来较高的计算资源开销。作为一种可选实施方式，可以从该视频的全部视频帧中抽取得到部分的视频帧，并基于该部分的视频帧进行后续的视频处理。

例如，从视频中抽取得到多个视频帧，可以包括如下操作：

基于预设采样周期对视频包括的多个初始视频帧进行采样处理，得到多个视频帧。

根据本公开的实施例，预设采样周期可以由用户预先设置。该预设采样周期可以使用时间为单位进行设置，例如设置为1s等，即在视频播放的过程中，每间隔1s便对视频进行一次采样，以得到多个视频帧。或者，该预设采样周期可以使用帧数为单位进行设置，例如设置为50帧，即可以将视频等分为多份子视频，每一份子视频包含的初始视频帧的数量为50个，并分别从每一份子视频中采样得到一个视频帧，如可以将每一份子视频包含的多个初始视频帧中的第一个初始视频帧作为采样得到的视频帧。

根据本公开的实施例，通过对视频进行采样抽取得到多个视频帧，可以在减少视频语义损失的同时，降低需要处理的视频帧的数量，从而降低视频处理的计算资源消耗。

根据本公开的实施例，对于抽取得到的多个视频帧，可以基于多个视频帧各自包含的文本内容进行视频段落的划分。具体地，利用大语言模型处理多个视频帧各自包含的文本信息，得到多个视频段落数据，可以包括如下操作：

对多个视频帧进行文本信息提取，得到多个视频帧各自的字幕文本；以及将多个视频帧各自的字幕文本输入大语言模型，得到多个视频段落数据。

根据本公开的实施例，视频帧中可以包含一个或多个文本块。在视频中，每种特定文本类型的文本块的位置一般可以位于对应的固定区域内，因此，可以基于与特定文本类型对应的固定区域，来获取特定文本类型的文本块。

例如，该特定文本类型可以为字幕文本，与字幕文本对应的固定区域可以表示为预设字幕文本区域。对于每一个视频帧，可以对每一个视频帧进行光学字符识别，确定每一个视频帧中包含的文本块；以及基于预设字幕文本区域和每一个视频帧中包含的文本块的位置，从每一个视频帧中包含的文本块中确定每一个视频帧的字幕文本。

根据本公开的实施例，基于预设字幕文本区域，可以从视频帧包含的文本块中得到目标文本块，再对目标文本块进行文字识别，以得到该视频帧的字幕文本。文字识别可以使用任意的自然语言处理方法或模型来实现，在此不作赘述。

图3示意性示出了根据本公开实施例的视频帧的示意图。

如图3所示，通过对视频帧300的光学字符识别，可以确定该视频帧300包含第一文本块301、第二文本块302和第三文本块303。其中，第一文本块301可以位于与字幕文本对应的固定区域，可以对该第一文本块301进行文字识别，以得到该视频帧300的字幕文本。相应地，第二文本块302可以位于与水印文本对应的固定区域，可以对该第二文本块302进行文本识别，以得到该视频帧300的水印文本。第三文本块303可以位于视频帧的图像内容所处的区域，可以对该第三文本块303进行文本识别，以得到该视频帧300的背景信息文本。

根据本公开的实施例，可以将多个视频帧各自的字幕文本输入到基于大语言模型的对话系统中，基于大语言模型的对话系统可以基于多个视频帧各自的字幕文本生成提示词实例，再将该提示词实例输入大语言模型中，得到该大语言模型的多个视频段落数据。基于多个视频帧各自的字幕文本生成的提示词实例例如可以表示为“你是一名专业的视频内容编辑，请发挥你的专业能力，根据我提供的视频字幕划分段落，并确定每个段落的开始时间，然后总结出每个段落的标题和摘要。在此过程中，字幕可能存在口误、错别字、序号缺失、标点符号缺失的问题，如果发现请务必订正和补充。视频字幕：时间戳1；文本1；时间戳2；文本2......”。

根据本公开的实施例，可选地，基于大语言模型的对话系统中可以利用大语言模型的模型插件，对于输入的多个视频帧各自的字幕文本进行多个步骤的处理，以得到多个视频段落数据。

例如，将多个视频帧各自的字幕文本输入大语言模型，得到多个视频段落数据，可以包括如下操作：

基于多个视频帧各自的字幕文本，利用大语言模型对多个视频帧进行聚类，得到多个视频段落，其中，视频段落包括连续的至少一个视频帧；将每一个视频段落包括的连续的至少一个视频帧各自的字幕文本进行拼接，得到每一个视频段落的段落文本；将每一个视频段落的段落文本输入大语言模型，得到每一个视频段落的段落标题和段落摘要；以及基于每一个视频段落的段落标题和段落摘要，得到视频段落数据。

根据本公开的实施例，利用大语言模型对多个视频帧进行聚类，可以是基于字幕文本的语义连贯性、语义相似度等因素，在相邻的两个视频帧各自的字幕文本之间语义连贯或语义相似时，可以将该相邻的两个视频帧聚合为一个视频段落。相应地，对于不相邻的两个视频帧，即便该不相邻的两个视频帧各自的字幕文本之间语义相似，也不会将该不相邻的两个视频帧聚合为一个视频段落。

例如，对于相邻的视频帧A1、视频帧A2和视频帧A3，在视频帧A1的字幕文本和视频帧A2的字幕文本之间语义连贯，视频帧A2的字幕文本和视频帧A3的字幕文本之间语义相似的情况下，可以将视频帧A1、视频帧A2和视频帧A3聚合为一个视频段落。

根据本公开的实施例，对多个视频帧的聚类、基于视频段落的段落文本生成段落标题和段落摘要等操作可以利用不同的模型插件来实现，在此不作限定。

根据本公开的实施例，可选地，在利用大语言模型对多个视频帧进行聚类之前，还可以利用大语言模型对该多个视频帧各自的字幕文本进行错别字修正、文本补全、标签符号补全等处理，以提高字幕文本的质量。

根据本公开的实施例，视频中的一个对话场景可以具有较长的时间跨越，相应地，多个视频帧中可以存在具有相同字幕文本的相邻的至少一个视频帧。作为一种可选实施方式，基于大语言模型的对话系统可以利用自然语言处理模型或大语言模型对多个视频帧各自相关的字幕文本进行合并处理，以去除相邻且重复的字幕文本，得到多个目标字幕文本。基于大语言模型的对话系统可以对该多个目标字幕文本进行处理，以得到多个视频段落数据。

如图4所示，对于输入该对话系统的N个字幕文本401，对话系统可以将N个字幕文本401输入到大语言模型402中，大语言模型402可以使用文本去重插件4021对N个字幕文本401进行去重处理，得到M个目标字幕文本402。N和M可以均为正整数，且N≥M。

该对话系统可以将M个目标字幕文本402输入到大语言模型402中，大语言模型402可以使用聚类插件4022，基于M个目标字幕文本403，对与M个目标字幕文本403分别对应的M个目标视频帧进行聚类处理，可以得到L个视频段落404。基于该L个视频段落404，对话系统可以将M个目标字幕文本403拼接为L个段落文本405。L可以为正整数，且L≤M。每个段落文本405可以与一个视频段落404相对应。

该对话系统可以将L个段落文本405输入到大语言模型402中，大语言模型402可以使用文本归纳插件4023，分别对每一个段落文本405进行总结归纳，得到与每一个段落文本405相对应的视频段落数据406，以得到L个视频段落数据406。与每一个段落文本405相对应的视频段落数据406可以由段落标题4061和段落摘要4062组成。

根据本公开的实施例，视频的图文化处理结果可以由文本部分和图像部分组成。文本部分即该视频的每一个视频段落的视频段落数据，图像部分可以表示为与视频段落数据对应的段落配图，该段落配图可以与视频段落数据相匹配，即该段落配图包含的语义信息可以与视频段落数据的语义信息近似。

根据本公开的实施例，将每一个视频段落数据与多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图，可以包括如下操作：

基于每一个视频段落数据对多个视频帧进行筛选，得到至少一个第一目标视频帧；将每一个视频段落数据分别与至少一个第一目标视频帧进行相似度计算，得到每一个视频段落数据与至少一个第一目标视频帧各自的图文相似度；基于每一个视频段落数据与至少一个第一目标视频帧各自的图文相似度，从至少一个第一目标视频帧中确定第二目标视频帧；以及将第二目标视频帧包括的视频图像作为与每一个视频段落数据对应的段落配图。

根据本公开的实施例，对视频帧进行筛选可以用于从多个视频帧中初筛得到与视频段落数据关联性更强、图像质量更好的至少一个第一目标视频帧，并从至少一个第一目标视频帧中确定用作该视频段落数据的段落配图。对视频帧进行筛选的方式在此不作限定。

例如，可以基于时间上的关联性，从多个视频帧中初筛得到与视频段落数据关联性更强至少一个第一目标视频帧。具体地，每个视频段落数据可以包括各自的段落时间戳，可以基于每一个视频段落数据的段落时间戳和每一个视频段落数据的下一个视频段落数据的段落时间戳，从多个视频帧中提取得到至少一个第三目标视频帧；以及基于至少一个第三目标视频帧，得到至少一个第一目标视频帧。

根据本公开的实施例，与视频段落类似地，每个视频帧可以具有对应的视频时间戳，每个视频段落的段落时间戳可以表示为该视频段落包括的至少一个视频帧中的第一个视频帧的视频时间戳。

根据本公开的实施例，可以直接将得到的至少一个第三目标视频帧作为初筛的至少一个第一目标视频帧。或者，还可以基于图像特征因素，从至少一个第三目标视频帧中筛选得到至少一个第一目标视频帧。

根据本公开的实施例，图像特征因素可以包括各种影响图像质量、影响处理效率的因素。例如，该图像特征因素可以是图像清晰度、图像语义丰度和图像间的相似度中的任意一种，或者，图像特征因素也可以是图像清晰度、图像语义丰度和图像间的相似度中的任意两种的组合，或图像清晰度、图像语义丰度和图像间的相似度的组合。

以图像特征因素为图像清晰度为例，对于每一个第三目标视频帧，可以计算每一个第三目标视频帧的清晰度，清晰度的计算方式可以包括但不限于laplace(拉普拉斯)算子、sobel(索贝尔)算子等。可以选择清晰度高于设定的阈值的第三目标视频帧作为第一目标视频帧，或者，也可以选择清晰度较高的一定比例的第三目标视频帧作为第一目标视频帧，在此不作限定。

根据本公开的实施例，可以将视频段落数据包括的段落摘要作为待匹配文本，分别计算该待匹配文本与至少一个第一目标视频帧各自的图文相似度，该图文相似度的计算可以使用CLIP模型来实现，在此不作赘述。可以选择图文相似度最高的第一目标视频帧的图像，即该第二目标视频帧的图像作为该视频段落的段落配图。

根据本公开的实施例，视频库中可以包括多种类型的视频，不同类型的视频各自的场景变化频率各自不同。例如，对于演讲类、访谈类的视频，该类视频的场景变化频率较低，即该类视频的大部分视频帧的图像内容较为相似。再例如，对于电视剧类、电影类的视频，该类视频的场景变化频率较高。又例如，对于一些个人用户上传的视频，该视频包括的多个视频帧各自的图像内容可以均是单色的图像，该类视频的场景变化频率可以为0。对于不同类型的视频，若采用相同的图文化处理方式，则基于场景变化频率较低的视频会生成多个类似的段落配图，在带来较高资源消耗的同时，也影响了用户的使用体验。作为一种可选实施方式，在得到与每一个视频段落数据对应的段落配图后，可以基于视频的类型对得到的段落配图进行处理，以得到该视频的目标段落配图。基于多个视频段落数据和该视频的目标段落配图，可以得到视频的图文化处理结果。

根据本公开的实施例，视频的类型可以基于该视频的视频标签来确定，例如，互联网平台中可以配置有一张关联关系表单，利用该关联关系表单，基于视频的视频标签可以得到该视频的类型，并基于该视频的类型，可以确定配图处理策略。

根据本公开的实施例，基于配图处理策略，对与多个视频段落数据各自对应的段落配图进行处理，得到视频的目标段落配图。

根据本公开的实施例，配图处理策略可以包括基于时间优先原则去除重复的段落配图、基于图像清晰度优先原则去除重复的段落配图、基于图像语义丰度优先原则去除重复的段落配图、删除全部段落配图等策略，在此不作限定。

例如，以基于时间优先原则去除重复的段落配图的配图处理策略为例，对于多个视频段落各自的段落配图，可以分别计算多个段落配图两两间的相似度，相似度可以利用SSIM(Structural Similarity，结构相似性)、PSNR(Peak Signal-to-Noise Ratio，峰值信噪比)、直方图匹配等方法计算得到，在此不作限定。可以设置一个相似度阈值，多个段落配图两两间的相似度在高于该相似度阈值时，可以认为与该相似度相关的两个段落配图重复，可以保留两个段落配图中段落时间戳表示的时间较早的段落配图。

再例如，以删除全部段落配图的配图处理策略为例，可以将确定的全部段落配图删除。或者，可以在图文匹配的操作步骤之前执行该确定配图处理策略的步骤，在确定配图处理策略为删除全部段落配图时，可以不执行图文匹配的操作。此时，可以使用预设空白图像作为该视频的目标段落配图。

根据本公开的实施例，处理得到的图文化处理结果可以写入到视频库中，并与该视频关联存储。在基于该视频库进行视频搜索时，可以在搜索结果页面上显示搜索得到的每一个视频的图文化处理结果。

如图5所示，该搜索结果页面可以包含视频B、视频C和视频D各自的图文化处理结果。其中，视频B的图文化处理结果可以包括段落配图B1、段落标题B1、段落摘要B1、段落配图B2、段落标题B2、段落摘要B2、段落配图B3、段落标题B3和段落摘要B3。视频C的图文化处理结果可以包括段落配图C1、段落标题C1、段落摘要C1、段落标题C2、段落摘要C2、段落配图C3、段落标题C3和段落摘要C3。视频D的图文化处理结果可以包括段落配图D1、段落标题D1、段落摘要D1、段落标题D2、段落摘要D2、段落标题D3和段落摘要D3。

图6示意性示出了根据本公开实施例的视频处理装置的框图。

如图6所示，视频处理装置600包括抽取模块610、第一处理模块620、匹配模块630和第二处理模块640。

抽取模块610，用于从视频中抽取得到多个视频帧；

第一处理模块620，用于利用大语言模型处理多个视频帧各自包含的文本信息，得到多个视频段落数据；

匹配模块630，用于将每一个视频段落数据与多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图；以及

第二处理模块640，用于基于多个视频段落数据和与多个视频段落数据各自对应的段落配图，得到视频的图文化处理结果。

根据本公开的实施例，匹配模块630包括第一匹配子模块、第二匹配子模块、第三匹配子模块和第四匹配子模块。

第一匹配子模块，用于基于每一个视频段落数据对多个视频帧进行筛选，得到至少一个第一目标视频帧；

第二匹配子模块，用于将每一个视频段落数据分别与至少一个第一目标视频帧进行相似度计算，得到每一个视频段落数据与至少一个第一目标视频帧各自的图文相似度；

第三匹配子模块，用于基于每一个视频段落数据与至少一个第一目标视频帧各自的图文相似度，从至少一个第一目标视频帧中确定第二目标视频帧；以及

第四匹配子模块，用于将第二目标视频帧包括的视频图像作为与每一个视频段落数据对应的段落配图。

根据本公开的实施例，视频段落数据包括段落时间戳；

根据本公开的实施例，第一匹配子模块包括第一匹配单元和第二匹配单元。

第一匹配单元，用于基于每一个视频段落数据的段落时间戳和每一个视频段落数据的下一个视频段落数据的段落时间戳，从多个视频帧中提取得到至少一个第三目标视频帧；以及

第二匹配单元，用于基于至少一个第三目标视频帧，得到至少一个第一目标视频帧。

根据本公开的实施例，第二匹配单元包括匹配子单元。

匹配子单元，用于基于图像特征因素，从至少一个第三目标视频帧中筛选得到至少一个第一目标视频帧。

根据本公开的实施例，图像特征因素至少包括以下任意一项：图像清晰度、图像语义丰度和图像问的相似度。

根据本公开的实施例，视频处理装置600还包括确定模块和第三处理模块。

确定模块，用于基于视频的视频标签，确定配图处理策略；以及

第三处理模块，用于基于配图处理策略，对与多个视频段落数据各自对应的段落配图进行处理，得到视频的目标段落配图；

根据本公开的实施例，第二处理模块640包括第一处理子模块。

第一处理子模块，用于基于多个视频段落数据和视频的目标段落配图，得到视频的图文化处理结果。

根据本公开的实施例，配图处理策略包括以下任意一项：基于时间优先原则去除重复的段落配图、基于图像清晰度优先原则去除重复的段落配图、基于图像语义丰度优先原则去除重复的段落配图和删除全部段落配图。

根据本公开的实施例，第三处理模块包括第二处理子模块。

第二处理子模块，用于在配图处理策略为删除全部段落配图的情况下，以预设空白图像作为视频的目标段落配图。

根据本公开的实施例，第一处理模块620包括第三处理子模块和第四处理子模块。

第三处理子模块，用于对多个视频帧进行文本信息提取，得到多个视频帧各自的字幕文本；以及

第四处理子模块，用于将多个视频帧各自的字幕文本输入大语言模型，得到多个视频段落数据。

根据本公开的实施例，第三处理子模块包括第一处理单元和第二处理单元。

第一处理单元，用于对每一个视频帧进行光学字符识别，确定每一个视频帧中包含的文本块；以及

第二处理单元，用于基于预设字幕文本区域和每一个视频帧中包含的文本块的位置，从每一个视频帧中包含的文本块中确定每一个视频帧的字幕文本。

根据本公开的实施例，第四处理子模块包括第三处理单元、第四处理单元、第五处理单元和第六处理单元。

第三处理单元，用于基于多个视频帧各自的字幕文本，利用大语言模型对多个视频帧进行聚类，得到多个视频段落，其中，视频段落包括连续的至少一个视频帧；

第四处理单元，用于将每一个视频段落包括的连续的至少一个视频帧各自的字幕文本进行拼接，得到每一个视频段落的段落文本；

第五处理单元，用于将每一个视频段落的段落文本输入大语言模型，得到每一个视频段落的段落标题和段落摘要；以及

第六处理单元，用于基于每一个视频段落的段落标题和段落摘要，得到视频段落数据。

根据本公开的实施例，视频处理装置600还包括第四处理模块。

第四处理模块，用于对与多个视频帧各自相关的字幕文本进行合并处理，得到多个目标字幕文本；

根据本公开的实施例，第四处理子模块包括第七处理单元。

第七处理单元，用于将多个目标字幕文本输入大语言模型，得到多个视频段落数据。

根据本公开的实施例，抽取模块610包括抽取子模块。

抽取子模块，用于基于预设采样周期对视频包括的多个初始视频帧进行采样处理，得到多个视频帧。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图7示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至输入/输出(I/O)接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如视频处理方法。例如，在一些实施例中，视频处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的视频处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频处理方法，包括：

从视频中抽取得到多个视频帧；

利用大语言模型处理所述多个视频帧各自包含的文本信息，得到多个视频段落数据；

将每一个视频段落数据与所述多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图；以及

基于所述多个视频段落数据和与所述多个视频段落数据各自对应的段落配图，得到所述视频的图文化处理结果。

2.根据权利要求1所述的方法，其中，所述将每一个视频段落数据与所述多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图，包括：

基于每一个视频段落数据对所述多个视频帧进行筛选，得到至少一个第一目标视频帧；

将每一个视频段落数据分别与所述至少一个第一目标视频帧进行相似度计算，得到每一个视频段落数据与所述至少一个第一目标视频帧各自的图文相似度；

基于每一个视频段落数据与所述至少一个第一目标视频帧各自的图文相似度，从所述至少一个第一目标视频帧中确定第二目标视频帧；以及

将所述第二目标视频帧包括的视频图像作为与每一个视频段落数据对应的段落配图。

3.根据权利要求2所述的方法，其中，所述视频段落数据包括段落时间戳；

其中，所述基于每一个视频段落数据对所述多个视频帧进行筛选，得到至少一个第一目标视频帧，包括：

基于每一个视频段落数据的段落时间戳和每一个视频段落数据的下一个视频段落数据的段落时间戳，从多个视频帧中提取得到所述至少一个第三目标视频帧；以及

基于所述至少一个第三目标视频帧，得到所述至少一个第一目标视频帧。

4.根据权利要求3所述的方法，其中，所述基于所述至少一个第三目标视频帧，得到所述至少一个第一目标视频帧，包括：

基于图像特征因素，从所述至少一个第三目标视频帧中筛选得到所述至少一个第一目标视频帧。

5.根据权利要求4所述的方法，其中，所述图像特征因素至少包括以下任意一项：

图像清晰度、图像语义丰度和图像间的相似度。

6.根据权利要求1所述的方法，还包括：

基于所述视频的视频标签，确定配图处理策略；以及

基于所述配图处理策略，对与所述多个视频段落数据各自对应的段落配图进行处理，得到所述视频的目标段落配图；

其中，所述基于所述多个视频段落数据和与所述多个视频段落数据各自对应的段落配图，得到所述视频的图文化处理结果，包括：

基于所述多个视频段落数据和所述视频的目标段落配图，得到所述视频的图文化处理结果。

7.根据权利要求6所述的方法，其中，所述配图处理策略包括以下任意一项：

基于时间优先原则去除重复的段落配图、基于图像清晰度优先原则去除重复的段落配图、基于图像语义丰度优先原则去除重复的段落配图和删除全部段落配图。

8.根据权利要求7所述的方法，其中，所述基于所述配图处理策略，对与所述多个视频段落数据各自对应的段落配图进行处理，得到所述视频的目标段落配图，包括：

在所述配图处理策略为删除全部段落配图的情况下，以预设空白图像作为所述视频的目标段落配图。

9.根据权利要求1所述的方法，其中，所述利用大语言模型处理所述多个视频帧各自包含的文本信息，得到多个视频段落数据，包括：

对所述多个视频帧进行文本信息提取，得到所述多个视频帧各自的字幕文本；以及

将所述多个视频帧各自的字幕文本输入大语言模型，得到所述多个视频段落数据。

10.根据权利要求9所述的方法，其中，所述对所述多个视频帧进行文本信息提取，得到所述多个视频帧各自的字幕文本，包括：

对每一个视频帧进行光学字符识别，确定每一个视频帧中包含的文本块；以及

基于预设字幕文本区域和每一个视频帧中包含的文本块的位置，从每一个视频帧中包含的文本块中确定每一个视频帧的字幕文本。

11.根据权利要求9所述的方法，其中，所述将所述多个视频帧各自的字幕文本输入大语言模型，得到所述多个视频段落数据，包括：

基于所述多个视频帧各自的字幕文本，利用所述大语言模型对所述多个视频帧进行聚类，得到多个视频段落，其中，所述视频段落包括连续的至少一个视频帧；

将每一个视频段落包括的连续的至少一个视频帧各自的字幕文本进行拼接，得到每一个视频段落的段落文本；

将每一个视频段落的段落文本输入所述大语言模型，得到每一个视频段落的段落标题和段落摘要；以及

基于每一个视频段落的段落标题和段落摘要，得到所述视频段落数据。

12.根据权利要求9所述的方法，还包括：

对与所述多个视频帧各自相关的字幕文本进行合并处理，得到多个目标字幕文本；

其中，所述将所述多个视频帧各自的字幕文本输入大语言模型，得到所述多个视频段落数据，包括：

将所述多个目标字幕文本输入所述大语言模型，得到所述多个视频段落数据。

13.根据权利要求1所述的方法，其中，所述从视频中抽取得到多个视频帧，包括：

基于预设采样周期对所述视频包括的多个初始视频帧进行采样处理，得到所述多个视频帧。

14.一种视频处理装置，包括：

抽取模块，用于从视频中抽取得到多个视频帧；

第一处理模块，用于利用大语言模型处理所述多个视频帧各自包含的文本信息，得到多个视频段落数据；

匹配模块，用于将每一个视频段落数据与所述多个视频帧进行图文匹配，得到与每一个视频段落数据对应的段落配图；以及

第二处理模块，用于基于所述多个视频段落数据和与所述多个视频段落数据各自对应的段落配图，得到所述视频的图文化处理结果。

15.根据权利要求14所述的装置，其中，所述匹配模块包括：

第一匹配子模块，用于基于每一个视频段落数据对所述多个视频帧进行筛选，得到至少一个第一目标视频帧；

第二匹配子模块，用于将每一个视频段落数据分别与所述至少一个第一目标视频帧进行相似度计算，得到每一个视频段落数据与所述至少一个第一目标视频帧各自的图文相似度；

第三匹配子模块，用于基于每一个视频段落数据与所述至少一个第一目标视频帧各自的图文相似度，从所述至少一个第一目标视频帧中确定第二目标视频帧；以及

第四匹配子模块，用于将所述第二目标视频帧包括的视频图像作为与每一个视频段落数据对应的段落配图。

16.根据权利要求15所述的装置，其中，所述视频段落数据包括段落时间戳；

其中，所述第一匹配子模块包括：

第一匹配单元，用于基于每一个视频段落数据的段落时间戳和每一个视频段落数据的下一个视频段落数据的段落时间戳，从多个视频帧中提取得到所述至少一个第三目标视频帧；以及

第二匹配单元，用于基于所述至少一个第三目标视频帧，得到所述至少一个第一目标视频帧。

17.根据权利要求16所述的装置，其中，所述第二匹配单元包括：

匹配子单元，用于基于图像特征因素，从所述至少一个第三目标视频帧中筛选得到所述至少一个第一目标视频帧。

18.根据权利要求17所述的装置，其中，所述图像特征因素至少包括以下任意一项：

图像清晰度、图像语义丰度和图像间的相似度。

19.根据权利要求14所述的装置，还包括：

确定模块，用于基于所述视频的视频标签，确定配图处理策略；以及

第三处理模块，用于基于所述配图处理策略，对与所述多个视频段落数据各自对应的段落配图进行处理，得到所述视频的目标段落配图；

其中，所述第二处理模块包括：

第一处理子模块，用于基于所述多个视频段落数据和所述视频的目标段落配图，得到所述视频的图文化处理结果。

20.根据权利要求19所述的装置，其中，所述配图处理策略包括以下任意一项：

21.根据权利要求20所述的装置，其中，所述第三处理模块包括：

第二处理子模块，用于在所述配图处理策略为删除全部段落配图的情况下，以预设空白图像作为所述视频的目标段落配图。

22.根据权利要求14所述的装置，其中，所述第一处理模块包括：

第三处理子模块，用于对所述多个视频帧进行文本信息提取，得到所述多个视频帧各自的字幕文本；以及

第四处理子模块，用于将所述多个视频帧各自的字幕文本输入大语言模型，得到所述多个视频段落数据。

23.根据权利要求22所述的装置，其中，所述第三处理子模块包括：

24.根据权利要求22所述的装置，其中，所述第四处理子模块包括：

第三处理单元，用于基于所述多个视频帧各自的字幕文本，利用所述大语言模型对所述多个视频帧进行聚类，得到多个视频段落，其中，所述视频段落包括连续的至少一个视频帧；

第五处理单元，用于将每一个视频段落的段落文本输入所述大语言模型，得到每一个视频段落的段落标题和段落摘要；以及

第六处理单元，用于基于每一个视频段落的段落标题和段落摘要，得到所述视频段落数据。

25.根据权利要求22所述的装置，还包括：

第四处理模块，用于对与所述多个视频帧各自相关的字幕文本进行合并处理，得到多个目标字幕文本；

其中，所述第四处理子模块包括：

第七处理单元，用于将所述多个目标字幕文本输入所述大语言模型，得到所述多个视频段落数据。

26.根据权利要求14所述的装置，其中，所述抽取模块包括：

抽取子模块，用于基于预设采样周期对所述视频包括的多个初始视频帧进行采样处理，得到所述多个视频帧。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-13中任一项所述的方法。