CN115438223A

CN115438223A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN115438223A
Application number: CN202211065122.XA
Authority: CN
Inventors: 李嘉桐; 傅文泽; 白刚
Original assignee: Douyin Vision Co Ltd
Current assignee: Douyin Vision Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-06
Anticipated expiration: 2042-09-01
Also published as: US20240078807A1; CN115438223B

Abstract

本申请公开了一种视频处理方法、装置、电子设备及存储介质，其中视频处理方法包括：获取待处理视频中的多个视频帧和与所述待处理视频对应的音频数据；从所述多个视频帧中，通过图文匹配模型确定包括目标对象的目标视频帧；从所述音频数据中确定与所述目标对象匹配的目标音频片段；在所述目标音频片段所对应视频中包括所述目标视频帧的情况下，从所述待处理视频中确定包括所述目标视频帧的目标视频片段。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本申请属于视频处理技术领域，具体涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

在视频处理过程中通常会遇到需要对特定物品进行剪辑的情况。例如，在电商直播领域中，直播电商通常以视频直播带货的形式呈现，且电商直播视频具有场次多、高时长、商品种类多、冗余信息多等特点；其中通过直播视频片段剪辑进行创意制作投放，已经被证明是引流的有效手段，这需要对特定商品进行视频剪辑。

而目前的视频剪辑技术并不能很准确以及快速的定位到特定商品所在的视频片段。

发明内容

本申请实施例提供一种视频处理方法、装置、电子设备及存储介质，以解决视频剪辑过程中不能准确定位到特定商品所在的视频片段的问题。

第一方面，本申请实施例提供了一种视频处理方法，包括：

获取待处理视频中的多个视频帧和与所述待处理视频对应的音频数据；

从所述多个视频帧中，通过图文匹配模型确定包括目标对象的目标视频帧；

从所述音频数据中确定与所述目标对象匹配的目标音频片段；

在所述目标音频片段所对应视频中包括所述目标视频帧的情况下，从所述待处理视频中确定包括所述目标视频帧的目标视频片段。

第二方面，本申请实施例提供了一种视频处理装置，包括：

获取模块，用于获取待处理视频中的多个视频帧和与所述待处理视频对应的音频数据；

第一确定模块，用于从所述多个视频帧中，通过图文匹配模型确定包括目标对象的目标视频帧；

第二确定模块，从所述音频数据中确定与所述目标对象匹配的目标音频片段；

第三确定模块，用于在所述目标音频片段所对应视频中包括所述目标视频帧的情况下，从所述待处理视频中确定包括所述目标视频帧的目标视频片段。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

本申请实施例通过获取待处理视频中的多个视频帧和待处理视频对应的音频数据，从多个视频帧中确定包括目标对象的目标视频帧，从音频数据中确定与目标对象匹配的目标音频片段，在目标音频片段所对应视频中包括目标视频帧的情况下，从待处理视频中确定包括目标视频帧的目标视频片段，实现了从图文匹配模型和音频匹配两个维度来确定包括目标视频帧的目标视频片段，提高了包括目标对象的视频片段的定位精度，解决了视频剪辑过程中不能准确定位到特定商品所在的视频片段的问题。

附图说明

图1是本申请实施例提供的一种视频处理方法的流程示意图；

图2是本申请实施例提供的待处理视频的划分片段的示意图；

图3是本申请实施例提供的另一种视频处理方法的流程示意图；

图4是本申请实施例提供的确定关键词语句的示意图；

图5是本申请实施例提供的确定关键词语句的示例的示意图；

图6是本申请实施例提供的图文匹配模型的匹配示意图；

图7是本申请实施例提供的视频处理装置的结构示意图；

图8是本申请的实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的道具的产出方法进行详细地说明。

图1示出了本发明的一个实施例提供的一种视频处理方法，该方法可以由电子设备执行，该电子设备可以包括：服务器和/或终端设备。换言之，该方法可以由安装在该电子设备的软件或硬件来执行，该方法包括如下步骤：

步骤101：获取待处理视频中的多个视频帧和与待处理视频对应的音频数据。

具体的，待处理视频可以是实时视频，例如电商直播视频；还可以是录制视频，例如电影视频等，在此不对待处理视频的类型进行限制。

该步骤中，具体的，可以对待处理视频进行音视频分离，从待处理视频中获取多个视频帧和与该待处理视频对应的音频数据。

步骤102：从多个视频帧中，通过图文匹配模型确定包括目标对象的目标视频帧。

具体的，目标对象可以是待处理视频中包括的任意对象。例如，在商品直播视频中，目标对象可以是商品，该商品可以为苹果、衣服等；在电影视频中，目标对象可以是特定人物或物体等。

图文匹配模型能够计算图片与文本之间的相似度，以实现通过文本搜索特征图像的目的。具体的，图文匹配模型可以为对比文本-图像预训练模型(Contrastive Language-Image Pre-Training，CLIP)。

在该步骤中可以先确定目标对象的图像和关键词，然后通过图文匹配模型从多个视频帧中确定包括目标对象的目标视频帧。

步骤103：从所述音频数据中确定与所述目标对象匹配的目标音频片段。

具体的，该步骤可以从音频数据中确定与所述目标对象匹配的目标音频片段，实现了从音频的维度定位目标对象。

在一个实施例中，可以将所述音频数据转化为文本信息；从所述文本信息中，确定包括所述目标对象的关键词的文本部分；将所述文本部分所对应的音频确定为所述目标音频片段。

具体的，本实施例将目标对象的关键词与音频数据转化的文本信息进行匹配，确定包括目标对象的关键词的文本部分，并将该文本部分所对应的音频确定为目标音频片段，这实现了通过目标对象的关键词与音频数据之间的匹配，来确定目标音频片段，从而实现了通过目标对象的关键词对目标音频片段的定位，并实现了将音频与关键词的匹配过程转换为文本与文本的匹配过程，提高了音频匹配的准确性和容易度。

具体的，包括目标对象的关键词的文本部分可以是包括目标对象的关键词的完整语句，也可以是该完整语句和与该完整语句相邻的完整语句。

此外，具体的，目标对象的关键词可以通过对目标对象的描述文本进行词性过滤得到；当然还可以直接将能够描述目标对象特征的词语确定为关键词。

其中，对目标对象的描述文本进行词性过滤得到关键词时，可以提取目标对象的多层级描述，将多层级描述的词语和目标对象的名称作为关键词。例如，作为一个示例，假设目标对象为樱桃，樱桃的多层级描述按照一级、二级、三级可以包括水果、进口水果、樱桃类，此时樱桃对应的关键词可以包括水果、进口水果、樱桃类和樱桃等。

步骤104：在目标音频片段所对应视频中包括目标视频帧的情况下，从待处理视频中确定包括目标视频帧的目标视频片段。

具体的，若目标音频片段所对应视频中包括目标视频帧，且由于目标音频片段与目标对象相匹配，目标视频帧包括目标对象，则可以说明目标视频帧包括目标对象的图像，目标视频帧所对应音频包括目标对象的文字性描述，实现了从图像维度和音频维度共同确定目标视频帧，提高了目标视频帧的定位准确性和定位精度。

此外，若目标音频片段所对应视频中包括目标视频帧，则可以从待处理视频中确定包括目标视频帧的目标视频片段，由于保证了目标视频帧的定位准确性，从而保证了目标视频片段的定位精度。

这样，本实施例通过图文匹配模型从多个视频帧中确定包括目标对象的目标视频帧，并从音频数据中确定与目标对象匹配的目标音频片段，在目标音频片段所对应视频中包括目标视频帧的情况下，从待处理视频中确定包括目标视频帧的目标视频片段，实现了通过图文匹配维度以及音频匹配维度共同来定位目标视频帧，提高了目标视频帧的定位精度，从而提高了包括目标对象的视频片段的定位精度，解决了视频剪辑过程中不能准确定位到特定商品所在的视频片段的问题。

在一种实现方式中，获取待处理视频中的多个视频帧时，可以根据所拍摄对象对所述待处理视频进行划分，得到至少一个划分片段，其中不同划分片段所对应的拍摄对象不同；从至少一个所述划分片段中分别抽取预设数量的视频帧，得到所述多个视频帧。

至少一个划分片段可以为待处理视频中所划分得到的全部的视频片段，当然也可以是部分视频片段。

预设数量可以为按实际情况进行设定，例如可以为3个。

例如，作为一个示例，如图2所示，为待处理视频的示意图，假设该待处理视频中的所拍摄对象包括樱桃a和收纳盒b，则可以按照樱桃a和收纳盒b对待处理视频进行划分，得到樱桃a所对应的划分片段A和收纳盒b所对应的划分片段B。

具体的，本实施例可以按照待处理视频中的所拍摄对象对待处理视频进行划分，不同拍摄对象对应不同的划分片段，这使得每个划分片段中的视频帧对应的都是同一个拍摄对象，即一个划分片段所包括的视频帧相似度较高，不同划分片段所包括的视频帧相似度较低，因此从至少一个划分片段中分别抽取预设数量的视频帧得到多个视频帧，使得所抽取到的多个视频帧之间的相似度较低，从而在保证了目标视频帧的来源数据的同时，保证了从多个视频帧中确定包括目标对象所对应图像的目标视频帧的概率。

此外，在一种实现方式中，从所述多个视频帧中，通过图文匹配模型确定包括目标对象所对应图像的目标视频帧时，可以包括如下步骤：

确定所述目标对象的关键词；根据所述关键词和所述多个视频帧，通过图文匹配模型确定所述目标视频帧；其中，所述图文匹配模型通过样本数据训练得到，所述样本数据包括样本视频帧和样本对象的关键词，所述样本视频帧的标签为所述样本视频帧是否包括所述样本对象所对应图像。

具体的，通过物品图片在长视频中找到待匹配的物品，可以看做是以图搜图问题，但是若物品图片样例较少，有时只有一张图片，则无法通过训练深度神经网络得到性能良好的目标检测器，因此，本实施例可以通过已有对象库训练得到大规模的图文匹配模型，并获取对象的关键词，实现将以图搜图问题转换为文本检索问题；图文匹配模型能够容纳亿级数据，泛化性很强，可以将对象的关键词和多个视频帧作为图文匹配模型的输入，从而提高了包括目标对象的目标视频帧的查找速度和查找质量。

图文匹配模型通过样本数据训练得到，样本数据包括样本视频帧和样本对象的关键词，这使得能够通过训练好的图文匹配模型基于输入的关键词和多个视频帧，确定目标视频帧。

当然，为了提高处理效率与精度可以先对待处理视频进行预处理。例如可以使用视频处理工具(例如FFMPEG)提取一系列视频关键帧(即本实施例中的多个视频帧)，减少所需处理的图片量级；然后基于显著性检测方式提取每张图片中的对象，提高每张图像的信噪比，为图文特征匹配打好基础。基于该部分工作，可以得到一系列时序对象图片作为视频表征。

在一种实现方式中，所述根据所述关键词和所述多个视频帧，通过图文匹配模型确定所述目标视频帧时，可以包括如下步骤：

通过所述图文匹配模型中的文本编码器对所述关键词进行文本特征提取，得到文本特征矩阵；通过所述图文匹配模型中的图像编码器对所述视频帧进行图像特征提取，得到图像特征矩阵；计算所述文本特征矩阵与所述图像特征矩阵之间的相似度矩阵；根据所述相似度矩阵，确定所述多个视频帧中每个所述视频帧与所述目标对象的相似度；根据所述相似度，确定所述目标视频帧。

具体的，本实施例的图文匹配模型是基于开源通用数据集预训练得到，在使用之前需要提取目标对象的文本描述，即目标对象的关键词。本实施例通过“多尺度搜索”的集成方案，提取了目标对象的多层级描述，将该目标对象的一级、二级、三级对象分类以及该对象自身名称作为关键词描述集合，进行多次图文匹配，最终将匹配分进行融合，得到最终结果，以提高匹配鲁棒性与精确度。

假设图文匹配模型为CLIP，则可以分别使用CLIP的图像编码器和文本编码器对视频帧与关键词进行特征提取，并对提取到每一个特征向量进行二范数意义上的归一化，以方便后续进行相似度的计算。假设视频帧的候选数量为M，关键词数量为N，特征向量的维度均为K，经过本步骤之后分别得到规模为M×K的图像特征矩阵Q与规模为N×K的文本特征矩阵P。

首先需要说明，图像特征矩阵Q的每行所对应的特征向量与特定时间节点的帧图像所关联。在此可以建立行下标索引i与待处理视频时间节点t之间的映射关系t＝f(i)，从而通过该映射关系能够从待处理视频中查找到对应的视频帧。

在此基础上，可以首先计算图像特征矩阵Q与文本特征矩阵P的相似度矩阵S，S＝Q×P^T，其中P^T为矩阵P的转置，相似度矩阵S的规模为M×N，然后可以根据该相似度矩阵确定多个视频帧中每个视频帧与目标对象的相似度，从而能够根据相似度，确定目标视频帧。可选的，在此可以根据不同的融合策略在第二维度进行缩减，得到针对不同图像的相似度向量S0，维度为M×1，且每个元素代表该帧图像与关键词的匹配程度。这样结合索引和时间节点的映射关系f(i)，可以找到与目标对象的关键词最为匹配的视频帧，从而实现目标对象的定位，以服务后续定位目标对象所在的视频片段。

需要说明的是，在从多个视频帧中，确定包括目标对象所对应图像的目标视频帧后，可以设置目标视频帧所在的划分片段对应的标签。例如，接续上述示例，假设目标对象为樱桃a，确定的目标视频帧为划分片段A中的视频帧，则可以将划分片段A的标签设置为樱桃，这实现了对待处理视频中划分片段按照对象进行标记分类。

此外，在一种实现方式中，从待处理视频中确定包括目标视频帧的目标视频片段，可以获取所述目标对象的图片；在所述图片与所述目标视频帧的置信度大于预设值的情况下，从所述待处理视频中确定包括所述目标视频帧的目标视频片段。

具体的，通过计算目标对象的图片与目标视频帧的置信度，并在图片与目标视频帧的置信度大于预设值的情况下，从待处理视频中确定包括目标视频帧的目标视频片段，这样实现了通过目标对象的图片对目标视频帧的进一步精细筛选，进一步提高了目标视频片段的定位准确度和速度。

还需要说明的是，若多个目标视频帧属于同一个划分片段，则可以从同一个划分片段中选择置信度最高的一个目标视频帧，从而使得每个划分片段中只保留一个目标视频帧，方便了目标对象所在视频帧的定位。

此外，在一种实现方式中，从所述待处理视频中确定包括所述目标视频帧的目标视频片段时，可以包括如下步骤：

根据所述目标视频帧在所述待处理视频中对所述目标对象进行跟踪，得到所述目标对象在所述待处理视频中的起始视觉位置和结束视觉位置；根据所述起始视觉位置和结束视觉位置，确定所述目标视频片段。

具体的，本实施例可以通过跟踪器，根据目标视频帧在待处理视频中对目标对象进行前向和后向跟踪，得到目标对象在待处理视频中的起始视觉位置和结束视觉位置，并根据起始视觉位置和结束视觉位置，确定目标视频片段，从而实现目标视频片段的定位。

此外，在一种实现方式中，根据所述起始视觉位置和结束视觉位置，确定所述目标视频片段时，可以包括如下步骤：对所述音频数据进行断句，确定与所述起始视觉位置相邻的断句起始点以及与所述结束视觉位置相邻的断句结束点；确定所述断句起始点与所述断句结束点之间的目标音频信息；在所述目标音频信息所对应的视频片段包括所述起始视觉位置和结束视位置的情况下，将所述目标音频信息所对应的视频片段确定为所述目标视频片段。

此外，由于目标视频片段是视觉上的完整片段，但是为了制作创意还需要音频完整，此时可以将待处理视频的音频信息进行断句，确定与起始视觉位置相邻的断句起始点以及与结束视觉位置相邻的断句结束点，若断句起始点与断句结束点之间的目标音频信息所对应的视频片段包括起始视觉位置和结束视位置，则可以将目标音频信息所对应的视频片段确定为目标视频片段，这实现了目标视频片段不仅是视觉上的完整片段，同时是音频上的完整片段，保证了目标视频片段的完整性。

下面以待处理视频为电商直播视频，目标对象为直播视频中的樱桃为例，通过图3对本申请中的一个实施例进行说明。

如图3所示，视频处理方法具体包括如下步骤：

首先，对待处理视频进行音视频分离，得到待处理视频对应的音频数据；针对音视频分离后的视频，按照所拍摄对象对待处理视频进行划分，得到不同拍摄对象对应的不同划分片段。当然在此可以对待处理视频进行分镜，得到不同场景对应的不同划分片段。

然后，可以从至少一个划分片段中分别抽取预设数量的视频帧，得到多个视频帧。例如从每个划分片段中抽取3个视频帧，从而得到多个视频帧。

然后，可以确定目标对象的关键词，具体可以从目标对象文本描述中提取关键词。例如此时目标对象樱桃的关键词可以包括：水果、进口水果、樱桃类、樱桃等；将所确定的关键词和所得到的多个视频帧输入至图文匹配模型中，通过图文匹配模型确定包括樱桃所对应图像的目标视频帧。

具体的，在进行目标对象的关键词提取时，可以先从待处理视频中提取关键词语句，从关键词语句中提取得到关键词。如图4所示，提取关键词语句时，可以先获取目标对象的全名，并进行词性过滤；然后通过自动语音识别技术得到待处理视频的音频数据对应的句子文本；将词性过滤后的词与句子文本进行模糊匹配并进行发音相似过滤，得到关键词语句。

作为一个示例，如图5所示，假设商品全名为“女士黑色热卖衣服”，进行词性、修饰词等过滤后得到“女士黑色衣服”；然后进行模糊匹配和发音匹配后得到“衣服”；最后整段视频做非极大值抑制(Non-Maximum Suppression，NMS)，得到“衣服”。

此外，具体的，通过图文匹配模型确定目标视频帧的具体过程可以如图6所示。假设图文匹配模型为CLIP，则可以分别使用CLIP的图像编码器和文本编码器对视频帧与关键词进行特征提取，并对提取到每一个特征向量进行二范数意义上的归一化，以方便后续进行相似度的计算。假设视频帧的候选数量为M，关键词数量为N，特征向量的维度均为K，经过本步骤之后分别得到规模为M×K的图像特征矩阵Q与规模为N×K的文本特征矩阵P。

再然后，将待处理视频的音频数据转化为文本信息，并从文本信息中确定包括目标对象“樱桃”的关键词的文本部分，将文本部分所对应的音频确定为目标音频片段，此时若目标音频片段所对应的视频帧中包括目标视频帧，则可以进入下一步骤，从而实现对目标视频帧的进一步精确定位。

再然后，获取目标对象樱桃的图片。具体的，樱桃图片由于包含樱桃标志等其他背景信息，会造成误判，因此，需要进行通用物体的显著性检测并抠图，得到干净的樱桃目标图。此外，还需要计算图片与目标视频帧的置信度，在图片与目标视频帧的置信度大于预设值的情况下，从待处理视频中确定包括目标视频帧的目标视频片段。当然，若存在多个目标视频帧属于同一个划分片段，则可以从该划分片段中选择置信度最高的目标视频帧。

具体的，在计算图片与目标视频帧的置信度时，可以使用待处理视频中所有已知的对象图提取边缘统计特征(如HOG)和颜色特征(如color name)，并将特征图级联作为多个对象特征模板，对目标视频帧做对应的对象目标检测，得到一个划分片段置信度最高的帧。

然后，可以使用跟踪器对目标对象做视频的前向、后向跟踪，得到目标对象樱桃在视频中起始和结束视觉位置。

再然后，由于上述片段是视觉上的完整片段，但是为了制作创意还需要音频完整，此时可以根据音频数据转化得到的文本语义进行断句，确定与起始视觉位置相邻的断句起始点以及与结束视觉位置相邻的断句结束点，若断句起始点与断句结束点之间的目标音频信息所对应的视频片段包括起始视觉位置和结束视位置，则可以将目标音频信息所对应的视频片段确定为目标视频片段，这实现了目标视频片段不仅是视觉上的完整片段，同时是音频上的完整片段，保证了目标视频片段的完整性。

具体的，在确定目标视频片段后，可以从待处理视频中对目标视频片段进行剪辑，或者进行视效处理等。

这样，通过上述过程实现了通过图文匹配过程和音频匹配过程两个维度来确定目标视频帧和目标视频片段，提高了包括目标对象的视频片段的定位精度，解决了视频剪辑过程中不能准确定位到特定商品所在的视频片段的问题。

图7示出本发明的一个实施例提供的一种视频处理装置的结构示意图。如图7所示，视频处理装置包括：

获取模块701，用于获取待处理视频中的多个视频帧和与所述待处理视频对应的音频数据；

第一确定模块702，用于从所述多个视频帧中，通过图文匹配模型确定包括目标对象的目标视频帧；

第二确定模块703，用于从所述音频数据中确定与所述目标对象匹配的目标音频片段；

第三确定模块704，用于在所述目标音频片段所对应视频中包括所述目标视频帧的情况下，从所述待处理视频中确定包括所述目标视频帧的目标视频片段。

在一种实现方式中，所述第一确定模块702具体用于，确定所述目标对象的关键词；根据所述关键词和所述多个视频帧，通过图文匹配模型确定所述目标视频帧；其中，所述图文匹配模型通过样本数据训练得到，所述样本数据包括样本视频帧和样本对象的关键词，所述样本视频帧的标签为所述样本视频帧是否包括所述样本对象所对应图像。

在一种实现方式中，所述第一确定模块702具体用于，通过所述图文匹配模型中的文本编码器对所述关键词进行文本特征提取，得到文本特征矩阵；通过所述图文匹配模型中的图像编码器对所述视频帧进行图像特征提取，得到图像特征矩阵；计算所述文本特征矩阵与所述图像特征矩阵之间的相似度矩阵；根据所述相似度矩阵，确定所述多个视频帧中每个所述视频帧与所述目标对象的相似度；根据所述相似度，确定所述目标视频帧。

在一种实现方式中，所述第二确定模块703用于，将所述音频数据转化为文本信息；从所述文本信息中，确定包括所述目标对象的关键词的文本部分；将所述文本部分所对应的音频确定为所述目标音频片段。

在一种实现方式中，获取模块701用于，根据所拍摄对象对所述待处理视频进行划分，得到至少一个划分片段，其中不同划分片段所对应的拍摄对象不同；从所述至少一个划分片段中分别抽取预设数量的视频帧，得到所述多个视频帧。

在一种实现方式中，所述第三确定模块704用于，获取所述目标对象的图片；在所述图片与所述目标视频帧的置信度大于预设值的情况下，从所述待处理视频中确定包括所述目标视频帧的目标视频片段。

在一种实现方式中，所述第二确定模块704用于，根据所述目标视频帧在所述待处理视频中对所述目标对象进行跟踪，得到所述目标对象在所述待处理视频中的起始视觉位置和结束视觉位置；根据所述起始视觉位置和结束视觉位置，确定所述目标视频片段。

在一种实现方式中，所述第三确定模块704用于，对所述音频数据进行断句，确定与所述起始视觉位置相邻的断句起始点以及与所述结束视觉位置相邻的断句结束点；确定所述断句起始点与所述断句结束点之间的目标音频信息；在所述目标音频信息所对应的视频片段包括所述起始视觉位置和结束视位置的情况下，将所述目标音频信息所对应的视频片段确定为所述目标视频片段。

本申请实施例提供的视频处理装置能够实现图1至图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

需要说明的是，本说明书中关于视频处理装置的实施例与本说明书中关于视频处理方法的实施例基于同一发明构思，因此关于视频处理装置实施例的具体实施可以参见前述对应的关于视频处理方法实施例的实施，重复之处不再赘述。

本申请实施例中的视频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

基于相同的技术构思，如图8所示，本申请实施例还提供了一种电子设备800，包括处理器801和存储器802，存储器802上存储有可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现：获取待处理视频中的多个视频帧和与所述待处理视频对应的音频数据；从所述多个视频帧中，通过图文匹配模型确定包括目标对象的目标视频帧；从所述音频数据中确定与所述目标对象匹配的目标音频片段；在所述目标音频片段所对应视频中包括所述目标视频帧的情况下，从所述待处理视频中确定包括所述目标视频帧的目标视频片段。

具体执行步骤可以参见上述视频处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括：服务器、终端或除终端之外的其他设备。

以上电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，例如，输入单元，可以包括图形处理器(Graphics Processing Unit，GPU)和麦克风，显示单元可以采用液晶显示器、有机发光二极管等形式来配置显示面板。用户输入单元包括触控面板以及其他输入设备中的至少一种。触控面板也称为触摸屏。其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器可用于存储软件程序以及各种数据。存储器可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器可以包括易失性存储器或非易失性存储器，或者，存储器可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。

处理器可包括一个或多个处理单元；可选的，处理器集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的视频处理方法，其特征在于，所述从所述多个视频帧中，通过图文匹配模型确定包括目标对象的目标视频帧，包括：

确定所述目标对象的关键词；

根据所述关键词和所述多个视频帧，通过图文匹配模型确定所述目标视频帧；

其中，所述图文匹配模型通过样本数据训练得到，所述样本数据包括样本视频帧和样本对象的关键词，所述样本视频帧的标签为所述样本视频帧是否包括所述样本对象所对应图像。

3.根据权利要求2所述的视频处理方法，其特征在于，所述根据所述关键词和所述多个视频帧，通过图文匹配模型确定所述目标视频帧，包括：

通过所述图文匹配模型中的文本编码器对所述关键词进行文本特征提取，得到文本特征矩阵；

通过所述图文匹配模型中的图像编码器对所述视频帧进行图像特征提取，得到图像特征矩阵；

计算所述文本特征矩阵与所述图像特征矩阵之间的相似度矩阵；

根据所述相似度矩阵，确定所述多个视频帧中每个所述视频帧与所述目标对象的相似度；

根据所述相似度，确定所述目标视频帧。

4.根据权利要求1或2所述的视频处理方法，其特征在于，所述从所述音频数据中确定与所述目标对象匹配的目标音频片段，包括：

将所述音频数据转化为文本信息；

从所述文本信息中，确定包括所述目标对象的关键词的文本部分；

将所述文本部分所对应的音频确定为所述目标音频片段。

5.根据权利要求1所述的视频处理方法，其特征在于，所述获取待处理视频中的多个视频帧，包括：

根据所拍摄对象对所述待处理视频进行划分，得到至少一个划分片段，其中不同划分片段所对应的拍摄对象不同；

从所述至少一个划分片段中分别抽取预设数量的视频帧，得到所述多个视频帧。

6.根据权利要求1所述的视频处理方法，其特征在于，所述从所述待处理视频中确定包括所述目标视频帧的目标视频片段，包括：

获取所述目标对象的图片；

在所述图片与所述目标视频帧的置信度大于预设值的情况下，从所述待处理视频中确定包括所述目标视频帧的目标视频片段。

7.根据权利要求1所述的视频处理方法，其特征在于，所述从所述待处理视频中确定包括所述目标视频帧的目标视频片段，包括：

根据所述目标视频帧在所述待处理视频中对所述目标对象进行跟踪，得到所述目标对象在所述待处理视频中的起始视觉位置和结束视觉位置；

根据所述起始视觉位置和结束视觉位置，确定所述目标视频片段。

8.根据权利要求7所述的视频处理方法，其特征在于，所述根据所述起始视觉位置和结束视觉位置，确定所述目标视频片段，包括：

对所述音频数据进行断句，确定与所述起始视觉位置相邻的断句起始点以及与所述结束视觉位置相邻的断句结束点；

确定所述断句起始点与所述断句结束点之间的目标音频信息；

在所述目标音频信息所对应的视频片段包括所述起始视觉位置和结束视位置的情况下，将所述目标音频信息所对应的视频片段确定为所述目标视频片段。

9.一种视频处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-8任一项所述的视频处理方法的步骤。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-8任一项所述的视频处理方法的步骤。