CN117708376A

CN117708376A - 视频处理方法、可读存储介质及电子设备

Info

Publication number: CN117708376A
Application number: CN202310879105.8A
Authority: CN
Inventors: 李宇; 庄骏飞; 蒋雪涵; 王龙
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2024-03-15

Abstract

本申请涉及终端技术领域，公开了一种视频处理方法、可读存储介质及电子设备。本申请的视频处理方法包括：电子设备在识别视频主题时，提取待处理视频的文本信息和视觉信息，并基于待处理视频的文本信息和视觉信息等模态得到待处理视频的主题。通过本申请，即使待处理视频只能提供视觉信息，电子设备也能从待处理视频中提取出相关的文本信息，并根据多模态的视频处理方法获得待处理视频的主题。

Description

视频处理方法、可读存储介质及电子设备

技术领域

本申请涉及终端技术领域，特别涉及一种视频处理方法、可读存储介质及电子设备。

背景技术

电子设备可以根据视频的主题进行分类，或者基于视频的主题实现相关功能。例如，电子设备在根据用户操作对视频进行编辑、剪辑或制作视频时，可以根据视频的主题，为用户提供与该视频相匹配的视频模板。

视频是由多张图像画面组合而成，每一张图像画面都可以称为图像帧。目前，识别视频主题的方法一般是根据视频的各个图像帧中所包括的元素来确定视频主题。例如，电子设备在多个图像帧的画面中检测到包括“树木”的图像帧最多，则可以将视频的主题确定为“自然”。但是，仅根据视频中各帧图像中的元素的种类来确定视频的主题的精度较低。

例如，用户在旅游时拍摄的视频所包括的图像帧中，各个图像帧中可以包括“人物”，“美食”，“树木”等元素。如果该视频中包括“树木”的图像帧最多，电子设备会将该视频的主题确定为“自然”。而该视频实际对应的主题是“旅游”，导致视频主题识别错误。

发明内容

本申请实施例提供了一种视频处理方法、可读存储介质及电子设备。

第一方面，本申请实施例提供了一种视频处理方法，应用于电子设备中，该方法包括：获取待处理视频，提取待处理视频的文本信息和视觉信息；将待处理视频的文本信息和视觉信息输入第一模型中，得到待处理视频的主题。

可以理解，在本申请的一些实施例中，文本信息在下文中也可以被称为视频的描述文本。通过本申请的方法，即使待处理视频智能提供视觉信息，电子设备也能从待处理视频中提出待处理视频的文本信息，并根据文本信息和视觉信息等多个模态得到待处理视频的主题，有利于提高确定出的待处理视频的主题的精度。

在上述第一方面的一种可能的实现中，上述提取待处理视频的文本信息和视觉信息，包括：获取待处理视频的至少一个关键帧；将至少一个关键帧输入描述文本提取模型，得到关键帧的描述文本；基于至少一个关键帧的描述文本得到文本信息。

可以理解，在本申请的一些实施例中，如果待处理视频只有一个关键帧，则将该关键帧的描述文本作为待处理视频的文本信息。如果待处理视频有多个关键帧，则将所有关键帧的描述文本合并，作为待处理视频的文本信息。

在上述第一方面的一种可能的实现中，上述获取待处理视频的关键帧，包括：获取待处理视频的多个图像帧；将多个图像帧分为多个镜头组，其中，每个镜头组中的各图像帧之间的相似度超过第一相似度阈值；在每个镜头组中选择一帧图像帧作为关键帧。

在上述第一方面的一种可能的实现中，上述将关键帧输入描述文本提取模型，获得关键帧的描述文本，包括：描述文本提取模型包括图像编码模块，对齐模块和解码模块；图像编码模块提取关键帧的第一图像特征；对齐模块基于第一图像特征得到输出文本特征；解码模块对输出文本特征进行解码的到关键帧的描述文本。

可以理解，描述文本提取模型在下文中例如还可以称为标签模型，第一图像特征例如可以是指代关键帧的向量，输出文本特征例如可以是指代描述文本的向量。描述文本提取模型中的对齐模块中还包括第一参数，基于第一参数能够将第一图像特征调整成输出文本特征。在训练描述文本提取模型时，可以将包括样本图像和对应样本图像的标签文本输入描述文本提取模型，训练对齐模块的第一参数。描述文本提取模型的训练过程见下文描述。

基于描述文本提取模型能够根据待处理视频的关键帧获取关键帧的描述文本，并从而基于关键帧的描述文本生成待处理视频的文本信息，以此即使待处理视频只提供视觉信息，本申请也能根据待处理视频获取文本信息。

在上述第一方面的一种可能的实现中，视觉信息包括至少一个关键帧。

可以理解，在本申请的一些实施例中，视觉信息例如可以是待处理视频的关键帧，若待处理视频只有一个关键帧，则待处理视频的视觉特征为该关键帧。如果待处理视频包括多个关键帧，则视觉特征为多个关键帧。

在上述第一方面的一种可能的实现中，第一模型包括文本编码模块和视觉编码模块；将待处理视频的文本信息和视觉信息输入第一模型中，得到待处理视频的主题包括：利用文本编码模块对文本信息进行特征提取，得到文本信息对应的第一文本特征；利用视觉编码模块对视觉信息进行特征提取，得到视觉信息对应的视觉特征；基于第一文本特征和视觉特征确定待处理视频的主题。

可以理解，在本申请的实施例中，文本编码模块输出的第一文本特征例如可以是指代文本信息的向量。视觉编码模块输出的视觉特征例如可以是指代视觉信息的向量，并且第一文本特征的向量和视觉特征的向量是同一种向量，能够进行运算。

在上述第一方面的一种可能的实现中，基于第一文本特征和视觉特征确定待处理视频的主题，包括：基于第一文本特征以及预设的多个主题所对应的多个主题文本特征，得到对应多个主题的多个第二文本特征；将与视觉特征相似度最高的第二文本特征对应的主题，作为待处理视频的主题。

可以理解，在本申请的实施例中，多个主题文本特征例如可以是指代预设的多个主题的向量，多个主题特征的向量与第一文本特征的向量也是同一种向量。并且多个第二文本特征为第一文本特征与每个主题文本特征合并获得，即第二文本特征的数目与主题文本特征的数目相同。在得到视觉特征和多个第二文本特征后，即可确定视觉特征与多个第二文本的相似度，选择与视觉特征相似度最高的第二文本对应的主题作为待处理视频的主题，以此，在待处理视频只提供视觉信息时，本申请也能根据待处理视频的文本信息和视觉信息确定待处理视频的主题，从而可以提高电子设备确定出的待处理视频的主题的准确性。

在上述第一方面的一种可能的实现中，多个主题文本特征的获取方法包括：利用文本编码模块对多个主题进行特征提取，得到多个主题对应的多个主题文本特征。

可以理解，在本申请的一些实施例中，可以将电子设备预先存储的多个主题输入到第一模型中的文本编码模块中，从而获得多个主题文本特征。在本申请的另一些实施例中，电子设备中还可以直接预先存储好对应多个主题的多个主题文本特征，这样就不用再通过文本编码模块提取多个主题的特征，从而减少电子设备识别待处理视频的主题的步骤。

第二方面，本申请实施例提供了一种电子设备，该电子设备包括：存储器，用于存储指令；至少一个处理器，用于执行指令以使得电子设备实现上述第一方面及上述第一方面的任意一种可能实现提供的视频处理方法。

第三方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储有指令，指令在计算机上执行时，使计算机执行上述第一方面及上述第一方面的任意一种可能实现提供的视频处理方法。

第四方面，本申请实施例提供一种程序产品，该程序产品在电子设备上运行时使得电子设备实现上述第一方面及上述第一方面的任意一种可能实现提供的视频处理方法。

应理解，上述第二方面至第四方面的有益效果可以参考前述第一方面的描述，在此不做赘述。

附图说明

图1示出了一种电子设备识别视频主题的场景；

图2示出了一种识别视频主题的场景图；

图3示出了一种基于多模态视频分类方法识别视频主题的示意图；

图4根据本申请的一些实施例，示出了一种视频处理方法的实施流程图；

图5根据本申请的一些实施例，示出了一种视频主题识别方法的示意图；

图6a根据本申请的一些实施例，示出了一种标签模型的训练方法的示意图；

图6b根据本申请的一些实施例，示出了一种标签模型的训练方法的实施流程图；

图7a根据本申请的一些实施例，示出了一种训练视觉编码模块和文本编码模块方法的示意图；

图7b根据本申请的一些实施例，示出了一种训练视频编码模块和文本编码模块的实施流程图；

图8根据本申请的一些实施例，示出了一种手机的结构示意图。

具体实施方式

本申请的说明性实施例包括但不限于视频处理方法、可读存储介质及电子设备。

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合说明书附图以及具体的实施方式对本申请实施例中的技术方案进行详细的说明。

下面以手机图库应用中的一键大片功能为例，介绍视频主题识别的应用场景。

图1示出了一种电子设备识别视频主题的场景。

如图1所示，在手机100图库的创作界面10包含供用户对图库中的图片或者视频操作的图标，例如一键大片图标11，剪辑图标12，自由创作图标13，微电影创作图标14以及拼图图标15等。用户点击一键大片图标11后，电子设备100响应用户的点击操作，进入选择素材界面20。

用户在选择素材界面20选择相应的视频或者图片作为视频素材用以生成目标视频31。例如，在手机100的选择素材界面20上被选中的视频被标记了1、2、3。在选择素材界面20上还显示有一键大片按钮21，以及提示用户选择视频素材的提示框“已选择3项”。用户选择完视频素材后点击一键大片按钮21，手机100响应用户的点击操作根据用户选择的视频素材的内容确定出生成的目标视频31的主题，并根据该主题选择目标视频31的模板，再根据该模板生成目标视频31的预览视频并进入视频界面30。手机100的视频界面30上显示有通过用户选择的素材生成的视频31、模板图标32以及导出按钮33。在用户点击导出按钮33时，手机100响应用户的点击操作，导出目标视频31，完成目标视频31的制作。

在另一些实施例中，用户也可以点击模板图标32查看当前目标视频31的模板主题。用户在点击模板32的图标后，手机100的响应用户的点击操作，进入视频界面30’。视频界面30’上显示了模板类型34，例如推荐模板、热门模板，夏日模板等。以及对应模板类型34的模板主题35，例如在推荐模板类型中，包括自然1主题模板、自然2题模板、自然3主题模板等。当前目标视频31的模板主题是推荐的自然主题，用户还可以选择其他模板作为目标视频31的主题。用户确定完目标视频31的主题后即可点击导出按钮33导出视频31。

可以理解，上述手机100在生成目标视频31以及生成推荐模板的时候会先确定用户选择的视频的主题，并根据确定出的主题使用该主题对应的模板生成目标视频31，或者推荐相应的模板。

在一些实施例中，在手机100确定视频主题的时候，一般都是通过视频中所有图像帧的视觉信息来确定。例如，手机100可以确定每个图像帧对应元素的类型(例如人物、树木、动物等)，并基于出现帧数的最多的一种元素类型来确定视频主题。由于一种类型的元素可以对应不同的视频主题，例如，树木元素可以对应自然主题，也可以对应旅游主题等。因此，仅通过视频的视觉信息确定视频的主题不够准确。导致手机100推荐的处理视频的模板也不够准确，用户还需要自己查找适合的主题，降低用户的使用体验。

例如，图2示出了一种识别视频主题的场景图。

下面以手机100的图库中一键大片的功能通过用户旅游时拍摄的视频制作目标视频为例，介绍手机100识别视频主题的场景图。其中目标视频的时间为13s，帧率为60帧/s。

如图2所示，用户选择了3段视频为视频素材，通过一键大片的功能生成目标视频。目标视频的第一段视频从t0＝0s开始到t1＝6s结束，时长为t1-t0＝6s。则第一段视频的图像帧有60帧/s×6s＝360帧，其中有360帧图像中出现了树木，60帧图像中出现了动物。

目标视频的第二段视频从t1＝6s开始到t2＝10s结束，时长为t2-t1＝4s。则第二段视频的图像帧有60帧/s×4s＝240帧，其中有240帧图像中出现了动物，70帧图像中出现了树木。

目标视频的第三段视频从t2＝10s开始到t3＝13s结束，时长为t3-t2＝3s。则第三段视频的图像帧有60帧/s×3s＝180帧，其中180帧图像全是人物。

电子设备在确定目标视频的主题时，会检测目标视频的图像帧中出现的所有元素的数目，并以图像帧数目最多的元素确定目标视频主题。例如，电子设备检测到有360帧+70帧＝430帧图像中包含树木，60帧+240帧＝300帧图像包含动物，180帧图像包含人物。可见，包含树木的图像帧最多，电子设备会将目标视频的主题确定为自然主题。此时，电子设备在向用户推荐目标视频的模板的时候推荐的是自然主题所对应的视频模板。但是，用户选择制作目标视频的一些视频都是在旅游时拍摄的。上述确定目标视频主题的方法仅仅根据目标视频的图像帧中，树木元素出现的次数最多就确定目标视频的主题为自然主题。因此，可以理解，只通过目标视频的视觉信息确定目标视频的主题不够准确。

为了解决上述问题，在一些实施例中，电子设备可以基于训练好的多模态视频分类模型来识别视频的主题。其中模态表示获取信息的来源。例如在一个视频中，视频提供视觉信息为一种模态，音频信息为一种模态，视频中如果包含文本，则文本信息也是一种模态。多模态的视频分类模型可以根据视频的至少两个模态的信息确定视频的主题。

例如，图3示出了一种基于多模态视频分类方法识别视频主题的示意图。

如图3所示，与图2实施例不同的是，在电子设备在识别视频主题时需要视频的多个模态信息，例如视频的视觉信息，与视频有关的音频信息以及文本信息。其中，音频信息例如可以是用户拍摄视频的同时录入的音频。文本信息例如可以是用户在视频中插入的文本，该文本例如是用户输入的对视频的描述，以及在视频中插入的标签文字等。

应理解，在图3中电子设备可以将视频的视觉信息、音频信息以及文本信息共同输入到多模态视频分类模型中，基于多模态视频分类模型识别出视频的更高阶语义的主题。高阶语义的视频主题例如可以是包含多种元素内容的主题，例如，旅游的主题可以包含山水，建筑，人物，美食等元素。

但是，由于多模态视频分类模型需要根据视频的视觉信息、音频信息以及文本信息等多个模态才能识别出更高阶语义的视频主题。如果用户在拍摄视频时没有录入音频，或者音频中没有可以用于识别的信息，同时，用户也没有输入视频相关的文本信息。因此视频只能提供视觉信息，无法提供多个模态的信息，则会导致电子设备中的多模态视频分类模型只能从单个模态识别视频主题，识别结果的准确度较低。

为了解决上述通过多模态视频分类方法识别视频主题需要多模态信息的问题，本申请提供了一种视频的处理方法。在电子设备识别视频的视频主题时，可以先利用描述文本提取模型得到视频的描述文本。然后电子设备可以基于描述文本与视频中的视觉信息，来得到视频的主题。如此，即便视频本身只包括视觉信息，电子设备也中可以基于多种模态的信息来确定视频的主题，有利于提高电子设备确定视频的主题的准确度。

例如，对于图3实施例中只包含视觉信息的视频，可以利用描述文本提取模型确定视频的描述文本，然后根据视频的视觉信息和描述文本等多模态的信息来确定视频的主题。

在一些实施例中，描述文本提取模型可以是预训练标签模型，电子设备可以将视频的关键帧输入标签模型得到视频的描述文本。标签模型的训练过程将在下文进行介绍，在此不做赘述。

在通过标签模型得到视频的描述文本后，电子设备可以将视频的描述文本输入到文本编码器中得到视频的描述文本的第一文本特征。然后，将第一文本特征分别与多个主题对应的多个主题文本特征相加，得到与多个主题相对应的多个第二文本特征。

应理解，在一些实施例中，每个主题对应的主题文本特征可以通过将每个主题对应的文本描述输入到前述标签模型中得到。

然后，电子设备将视频的关键帧输入到视觉编码器中提取视频的视觉特征，然后获取视觉特征和各个第二文本特征等多模态信息的相似度，并将与视觉特征相似度最高的第二文本特征对应的主题确定为视频主题。

应理解，关键帧表示视频中相似度低于相似度阈值的各个图像帧。例如，视频有60帧图像，其中第一帧图像后的29帧图像与第一帧图像的相似度超过相似度阈值，则可以以第一帧图像为一个关键帧，该关键帧表征了前30帧图像的内容。视频的第31帧图像与前30帧图像的相似度低于相似度阈值，但是第31帧之后的29帧图像与第31帧图像的相似度高于相似度阈值，则可以以第31帧图像作为第二个关键帧，即视频中有两帧关键帧。

在另一些实施例中，相似的图像帧中可以提取任意一帧图像作为关键帧。例如，上述视频的60帧图像中，可以从前30帧相似的图像中提取任意一帧图像作为关键帧，在后30帧图像相似的图像中，也可以任意提取一帧图像作为后30帧图像的关键帧。

应理解，关键帧的描述文本表示关键帧中元素的文本内容。例如关键帧的图像中包括人物、森林、船等元素，则关键帧描述文本可以为人物、森林、船。视频的描述文本可以包括视频中所有关键帧的描述文本，例如将所有关键帧的描述文本进行拼接，得到视频的描述文本。

第一文本特征例如可以是通过文本编码器识别上述关键帧文本描述获得的指代关键帧文本表述的向量，主题文本特征例如可以是通过文本编码器识别主题文本获得的指代主题文本的向量，主题文本例如可以是旅游、萌宠、亲子等，即主题文本就是主题的名字。

标签模型例如是根据训练样本训练出的能够基于输入的图片获取对应图片的描述文本的模型。训练样本例如可以包括样本图像，和样本图像对应的描述文本。标签模型的训练过程见下文描述。

第二文本特征由第一文本特征与各个主题文本特征合并获得，第一文本特征与一个主题文本对应的主题文本特征合并获得一个第二文本特征，即第二文本特征的个数与主题文本特征的个数相同。

视觉特征例如可以是基于视觉编码器识别所有的关键帧获得的指代视频内容的向量。

可以理解，本申请各实施例中的多个模型可以相互结合形成各个新模型，例如，将标签模型的输出端作为文本编码器的输入端，形成一个用于提取关键帧的第一文本特征的模型。或者多个模型合并成一个模型，即上述所有的模型共同组成用于确定视频主题的模型。

通过本方案，即使视频不包含多模态信息(例如视频中只包含视觉信息)，电子设备也可以获取视频的关键帧，将关键帧带入第一模型中获取描述关键帧的第一文本特征，再将第一文本特征与预设的各个主题文本特征合并，生成与主题对应的多个第二文本特征，预设的主题文本特征中包括高阶语义的视频主题的特征。电子设备再将视频的关键帧输入第视觉编码器中获取视觉特征，然后获取视频的视觉特征与多个第二文本特征的相似度，选择与视觉特征相似度最高的第二文本特征中对应的主题作为视频主题，以此实现通过多模态对视频分类，准确识别符合视频的高阶语义视频主题。

图4根据本申请的实施例示出了一种视频处理方法的实施流程图。

可以理解，本申请实施例所提供的视频处理方法，所适用的电子设备可以包括但不限于：手机100、平板、电脑、智能手表、车机会议终端、桌面型、膝上型、手持计算机、上网本，以及增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能电视、智能手表等可穿戴设备、服务器、便携式游戏机、便携式音乐播放器、阅读器设备、嵌入或耦接有一个或多个处理器并能够处理视频的其他电子设备。

可以理解，下列各实施流程中的实施主体均可以为电子设备，在描述各个实施流程时，不重复介绍各个执行主体。

如图4所示，该实施流程包括：

401，对视频素材进行分镜处理，提取关键帧。

示例性地，用户在通过电子设备处理视频时先选择视频素材，视频素材例如可以包括视频或者图片。对视频的分镜处理例如可以是将视频中相似度高于相似度阈值图像帧分成一组镜头，提取的关键帧例如可以是从每组镜头中提取一帧图像帧作为关键帧。可以理解关键帧可以表示视频中相似度低于相似度阈值的图像帧。

视频素材如果是图片，对于图片的分镜处理例如可以是基于图片与图片间的相似度是否超过相似度阈值，确定多张图片是否属于一组镜头，并在一组镜头中选择一张图片作为关键帧。或者基于图片与视频的图像帧的相似度是否超过相似度阈值，确定将图片与视频帧分为一组镜头，并在一组镜头中选择一帧图像帧或者选择图片作为关键帧。

如图2实施例所示，视频素材一共有三段视频，相似度阈值以0.9为例。第一段视频中有60帧图像包括同一动物和同一树木，这60帧图像中，后59帧图像与第一帧图像的相似度均超过0.9则可以将这60帧图像分成第一组镜头，并选择第一帧图像作为关键帧。而剩下的300帧图像中为均为同一树木，并且在剩下的300帧图像中，后299帧的图像与第一帧图像的相似度均超过0.9，则剩下的300帧图像分为第二组镜头，并在这300帧图像中选择第一帧图像作为关键帧。

在第二段视频中，有70帧图像包括了动物和树木，如果这70帧图像的动物和树木与上述第一段视频的60帧图像中的树木和动物相同，并且，这70帧图像与第一段视频中第一组镜头的关键帧的相似度超过0.9，则将这70帧图像分为第一组镜头。同样，在第二段视频中还有170帧图像仅为树木，这170帧图像与第一段视频的第二组镜头中的关键帧的相似度超过0.9，则将此170帧图像分到第二组镜头。

第三段视频中，电子设备识别出180帧图像全是同一个人物，与第一组镜头的关键帧和第二组镜头的关键帧的相似度均低于0.9。并且，这180帧图像中，第一帧图像与后179帧图像的相似度超过0.9，则可以将此180帧图像分为第三组镜头，并将这180帧图像中的第一帧图像作为关键帧。

402，将关键帧输入标签模型，生成视频的描述文本。

示例性地，标签模型例如可以根据图像上的画面识别出图像中的元素的文本。在获取每一帧关键帧的描述文本后，即可生成视频的描述文本。若视频只有一帧关键帧，则该帧关键帧的描述文本即为视频的描述文本。如果视频包括多帧关键帧，则将多帧关键帧的所有描述文本作为视频的描述文本。标签模型的具体训练方法见下文描述。

403，将视频的描述文本输入文本编码器，提取第一文本特征。

示例性地，在获取视频的描述文本后，即可通过文本编码器提取视频的描述文本的第一文本特征。第一文本特征例如可以是指代视频的描述文本的向量。

404，将关键帧输入视觉编码器，提取视觉特征。

示例性地，在获取视频素材的关键帧后，可以基于视觉编码器提取关键帧的特征作为视觉特征。视觉特征例如可以是指代视频内容的向量。

可以理解，上述402流程和404流程没有先后顺序，在另一些实施例中，可以先执行404流程，再执行402流程。本申请的实施例并不对402流程和404流程的顺序做任何限定。

405，将视频的主题类别输入文本编码器，提取主题文本特征。

示例性地，视频的主题类别例如可以是电子设备中存储的数据。主题类别例如可以包括旅游、萌宠和亲子等，将每种主题类别的文本输入文本编码器即可获得指代各个主题类别的主题文本特征。

在另一些实施例中，电子设备还可以预先存储各个主题文本对应的主题文本特征，从而无需执行将视频主题类别输入文本编码器提取主题文本特征的流程，而直接执行将第一文本特征与多个主题文本特征合并，获得与多个主题文本特征对应的多个第二文本特征的流程。

可以理解，上述401到404的流程与405的流程没有先后顺序。在另一些实施例中，可以先执行405的流程再执行401到404的流程。本申请的实施例并不对上述流程的顺序做任何限定。

406，将第一文本特征与多个主题文本特征合并，获得与多个主题文本特征对应的多个第二文本特征。

示例性地，在本申请的实施例中，可以将第一文本特征与各个主题类别对应的主题文本特征合并，获得各个第二文本特征。应理解，第二文本特征的数目与主题文本特征的数目相同。

例如，旅游的主题文本指代的主题文本特征与第一文本特征合并可以获得一个第二文本特征，萌宠的主题文本指代的主题文本特征与第一文本特征合并可以获得一个第二文本特征。电子设备中存储的所有的主题文本指代的主题文本特征与第一文本特征合并后，即可获得所有的第二文本特征。

407，确定各个第二文本特征与视觉特征的相似度，将与视觉特征相似度最高的第二文本特征所对应的主题作为视频主题。

示例性地，在本申请的一些实施例中，电子设备可以通过获得第二文本特征与视觉特征的相似度。第二文本特征与视觉特征的相似度可以指代视频的描述文本加上对应的主题文本与视频内容的相似情况。相似度越高，则表示对应的主题文本越能够指代视频的内容，因此可以选择相似度最高的主题文本作为视频主题。电子设备可以根据视频的主题推荐用户处理制作视频时所需要的视频模板。获取相似度的过程具体在下文描述。

图5根据本申请的实施例示出了一种视频主题识别方法的示意图。

如图5所示，用户选择的视频素材包括三段视频，三段视频按照顺序拼接在一起形成一个视频，再对视频进行主题识别。

在电子设备识别视频主题时，先提取视频的关键帧，关键帧的提取方式参照401流程。然后将关键帧输入标签模型中获取视频的描述文本，例如树木、动物、人物等，再基于文本编码器提取视频的描述文本的第一文本特征N1。电子设备中存储了视频主题类别的文本数据，将视频主题类别的文本数据输入文本编码器中提取多个主题类别对应的多个主题文本特征T1、T2、T3等。然后电子设备再将第一文本特征N1与多个主题文本特征T1、T2、T3等合并获得与多个主题类别对应的第二文本特征M1、M2、M3等。

在本申请的实施例中，电子设备还可以将关键帧输入视觉编码器中从而提取指代视频内容的视觉特征V1。然后电子设备获取视觉特征V1与第二文本特征M1、M2、M3等的相似度，选择与视觉特征V1相似度最高的第二文本特征，获取该第二文本特征对应的主题类别，并以该主题类别作为视频主题。

通过上述实施例，在用户处理视频时，电子设备可以获取视频的关键帧，并以关键帧确定描述视频的第一文本特征和视觉特征。然后将第一文本特征与电子设备中预设的多个主题文本对应的主题文本特征合并获得多个第二文本特征。通过多个第二文本特征以及视觉特征等多个模态利用确定第二文本特征与视觉特征的相似度，并选择与视觉特征相似度最高的第二文本特征对应的主题作为视频的主题。从而保证视频的主题能够更好的概括视频的内容，使视频主题识别更加准确。

下面介绍402流程中的标签模型。

可以理解，在本申请的另一些实施例中，训练标签模型的服务器，还可以是膝上型计算机、台式计算机、其中嵌入或耦接有一个或多个处理器的电视机、或能够访问网络的其他电子设备。上述移植标签模型进行提取关键帧的描述文本的电子设备还可以是平板电脑、桌面型、膝上型、手持计算机、上网本，以及增强现实/虚拟现实设备、智能电视、智能手表或能够访问网络的其他电子设备；或者是摄像机、以及手持云台设备等其他电子设备，在此不做限制。

应理解，标签模型可以基于文本-图像对训练得到。文本-图像对中包括多个样本图像以及标签文本，其中标签文本是对样本图像的描述。文本-图像对例如可以从公开数据库上获取，或者有开发人员对图像添加文本描述得到。

图6a示出了本申请实施例中的一种标签模型的训练方法的示意图。

如图6a所示，该标签模型包括图像编码模块601、文本编码模块602、对齐模块603和文本解码模块604。

图像编码模块601用于对样本图像进行特征提取，得到样本图像对应的图像特征，该图片特征例如是指代样本图像的向量。

文本编码模块602用于基于输入的标签文本确定训练文本特征，该训练文本特征例如是指代文本的向量。

对齐模块603包括第一参数，第一参数可以用于基于训练文本特征对图像特征进行调整，并将调整后的图像特征输出给文本解码模块604。对标签模型进行训练的过程即是训练第一参数，使得通过第一参数对图像特征进行调整后的输出文本特征能够与训练文本特征的参数更相似(例如提高输出文本特征与训练文本特征的相似度)。

文本解码模块604用于基于对齐模块603输出的输出文本特征得到输出文本特征对应的描述文本。

对齐模块603分别从图像编码模块601和文本编码模块602中获取图像特征和文本特征。并基于图像特征和文本特征训练对齐模块603的第一参数，使得第一参数根据图像特征获取得的输出文本特征与训练文本特征的相似度达到最高。

应理解，在训练好对齐模块603中的第一参数之后，标签模型就可以对输入关键帧进行推理，得到关键帧的描述文本。例如，将关键帧输入图像编码模块601获取关键帧的图像特征。对齐模块603获取关键帧的图像特征。对齐模块603中训练好的第一参数可以将关键帧的图像特征调整成输出文本特征然后输出。文本解码模块604获取关键帧的输出文本特征后对该输出文本特征进行解码，即可获得对应关键帧的描述文本。

应理解，第一参数例如可以是对齐模块603中对图像特征调整过程中的多个参数向量或者参数矩阵。

应理解，在另一些实施例中，标签模型例如还可以是对比语言-图像预训练模型(Contrastive Language-Image Pre-training，CLIP)，CLIP使用大规模的文本-图像配对预训练。因此，在本实施例中，可以将提取的关键帧输入到CLIP中，CLIP中存储有大量的文本描述，基于训练好的CLIP模型可以从大量的文本描述中获取与关键帧匹配的描述文本。

下面，结合图6b详细说明标签模型训练过程的示意图。

图6b根据本申请的实施例示出了一种标签模型的训练方法的实施流程图。

可以理解，训练标签模型的训练样本例如可以是上述的文本-图像对，即训练样本中包括样本图像以及对应描述样本图像的描述文本。

可以理解，图像编码模块601和文本编码模块602中的参数是固定不变的。图像编码模块601用于提取训练样本中样本图像的特征。文本编码模块602用于提取对应样本图像的描述文本的训练文本特征。对齐模块603中的第一参数用于调整图像特征获得目标输出特征，基于目标输出特征与训练文本特征的相似度确定对第一参数训练。因此，在训练标签模型时，只需要训练对齐模块603中的第一参数即可。

在本申请的一些实施例中，图像编码模块601例如可以通过vision transformer(ViT)模型或者卷积神经网络(convolutional neural network，CNN)来实现。文本编码模块602例如可以通过text transformer模型、预训练的语言表征模型(bidirectionalencoder representation from transformers，BERT)以及优化的BERT(robustlyoptimized BERT，RoBERTa)模型实现。

如图6b所示，该实施流程包括：

610，初始化对齐模块603中的第一参数，设置第一目标训练次数。

示例性地，在本申请的实施例中，在训练对齐模块603时，需要将对齐模块603中的第一参数初始化。其中对齐模块603中的第一参数通过训练样本进行训练，在训练完成后，对齐模块603能够基于第一参数调整输入的图像特征确定输出文本特征。第一目标训练次数为训练对齐模块603中的第一参数的次数，例如，第一目标训练次数可以设置1000次，当对第一参数训练1000次之后，即可结束训练。

620，向对齐模块603输入图像特征和图像特征对应的训练文本特征。

示例性地，在训练对齐模块603中的第一参数时，即可将训练样本输入对齐模块603，从而训练对齐模块603中的第一参数，其中训练样本包括图片特征和图片特征对应的训练文本特征。

可以理解，由于每次向对齐模块603输入的图像特征和训练文本特征都是一一对应的样本对，即每次输入的训练文本特征指代的描述文本，描述的均是输入的图像特征指代的图像(以下简称图像特征经过第一参数调整后获得的输出文本特征和该图像特征对应的训练文本特征为正标签样本对)，当输入多个图像特征和训练文本特征后，就会出现图像特征与训练文本特征不是一一对应的样本对(以下简称图像特征经过第一参数调整后获得的输出文本特特征和不是与该图像特征对应的训练文本特征为负标签样本对)。例如，第一图像特征与第一训练文本特征相对应，第二图像特征与第二训练文本特征相对应。但是第一图像特征与第二训练文本特征并不对应，第二图像特征与第一文本特征也不对应。

630，基于第一参数获取图像特征和训练文本特征的相似度。

示例性地，在训练第一参数时，先基于第一参数对图像特征进行调整，确定输出文本特征并确定输出文本特征和训练文本特征的相似度。在本实施例中，需要训练第一参数增加正标签样本对的相似度，使正标签样本对的相似度达到最大值，并且减少负标签样本对的相似度。

示例性地，表1示出了基于第一参数对四组图像特征调整后获得的四组输出文本特征与四组训练文本特征的相似度。可以理解沿对角线的相似度为正标签样本对对应的相似度，其余的为负标签样本对对应的相似度。

表1

可以理解，上述计算相似度的方式例如可以是余弦相似度、皮尔森相关系数以及雅克比相似系数等。表1中正标签样本对的相似度均高于0.9，负标签样本对的相似度均低于0.3，，即可完成标签模型的训练。

640，判断当前训练次数是否达到第一目标训练次数。

示例性地，若当前训练次数达到目标训练次数，例如当前训练次数为第1000次，则结束训练第一参数。

若当前训练次数没有达到目标训练次数，例如当先训练次数小于1000次，则执行650流程，基于损失函数修正第一参数。

650，对第一参数进行优化。

示例性地，若当前训练次数没有达到目标训练次数，则对第一参数进行优化，并转到630流程，基于第一参数获取图像特征和训练文本特征的相似度。进行下一次对第一参数的训练。

应理解，对第一参数进行优化后，基于第一参数对图像特征进行调整后的输出文本特征与对应训练文本特征的相似度增加，与不赌赢的训练文本特征的相似度降低，即正标签样本对的相似度增加，负标签样本对的相似度降低。

下面介绍407流程中第二文本特征与视觉特征的相似度的获取方法。

在确定第二文本特征与视觉特征的相似度时，需要将第二文本特征与视觉特征对齐，该对齐的方式例如是将第二文本特征与视觉特征通过同一种向量表示。在本申请的实施例中，可以通过训练视觉编码模块和文本编码模块使二文本特征与视觉特征对齐。然后确定第二文本特征与视觉特征的相似度。

可以理解，在本申请的另一些实施例中，训练视觉编码模块和文本编码模块的电子设备，还可以是膝上型计算机、台式计算机、其中嵌入或耦接有一个或多个处理器的电视机、或能够访问网络的其他电子设备。上述移植视觉编码模块和文本编码模块获取视觉特征与第二文本特征的相似度的电子设备还可以是平板电脑、桌面型、膝上型、手持计算机、上网本，以及增强现实/虚拟现实设备、智能电视、智能手表或能够访问网络的其他电子设备；或者是摄像机、以及手持云台设备等其他电子设备，在此不做限制。

应理解，视觉编码模块和文本编码模块可以基于主题-视频对进行训练。主题-视频对中包括多个样本视频以及主题文本，其中主题文本是对样本视频的主题。主题-视频对例如可以从公开数据库上获取，或者有开发人员对视频添加主题得到。

图7a根据本申请的实施例示出了一种训练视觉编码模块和文本编码模块方法的示意图。

如图7a所示，该方法包括，视觉编码模块701、文本编码模块702。

视觉编码模块701用于对样本视频进行特征提取，得到样本视频对应的训练视觉特征，该训练视觉特征例如是指代样本视频的向量。

文本编码模块702用于基于输入的主题文本确定训练主题特征，该训练主题特征例如是指代主题文本的向量。

在本申请的一些实施例中，视觉编码模块701例如可以通过ViT模型或者卷积神经网络来实现。文本编码模块702例如可以通过text transformer模型、预训练的语言表征模型，以及RoBERTa模型实现。

视觉编码模块701中还设有第二参数，第二参数用于调整训练视觉特征获得第一调整特征。文本编码模块702中还设有第三参数，第三参数用于调整训练主题特征获得第二调整特征。第一调整特征能够与第二调整特征对齐，即第一调整特征与第二调整特征为同一种向量。其中对视觉编码模块701和文本编码模块702的训练既是对第二参数和第三参数的训练，使得第一调整特征与匹配的第二调整特征(以下简称正样本对)的相似度提高，与不匹配的第二调整特征(以下简称负样本对)的相似度降低。

应理解，第二参数例如可以是视觉编码模块701中对训练视觉特征调整过程中的多个参数向量或者参数矩阵。第三参数例如可以是文本编码模块702中对训练主题特征调整过程中的多个参数向量或者参数矩阵。

应理解，正样本对表示样本视频与样本视频相匹配的主图文本对应的第一调整特征和第二调整特征。负样本对表示样本视频与样本视频不匹配的主题文本对应的第一调整特征和第二调整特征。

在对训练视觉编码模块701和文本编码模块702时，先获取样本视频和视频匹配的主题文本。

再将训练样本中的样本视频输入到视觉编码模块701中获取训练视觉特征，然后基于第二参数将训练视频特征调整生成第一调整特征。

将训练样本中的主题文本，例如旅游、萌宠、亲子等主题输入到文本编码模块702中获取训练主题特征，然后基于第三参数将训练主题特征生成第二调整特征。

然后基于第一调整特征和第二调整特征的相似度训练第二参数和第三参数，使得正样本对的相似度提高，负样本对的相似度降低。训练过程通过对比损失函数来拉近正样本对的相似度。

图7b根据本申请的一些实施例示出了一种训练视觉编码模块701和文本编码模块702的实施流程图。

如图7b所示，该实施流程包括：

710，初始化视觉编码模块701中的第二参数和文本编码模块702中的第三参数，并设置第二目标训练次数。

示例性地，在本申请的实施例中，在训练视觉编码模块701和文本编码模块702时，需要将视觉编码模块701中的第二参数和文本编码模块702中的第三参数初始化。其中第二参数和第三参数通过训练样本进行训练。在训练完成后，视觉编码模块701能够基于第二参数调整视觉编码模块701根据样本视频生成的训练视觉特征，从而确定第一调整特征。文本编码模块702能够基于第三参数调整文本编码模块702根据主题文本生成的训练主题特征，从而确定第二调整特征。第一调整特征与第二调整特征的向量的阶数相同。第二目标训练次数为训练第二参数和第三参数的次数，例如，第二目标训练次数可以设置1000次，当对第第二参数和第三参数训练1000次之后，即可结束训练。

720，向视觉编码模块701输入样本视频，向文本编码模块702中输入主题文本。

示例性地，在训练视觉编码模块701中的第二参数和文本编码模块702中的第三参数时。视觉编码模块701需要先确定样本视频的训练视觉特征，然后再根据第二参数将训练视觉特征调整为第一调整特征。同样，文本编码模块702需要先确定主题文本的训练主题特征，然后根据第三参数调整训练主题特征确定第二调整参数。

在另一些实施例中，视觉编码模块701还可以在确定训练视频特征的过程中，通过第二参数确定第一调整特征(即视觉编码模块701根据样本视频和第二参数直接确定第一调整参数)。文本编码模块702也可以在确定训练主题特征的过程中，通过第三参数确定第二调整特征(即文本编码模块702根据主题文本和第三参数直接确定第二调整特征)。

可以理解，由于每次向视觉编码模块701和文本编码模块702输入的样本视频和主题文本都是一一对应的样本对，即每次输入的主题文本都是对应输入的样本视频的主题。因此，根据输入的样本视频确定的第一调整特征与根据对应主题文本确定的第二调整特征为一个正样本对。

730，基于第二参数和第三参数确定第一调整特征与第二调整特征的相似度。

示例性地，在训练第二参数和第三参数时，先确定第一调整特征与第二调整特征的相似度。在本实施例中，需要训练第二参数和第三参数使正样本对的相似度超过第三相似度阈值，负样本对的相似度低于第四相似度阈值。以保证正样本对具有较高的相似度，而负样本对的相似度较低。

可以理解，上述计算相似度的方式例如可以是余弦相似度、皮尔森相关系数以及雅克比相似系数等。

740，判断当前训练次数是否达到第二目标训练次数。

示例性地，若当前训练次数达到第二目标训练次数，例如当前训练次数为第1000次，则结束训练第二参数和第三参数。

若当前训练次数没有达到第二目标训练次数，例如当先训练次数小于1000次，则执行650流程，对第二参数和第三参数进行优化。

750，对第二参数和第三参数进行优化。

示例性地，若当前训练次数没有达到第二目标训练次数，则对第二参数和第三参数进行优化，并转到720流程，向视觉编码模块701输入样本视频，向文本编码模块702中输入主题文本。进行下一次对第二参数和第三参数的训练。

应理解，对第二参数和第三参数进行优化后，基于第二参数对训练视频特征进行调整后的第一调整特征与对应基于第三参数对训练主题特征调整后的第二调整特征的相似度增加，与不对应的第二调整特征的相似度降低，即正样本对的相似度增加，负样本对的相似度降低。

可以理解，训练后的第二参数和第三参数使的正样本对的相似度越大越好，应样本对的相似度越小越好，第二参数和第三参数例如可以拉近正样本对之间的距离，拉远负样本对之间的距离。例如，在本申请的实施例中，输入的样本视频对应的主题为旅游，输入的主图文本为旅游、亲子和萌宠等。因此可以基于对比学习函数训练第二参数和第三参数，使基于第二参数和第三参数获得的训练视觉特征对应的第一调整特征与指代旅游主题的训练主题特征对应的第二调整的相似度增加，而训练视觉特征对应的第一调整特征与指代亲子、萌宠等主题的训练主题特征对应的第二调整特征之间的相似度减少。

示例性地，对比损失函数可以由(一)式定义。

其中，q表示第一调整特征，k表示第二调整特征。q·k₊表示正样本对的相似度。n表示样本对的个数，即输入的成对的q和k的数目。i为1到n之间的整数。q·k_i表示第一调整特征与第i个第二调整特征的相似度。τ为温度参数，τ越大就越小，q·k_i/τ就会越小，样本对的相似度的差异就会变小，样本对分布的更加平滑。反之τ越小，q·k_i/τ就会越大，样本对的相似度的差异就会变化，样本相似度的分布的更加集中。L_q表示第一调整特征q的对比学习函数。

从(一)式可以得到，对于每一个第一调整特征q，只有一个第二调整特征k₊与其对应，即形成正样本对，而与其他的第二调整特征k均形成负样本对。对于每一个第一调整特征q，正样本对的相似度q·k₊越高时，其对比学习函数L_q越接近0。例如，在750流程中，优化第二参数和第三参数的目标是使正样本对的L_q减小，负样本对的L_q增大。

在训练好第二参数和第三参数后，即可将图6a实施例中获得的关键帧的描述文本合并成视频的描述文本输入文本编码模块702(在图4的实施例中为本文编码器)，获得第一文本特征。并且将视频主题的文本也输入文本编码模块702，获得主题文本特征。并将主题文本特征与第一文本特征合并获得第二文本特征。然后将视频输入视频编码模块701(在图4的实施例中为视频编码器)，获得视频的视觉特征，然后确定视觉特征和第二文本特征的相似度，并选择与视觉特征相似度最高的第二文本特征对应的主题文本作为视频的主题。本申请中的基于多模态的信息来确定视频的主题即为通过第二文本特征和视觉特征获得视频的主题。

在另一些实施例中，可以只在视觉编码模块701中设置第二参数，第二参数将训练视觉特征调整成输出主题特征从而与训练主题特征对齐，基于输出主题特征和训练主题特征的相似度训练第二参数。以此使训练视觉特征与训练主题特征对齐。或者，只在文本编码器中设置第三参数，第三参数将训练主题参数调整成输出视觉特征与训练视觉特征对齐，基于输出视觉特征和训练视觉特征的相似度训练第三参数。以此使训练视觉特征与训练主题特征对齐。

通过上述训练视觉编码模块701和文本编码模块702的方法，在训练好第二参数和第三参数之后即可确定第二文本特征与视觉特征的相似度，并选择与视觉特征相似度最高的第二文本特征对应的主题类别作为视频主题。其中，第二文本特征中包含主题文本特征，和指示视频的描述文本的第一文本特征。由于表达同一主题的主题文本具有多样性，例如表达萌宠主题的文本还可以称为宠物、猫，狗等主题。因此仅通过输入主题文本特征获得主题与视频的相似度不够准确。例如，如果以猫，狗作为主题文本，提取的主题文本特征与内容为宠物猫或者宠物狗的视频的视觉特征的相似度可以达到很高，但是与内容为宠物鸭或者宠物鸟的视频的相似度却不会很高。因此在确定视频主题时，可以将提取的视频的描述文本对应的第一文本特征与主题文本特征合并成第二文本特征，通过获取第二文本特征与视觉特征的相似度来确认视频的主题。以此通过视频的描述文本的特征拉近主题文本特征与视觉特征的相似度，从而避免主题文本多样性的差异导致视频与主题的相似度差异较大的问题，从而使确定的视频的主题更加准确。

下面以手机为例，对本发明一些实施例中涉及的电子设备进行详细介绍。

图8根据本申请的实施例示出了一种手机的结构示意图。

如图8所示，手机100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对手机100的具体限定。在本申请另一些实施例中，手机100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module)接口，和/或通用串行总线(universal serial bus)接口等。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏，摄像头，和无线通信模块160等供电。

手机100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。手机100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。

移动通信模块150可以提供应用在手机100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(lownoise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

无线通信模块160可以提供应用在手机100上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(blue-tooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

外部存储器接口120可以用于连接外部存储卡，例如micro SD卡，实现扩展手机100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储手机100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行手机100的各种功能应用以及数据处理。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和手机100的接触和分离。在一些实施例中，手机100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在手机100中，不能和手机100分离。在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种视频处理方法，应用于电子设备中，其特征在于，包括：

获取待处理视频，提取待处理视频的文本信息和视觉信息；

将所述待处理视频的所述文本信息和视觉信息输入第一模型中，得到所述待处理视频的主题。

2.根据权利要求1所述的方法，其特征在于，所述提取待处理视频的文本信息和视觉信息，包括：

获取所述待处理视频的至少一个关键帧；

将所述至少一个关键帧输入描述文本提取模型，得到所述关键帧的描述文本；

基于所述至少一个关键帧的所述描述文本得到所述文本信息。

3.根据权利要求2所述的方法，其特征在于，所述获取所述待处理视频的至少一个关键帧，包括：

获取所述待处理视频的多个图像帧；

将所述多个图像帧分为多个镜头组，其中，每个镜头组中的各图像帧之间的相似度超过第一相似度阈值；

在每个镜头组中选择一帧图像帧作为所述关键帧。

4.根据权利要求2所述的方法，其特征在于，所述将所述至少一个关键帧输入描述文本提取模型，获得所述关键帧的描述文本，包括：

所述描述文本提取模型包括图像编码模块，对齐模块和解码模块；

所述图像编码模块提取所述关键帧的第一图像特征；

所述对齐模块基于所述第一图像特征得到输出文本特征；

所述解码模块对所述输出文本特征进行解码的到所述关键帧的描述文本。

5.根据权利要求2所述的方法，其特征在于，所述视觉信息包括所述至少一个关键帧。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述第一模型包括文本编码模块和视觉编码模块；

所述将所述待处理视频的所述文本信息和视觉信息输入第一模型中，得到所述待处理视频的主题，包括：

利用所述文本编码模块对所述文本信息进行特征提取，得到所述文本信息对应的第一文本特征；

利用所述视觉编码模块对所述视觉信息进行特征提取，得到所述视觉信息对应的视觉特征；

基于所述第一文本特征和所述视觉特征确定所述待处理视频的主题。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一文本特征和所述视觉特征确定所述待处理视频的主题，包括：

基于所述第一文本特征以及预设的多个主题所对应的多个主题文本特征，得到对应所述多个主题的多个第二文本特征；

将与所述视觉特征相似度最高的第二文本特征对应的主题，作为待处理视频的主题。

8.根据权利要求7所述的方法，其特征在于，所述多个主题文本特征是通过以下方式得到：

利用所述文本编码模块对所述多个主题进行特征提取，得到所述多个主题对应的多个主题文本特征。

9.一种电子设备，其特征在于，包括存储器，用于存储指令；

至少一个处理器，用于执行所述指令以使得所述电子设备实现权利要求1至8中任一项所述的视频处理方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有指令，所述指令在计算机上执行时，使所述计算机执行权利要求1至8中任一项所述的视频处理方法。