CN116847144A

CN116847144A - 视频信息生成方法、装置、电子设备及可读存储介质

Info

Publication number: CN116847144A
Application number: CN202310778812.8A
Authority: CN
Inventors: 叶小卫; 夏安享; 朱强; 沈丽倩; 朱欣灿
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-10-03

Abstract

本申请实施例提供了一种视频信息生成方法、装置、电子设备及可读存储介质，属于数据处理领域，所述方法包括：获取待处理视频对应的目标图像；其中，所述目标图像包括所述待处理视频的至少一帧画面；确定所述目标图像中的目标对象，并根据所述目标图像生成所述目标对象对应的状态属性词，以及获取所述目标图像对应的场景属性词；根据所述目标对象、所述状态属性词以及所述场景属性词，生成所述目标图像对应的画面文本；根据所述画面文本确定所述待处理视频对应的视频信息。可以提高视频信息的准确度以及获取效率。

Description

视频信息生成方法、装置、电子设备及可读存储介质

技术领域

本申请属于数据处理领域，特别是涉及一种视频信息生成方法、装置、电子设备及可读存储介质。

背景技术

随着互联网的发展和多媒体技术的进步，视频的应用逐渐深入工作生活的各个方面。在一些网站上，通常会为视频设置标题、简介或标签等相关信息，以便用户了解视频内容。

但是，目前的标题、简介或标签等视频信息，通常基于人工提炼视频内容的方式生成，存在效率低的问题，并且人工提炼的生成的视频信息存在不够客观的问题，影响视频信息的准确度。

发明内容

本申请提供一种视频信息生成方法、装置、电子设备及可读存储介质，以便解决现有技术中的视频信息生成方式存在效率低和准确度不高的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请提供一种视频信息生成方法，所述方法包括：

获取待处理视频对应的目标图像；其中，所述目标图像包括所述待处理视频的至少一帧画面；

确定所述目标图像中的目标对象，并根据所述目标图像生成所述目标对象对应的状态属性词，以及获取所述目标图像对应的场景属性词；

根据所述目标对象、所述状态属性词以及所述场景属性词，生成所述目标图像对应的画面文本；

根据所述画面文本确定所述待处理视频对应的视频信息。

可选的，所述根据所述目标对象、所述状态属性词以及所述场景属性词，生成所述目标图像对应的画面文本，包括：

获取所述目标对象、所述状态属性词以及所述场景属性词各自对应的概率值；

根据所述概率值确定所述目标对象、所述状态属性词以及所述场景属性词各自对应的优先级顺序；

根据所述优先级顺序、所述目标对象、所述状态属性词以及所述场景属性词，生成所述目标图像对应的画面文本。

可选的，所述方法还包括：

获取所述待处理视频的字幕文本；

根据所述字幕文本和所述画面文本，确定所述目标图像对应的关键词；

所述根据所述画面文本确定所述待处理视频对应的视频信息，包括：

根据所述关键词和所述画面文本确定所述视频信息。

可选的，所述根据所述字幕文本和所述画面文本，确定所述目标图像对应的关键词，包括：

对全量文本进行句子分割，获取所述全量文本对应的目标语句；其中，所述全量文本包括所述字幕文本和所述画面文本；

获取所述目标语句对应的句子向量，并根据所述句子向量确定各所述目标语句之间的相似度；

根据所述目标语句和所述相似度，建立所述全量文本对应的相似矩阵；

根据所述相似矩阵确定所述关键词以及所述目标语句对应的句子摘要。

可选的，所述方法还包括：

获取所述待处理视频对应的进度条信息；

将所述全量文本、所述关键词、所述句子摘要和所述进度条信息输入预设的进度条划分模型，获取所述进度条划分模型输出的进度条划分结果；

根据所述进度条划分结果，生成所述待处理视频对应的目录。

可选的，所述方法还包括：

根据所述视频信息获取所述待处理视频对应的目标视频；

接收对于所述目标视频的检索词，并根据所述检索词和所述画面文本确定目标片段；

根据所述目标片段生成检索结果。

可选的，所述确定所述目标图像中的目标对象之前，所述方法还包括：

接收用户输入的标记信息；

所述确定所述目标图像中的目标对象，并根据所述目标图像生成所述目标对象对应的状态属性词，包括：

根据所述标记信息确定所述目标图像中的标记对象，并根据所述目标图像生成所述标记对象对应的第一状态属性词和第一概率值；；

在所述目标图像中存在除所述标记对象以外的其他对象的情况下，根据所述目标图像生成所述其他对象对应的第二状态属性词和第二概率值；其中，所述第一概率值大于所述第二概率值。

第二方面，本申请提供一种视频信息生成装置，所述装置包括：

第一获取模块，用于获取待处理视频对应的目标图像；；其中，所述目标图像包括所述待处理视频的至少一帧画面；

第一确定模块，用于确定所述目标图像中的目标对象，并根据所述目标图像生成所述目标对象对应的状态属性词，以及获取所述目标图像对应的场景属性词；

第一生成模块，用于根据所述目标对象、所述状态属性词以及所述场景属性词，生成所述目标图像对应的画面文本；

第二确定模块，用于根据所述画面文本确定所述待处理视频对应的视频信息。

可选的，所述第一生成模块具体用于：

可选的，所述装置还包括：

第二获取模块，用于获取所述待处理视频的字幕文本；；

第三确定模块，用于根据所述字幕文本和所述画面文本，确定所述目标图像对应的关键词；

所述第二确定模块具体用于：

根据所述关键词和所述画面文本确定所述视频信息。

可选的，所述第二确定模块具体还用于：

可选的，所述装置还包括：

第三获取模块，用于获取所述待处理视频对应的进度条信息；

划分模块，用于将所述全量文本、所述关键词、所述句子摘要和所述进度条信息输入预设的进度条划分模型，获取所述进度条划分模型输出的进度条划分结果；

第二生成模块，用于根据所述进度条划分结果，生成所述待处理视频对应的目录。

可选的，所述装置还包括：

第四获取模块，用于根据所述视频信息获取所述待处理视频对应的目标视频；

第一接收模块，用于接收对于所述目标视频的检索词，并根据所述检索词和所述画面文本确定目标片段；

第三生成模块，根据所述目标片段生成检索结果。

可选的，所述装置还包括：

第二接收模块，用于所述第一确定模块确定所述目标图像中的目标对象之前，接收用户输入的标记信息；

所述第一确定模块具体用于：

第三方面，本申请提供一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视频信息生成方法。

第四方面，本申请提供一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述视频信息生成方法。

在本申请实施例中，通过获取待处理视频对应的目标图像，由于目标图像包括待处理视频的至少一帧画面，因此目标图像可以反映待处理视频的视频画面内容，通过确定目标图像中的目标对象，并根据目标图像生成目标对象对应的状态属性词，这样，目标对象和状态属性词可以反映视频画面包括的对象及其状态，获取目标图像对应的场景属性词，根据目标对象、状态属性词以及场景属性词，生成目标图像对应的画面文本，这样，画面文本可以体现视频画面内容的场景、对象及其状态，根据画面文本确定待处理视频对应的视频信息，这样可以避免主观臆断造成的疏漏，可以提高视频信息的准确度，相比于人工提炼的方式可以提高视频信息的获取效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频信息生成方法的步骤流程图之一；

图2是本申请实施例提供的一种视频信息生成方法的步骤流程图之二；

图3是本申请实施例提供的一种视频信息生成方法的步骤流程图之三；

图4是本申请实施例提供的一种视频信息生成方法的步骤流程图之四；

图5是本申请实施例提供的一种视频信息生成装置的结构图；

图6是本申请实施例提供的一种电子设备的结构图；

图7是本申请实施例提供的另一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。根据本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的一种视频信息生成方法的步骤流程图之一，如图1所示，该方法可以包括：

步骤101、获取待处理视频对应的目标图像；其中，目标图像包括待处理视频的至少一帧画面。

本申请实施例中，可以将待处理视频的全部视频帧作为目标图像，也可以根据预设的抽取比例，从全部视频帧中抽取至少一帧视频帧作为目标图像，例如，每1秒抽取一帧，一个1分钟的待处理视频，可以获取60帧视频帧作为目标图像。

步骤102、确定目标图像中的目标对象，并根据目标图像生成目标对象对应的状态属性词，以及获取目标图像对应的场景属性词。

本申请实施例中，目标对象可以是目标图像中的人物或物体等实体对象。状态属性词可以是目标对象对应的形容词，比如用于描述目标对象的状态或风格的形容词，例如，黑色头发的男孩，男孩是目标对象，黑色头发的为状态属性词。场景属性词可以是用于描述目标图像中前景或背景等场景信息的词，例如教室、室内等。此处仅是举例说明，本申请实施例对此不做限制。

本申请实施例中，可以将目标图像输入预设的提示词生成模型，获取提示词生成模型输出的提示词，该提示词包括目标对象、状态属性词和场景属性词。其中，提示词生成模型用于对目标图像进行画面内容分析，从而确定目标图像中的目标对象，并为目标对象生成状态属性词，以及为目标图像生成场景属性词。

本申请实施例中，提示词生成模型可以是通过训练对比语言-图像预训练模型(Contrastive Language-Image Pre-Training，Clip)进行模型训练后得到的。训练样本可以是训练图像集以及训练图像训练对应的词汇集，可以将训练图像集输入Clip模型，获取Clip模型学习Clip)进行模型后输出的提示词，根据提示词与词汇集计算损失值然后调整模型参数，在模型训练到预设次数或者损失值小于预设阈值的情况下，可以将当前的待训练模型确定为提示词生成模型。待训练模型的损失函数如以下公式(1)所示：

L_LDM＝E_ε(x)，ε∈N(0,1) (1)

其中，L_LDM用于训练通过感知压缩模型得到的潜在表示，E_ε(x)表示对所有输入样本x的误差进行聚合，并对误差进行期望操作，即平均误差，∈表示随机高斯噪声，用于训练压缩感知模型，将输入样本扰动一定的噪声可以增加模型的鲁棒性和泛化能力。此外，对于输入样本x的误差ε(x)可以通过以下公式(2)进行衡量：

其中，t表示训练数据集中的样本索引，∈表示随机高斯噪声，∈₀(z_t,t)表示输入样本x通过压缩感知模型压缩后的潜在表示，表示潜在表示∈₀(z_t,t)和随机高斯噪声∈之间的欧几里得距离的平方。该损失函数可以优化潜在表示的生成过程，使得从输入目标图像得到的提示词与目标图像尽量接近(也就是减小欧氏距离)，同时避免过度拟合。Clip模型能够自动调整潜在表示最小化损失函数，达到更好的生成提示词效果。

需要说明的是，Clip模型的核心思想是通过学习图像和文本之间的匹配关系来提高模型的性能。具体来说，Clip模型包含两个主要组成部分：一个用于处理图像的卷积神经网络(CNN)和一个用于处理文本的模型(Transformer)。这两个组件都被训练成能够将输入的信息映射到相同的嵌入空间中，并使得相似的图像和文本在嵌入空间中的距离更近。

步骤103、根据目标对象、状态属性词以及场景属性词，生成目标图像对应的画面文本。

本申请实施例中，提示词生成模型在输出提示词时可以一并输出提示词对应的概率值，用于表征提示词与目标图像的画面内容的相似度，概率值越高说明提示词越准确，因而可以通过概率值的大小衡量提示词的准确度，即目标对象、状态属性词以及场景属性词的准确度。

可选的，步骤103可以包括以下步骤：

获取目标对象、状态属性词以及场景属性词各自对应的概率值；

根据概率值确定目标对象、状态属性词以及场景属性词各自对应的优先级顺序；

根据优先级顺序、目标对象、状态属性词以及场景属性词，生成目标图像对应的画面文本。

本申请实施例中，可以获取提示词模型生成的目标对象、状态属性词以及场景属性词各自对应的概率值，例如，目标对象对应的概率值可以是包括：(窗帘：0.994)、(窗户：0.990)、(多个男孩：0.948)、(桌子：0.688)(植物：0.653)，状态属性词对应的概率值可以包括：(黑色短发：0.739)(校服：0.708)，场景属性词对应的概率值可以包括：(室内：0.904)、(教室：0.745)、(陈列：0.703)。此处仅是举例说明，本申请实施例对此不做限制。

本申请实施例中，可以根据目标对象、状态属性词以及场景属性词各自对应的概率值的大小顺序，对目标对象、状态属性词以及场景属性词分别进行排序，得到排序结果，可以将目标对象、状态属性词以及场景属性词各自对应的排序结果中，概率值低于预设概率阈值的去除，然后将剩余的排序结果确定为优先级顺序。其中，预设概率阈值可以根据用户的需求进行设置，例如，可以将预设概率阈值设置为0.5，去除概率低于0.5的目标对象、状态属性词以及场景属性词。

本申请实施例中，根据场景属性词的优先级顺序生成至少一段场景文本，根据目标对象和状态属性词各自的优先级顺序生成至少一段目标对象文本，然后，结合场景文本和目标对象文本，生成目标图像对应的画面文本。

在本申请实施例中，通过获取目标对象、状态属性词以及场景属性词各自对应的概率值，可以方便地根据概率值的大小，确定目标对象、状态属性词以及场景属性词各自对应的优先级顺序，根据优先级顺序、目标对象、状态属性词以及场景属性词，生成目标图像对应的画面文本，可以使得画面文本与目标图像的画面内容更接近，提高画面文本的准确度，进而提高视频信息的准确度。

步骤104、根据画面文本确定待处理视频对应的视频信息。

本申请实施例中，可以将画面文本作为待处理视频对应的简介，统计画面文本的高频词汇作为待处理视频对应的标签，将画面文本提炼成一句话作为待处理视频对应的标题，可以将待处理视频对应的简介、标签、标题中的至少一个确定为待处理视频对应的视频信息。

图2是本申请实施例提供的一种视频信息生成方法的步骤流程图之二，如图2所示，该方法可以包括：

步骤201、获取待处理视频对应的目标图像；其中，目标图像包括待处理视频的至少一帧画面。

本步骤的实现方式可以参照步骤101中的相关描述，此处不再赘述。

步骤202、接收用户输入的标记信息。

本申请实施例中，标记信息可以是用户关注的目标对象的属性类别信息，例如，针对课堂视频可以圈出黑板上的内容，针对影视剧会更关注人物的穿着、动作、表情，用户通过标记信息提高对于待处理视频的视频信息提炼的针对性，以获取更关键的视频信息。

步骤203、确定目标图像中的目标对象，并根据目标图像生成目标对象对应的状态属性词，以及获取目标图像对应的场景属性词。

可选的，步骤203可以包括以下步骤：

根据标记信息确定目标图像中的标记对象，并根据目标图像生成标记对象对应的第一状态属性词和第一概率值；

在目标图像中存在除标记对象以外的其他对象的情况下，根据目标图像生成其他对象对应的第二状态属性词和第二概率值；其中，第一概率值大于第二概率值。

本申请实施例中，在训练提示词生成模型时所采用的训练样本可以包括经过图像特征标记的训练图像集，以及经过类别特征标记的词汇集。可以设置标记训练参数作为待训练模型的模型参数。在模型训练过程中，首先对标记有图像特征的训练图像进行画面内容分析，获取第一状态属性词，并为标记有类别特征的第一状态属性词生成第一概率值。其次，获取其他对象对应的第二状态属性词，并为第二状态属性词生成第二概率值，确定目标图像中的目标对象，并根据目标图像生成目标对象对应的状态属性词，以及获取目标图像对应的场景属性词。然后，对于没有进行图像特征标记的训练图像进行画面内容分析，确定目标图像中的目标对象，并根据目标图像生成目标对象对应的第二状态属性词及其第二概率值。

在本申请实施例中，通过确定目标图像中的目标对象之前，接收用户输入的标记信息，根据标记信息确定目标图像中的标记对象，并根据目标图像生成标记对象对应的第一状态属性词和第一概率值，这样，可以方便用户根据需求通过标记信息对目标图像中关键的目标对应进行标记，得到标记对象，在目标图像中存在除标记对象以外的其他对象的情况下，根据目标图像生成其他对象对应的第二状态属性词和第二概率值，由于第一概率值大于第二概率值，这样，可以方便地通过第一概率值和第二概率值将标记对象与其他对象进行区分，以便在生成画面文本时对标记对象和其他对象进行区分处理，使得根据画面文本生成的视频信息更加满足用户的需求，提高本申请的视频信息生成方法的灵活性。

步骤204、根据目标对象、状态属性词以及场景属性词，生成目标图像对应的画面文本。

本申请实施例中，目标对象可以包括根据用户输入的标记信息进行标记的标记对象，以及除标记对象以外的其他对象，因此，可以获取标记对象对应的第一状态属性值和第一概率值，以及其他对象对应的第二状态属性值和第二概率值。根据第一概率值的大小顺序确定第一状态属性值的大小顺序，并根据第二概率值的大小顺序确定第二状态属性值的大小顺序，由于第一概率值大于概率值，因此，第一状态属性值的优先级高于第二状态属性值的优先级，可以根据第一状态属性值的大小顺序以及第二状态属性值的大小顺序，确定状态属性词整体上的优先级顺序。并且，标记对象的优先级顺序高于其他对象的优先级顺序，可以分别根据各标记对象的概率值确定标记对象的优先级顺序，根据其他对象的概率值确定其他对象的优先级顺序，然后根据标记对象的优先级顺序以及其他对象的优先级顺序，确定目标对象整体上的优先级顺序。然后可以参照步骤103中的实现步骤生成画面文本，此处不再赘述。

步骤205、获取待处理视频的字幕文本。

本申请实施例中，在待处理视频包括分离出的字幕文本的情况下，可以直接提取字幕文本。在待处理视频不包括分离出的字幕文本的情况下，可以获取待处理视频的音频文件，通过语音转写将音频文件转为字幕文本，或者，可以通过光学字符识别(OpticalCharacter Recognition，OCR)对待处理视频的各视频帧进行图像识别，将画面中的文字转换成字幕文本。其中，语音转写或者OCR文字识别可以参照现有技术中的实现手段，此处仅是举例说明，本申请实施例对此不做限制。

步骤206、根据字幕文本和画面文本，确定目标图像对应的关键词。

本申请实施例中，可以将字幕文本和画面文本进行比较，确定二者之间的文本相似度，然后根据文本相似度确定目标图像对应的关键词。

可选的，步骤206可以包括以下步骤：

对全量文本进行句子分割，获取全量文本对应的目标语句；其中，全量文本包括字幕文本和画面文本；

获取目标语句对应的句子向量，并根据句子向量确定各目标语句之间的相似度；

根据目标语句和相似度，建立全量文本对应的相似矩阵；

根据相似矩阵确定关键词以及目标语句对应的句子摘要。

本申请实施例中，可以分别对字幕文本和画面文本进行句子分割，将分割后的语句确定为目标语句。分别为字幕文本和画面文本各自的每个句子找到向量表示，具体的，为每个句子中的各个单词通过词向量进行表示。然后，可以将目标语句对应的词向量输入预设的词向量模型，获取词向量模型输出的句子向量，以及句子向量之间的相似度。其中，词向量模型用于计算各目标语句中所有单词的词向量的加权平均值，并将加权平均值确定为目标语句的句子向量，以及计算句子向量间的相似度。

本申请实施中，可以将句子向量及其相似度通过相似矩阵进行存储，作为全量文本对应的相似矩阵。然后，将相似矩阵转换为以句子向量对应的目标语句为节点、相似度得分为边的图结构，进而根据相似度得分大小排序选取预设数量的词语和句子，作为关键词和句子摘要。其中关键词和句子摘要的数量可以根据用户的需求进行设置，本申请实施例对此不做限制。

在一些实施例中，可以根据以下公式(3)计算句子的权重，并根据句子权重对图结构进行调整。

其中，WS(V_i)表示句子i的权重，WS(V_j)表示上次迭代出的句子j的权重，等号右侧的求和表示每个相邻句子对本句子的贡程度，在单文本中可以粗略的认为所有句子都是相邻的，d表示阻尼系数，一般为0.85，W_jk表示从句子j到句子k的边的权重，W_ji表示句子相似度得分，V_j∈In(V_i)表示指向节点i的所有其他节点，V_k表示节点j指向的所有其他节点，In(V_i)表示指向节点i的所有节点集合，Out(V_j)表示节点j指向的所有节点集合。

在本申请实施例中，通过对全量文本进行句子分割，获取全量文本对应的目标语句，由于全量文本包括字幕文本和画面文本，这样，使得目标语句可以反映字幕文本和画面文本的内容，获取目标语句对应的句子向量，并根据句子向量确定各目标语句之间的相似度，这样，通过对目标语句进行向量表示，可以方便地通过句子向量确定目标语句的相似度，根据目标语句和相似度，建立全量文本对应的相似矩阵，可以通过相似矩阵简单直观地表示目标语句之间的相似度关系，根据相似矩阵确定关键词以及目标语句对应的句子摘要，可以提高本申请实施例的视频信息获取方法的实用性。

步骤207、根据画面文本确定待处理视频对应的视频信息。

可选的，步骤207可以包括以下步骤：

根据关键词和画面文本确定视频信息。

本申请实施例中，可以将关键词作为待处理视频对应的标签，可以将画面文本作为待处理视频对应的简介，将画面文本提炼成一句话作为待处理视频对应的标题，可以将待处理视频对应的简介、标签、标题中的至少一个确定为待处理视频对应的视频信息。

在本申请实施例中，通过获取待处理视频的字幕文本，根据字幕文本和所述画面文本，确定目标图像对应的关键词，这样，关键词是结合字幕文本和画面文本确定的，相比于单一的画面文本可以更好的反映待处理视频的视频内容，然后根据关键词和画面文本确定视频信息，可以使得视频信息更加准确。

步骤208、获取待处理视频对应的进度条信息。

步骤209、将全量文本、关键词、句子摘要和进度条信息输入预设的进度条划分模型，获取进度条划分模型输出的进度条划分结果。

本申请实施例中，可以全量文本、关键词、句子摘要和进度条信息进行预处理，具体的，可以分别全量文本、关键词、句子摘要和进度条信息进行向量化，获得全量文本、关键词、句子摘要和进度条信息各自对应的向量表示。并且将待处理视频对应的目标图像进行预处理，具体的，可以将目标图像进行向量化，获得目标图像对应的向量表示。例如，使用段落向量句子嵌入模型(Doc2Vec模型)，将全量文本、关键词、句子摘要和进度条信息向量化，使用卷积神经网络(Convolutional Neural Networks，CNN)模型将图像向量化。

本申请实施例中，可以将文本向量和图像向量输入预设的进度条划分模型，获取进度条划分模型输出的进度条划分结果。其中，进度条划分模型可以通过对神经网络模型(Transformer)进行模型训练获得，训练样本可以包括已对进行条划分章节目录并生成章节摘要的训练视频，以及该训练视频对应的训练文本和进度条信息。可以在待训练的Transformer模型达到预设次数要求，或者损失值低于预设损失阈值时，将当前的Transformer模型确定为进度条划分模型。

需要说明的是，可以通过嵌入层与Transformer模型连接，并在编码器输出上应用自注意力机制，加强或抑制不同信号的重要性。最终，将Transformer编码器的输出整合成平面形式，并输出最终结果；在训练过程中需运用正则化技术防止过拟合，并使用损失函数来优化模型参数。

步骤210、根据进度条划分结果，生成待处理视频对应的目录。

本申请实施例中，可以在待处理视频的视频播放页的前端页面上，使用超文本标记语言(HyperText Markup Language，HTML)的第5代版本，即HTML5的视频标签来渲染视频，并将前端页面分成两个部分：左侧放置待处理视频，右侧放置章节目录导航。当需要鼠标指向特定章节时，触发JavaScript事件，并使用层叠样式表(Cascading Style Sheets，CSS)更改进度条上的鼠标悬停样式，并根据全量文本、关键词和句子摘要在进度条下方添加章节名称和摘要内容。例如，可以根据全量文本中的画面文本确定任一章节对应的视频片段的简介，根据该视频片段对应的关键词或句子摘要确定章节的标题。可以创建一个导航列表，其中包含每个章节的标题和简介，并在列表项的单击事件中调用JavaScript函数以跳转到相应的视频章节。此处仅是举例说明，本申请实施例对此不做限制。

在本申请实施例中，通过获取待处理视频对应的进度条信息，将全量文本、关键词、句子摘要和进度条信息输入预设的进度条划分模型，获取进度条划分模型输出的进度条划分结果，这样，由于全量文本、关键词和句子摘要可以反映待处理视频的视频画面内容，因此，通过进度条划分模型获取进度条划分模型输出的进度条划分结果，可以对不同的视频进行个性化处理，获得与待处理视频更加适配的进度条划分结果，根据进度条划分结果生成待处理视频对应的目录，这样，可以提高目标与待处理视频的适配度，并提高目录设置的灵活性。

步骤211、根据视频信息获取待处理视频对应的目标视频。

本申请实施例中，可以为待处理视频添加视频信息，从而获得目标视频。例如，视频信息可以包括标题、标签或简介等信息，可以为待处理视频添加相应的标题、标签和简介中的至少一种视频信息，作为目标视频。

步骤212、接收对于目标视频的检索词，并根据检索词和画面文本确定目标片段。

本申请实施例中，可以根据目标视频对应的全量文本比如画面文本和字幕文本，或者待处理视频对应的关键词和句子摘要，实现对目标视频的切片内容检索。具体的，可以接收用户上传的检索词，例如，检索词可以是针对目标视频中的某一帧画面中的任一目标对象的相关检索内容。可以将检索词与关键词和句子摘要进行比对，获得对比结果，在对比结果表征匹配成功的情况下，根据匹配结果表征的关键词或者句子摘要对应在待处理视频中的进度条位置，获取预设长度的视频片段作为目标片段。在对比结果表征匹配失败的情况下，可以将检索词与全量文本进行匹配，获取匹配结果所表征的文本内容在待处理视频中的进度条位置，并获取预设长度的视频片段作为目标片段。

本申请实施中，对于检索词与全量文本、关键词和句子摘要的比对匹配过程，可以通过CLIP模型实现。具体的，可以将检索词，以及全量文本、关键词和句子摘要中的至少一种输入CLIP模型，通过CLIP模型计算方法余弦相似度和欧几里得距离，确定比对匹配结果。可选的，可以通过调高一致性参数(CFG Scale)提升检索关联度和减少返回数据量，这样，可以进行图像批处理，实现切面同类、同内容、同话题片段检索。其中，CFG Scale参数用于衡量检索片段和提示词保持一致的程度

步骤213、根据目标片段生成检索结果。

本申请实施例中，可以将目标片段对应的进度条的起始位置，以及该目标片段所在的章节标题和内容摘要确定为检索结果。对错误的检索结果用户可通过在检索页面点”踩”进行反馈，可以根据检索反馈信息调整检索过程中使用的神经网络模型例如CLIP模型的模型参数，随着用户数据集增加可以提高检索准确度。可以使用关键词和句子摘要作为视频推荐算法的扩展，将匹配度较高的检索结果显示，同时根据用户点击喜好将倾向视频置前，提出相关度更高和个性化的视频推荐。

在本申请实施例中，通过根据视频信息获取待处理视频对应的目标视频，接收对于目标视频的检索词，并根据检索词和画面文本确定目标片段，根据目标片段生成检索结果。这样，可以方便用户对应目标视频中的目标片段进行检索，提高检索的细分度和灵活性。

图3是本申请实施例提供的视频信息生成方法的步骤流程图之三，如图3所示，将待处理视频的字幕、音频和画面转换文字输出全量文本，根据全量文本提炼视频信息，根据视频信息确定视频摘要。可以根据对待处理视频进行进度条划分，确定进度条划分点。可以根据全量文本、关键词和句子摘要实现对视频切面片段检索。可以将全量文本、关键词、句子摘要和视频进度条信息存储在关系数据库，在切面片段检索时进行数据库匹配。全量文本、关键词和句子摘要可以作为内容搜索推荐算法的参考。

图4是本申请实施例提供的视频信息生成方法的步骤流程图之四，如图4所示，用户1～n上传待处理视频，通过信息提炼和匹配检索系统实现本申请实施例前述所述的步骤，生成待处理视频的视频信息，得到目标视频及其目录，即图4中的结果1～结果n。

图5是本申请实施例提供的一种视频信息生成装置的结构图，该装置30可以包括：

第一获取模块301，用于获取待处理视频对应的目标图像；其中，所述目标图像包括所述待处理视频的至少一帧画面；

第一确定模块302，用于确定所述目标图像中的目标对象，并根据所述目标图像生成所述目标对象对应的状态属性词，以及获取所述目标图像对应的场景属性词；

第一生成模块303，用于根据所述目标对象、所述状态属性词以及所述场景属性词，生成所述目标图像对应的画面文本；

第二确定模块304，用于根据所述画面文本确定所述待处理视频对应的视频信息。

可选的，所述第一生成模块303具体用于：

可选的，所述装置30还包括：

第二获取模块，用于获取所述待处理视频的字幕文本；；

所述第二确定模块304具体用于：

根据所述关键词和所述画面文本确定所述视频信息。

可选的，所述第二确定模块304具体还用于：

可选的，所述装置30还包括：

第三生成模块，根据所述目标片段生成检索结果。

可选的，所述装置30还包括：

第二接收模块，用于所述第一确定模块302确定所述目标图像中的目标对象之前，接收用户输入的标记信息；

所述第一确定模块302具体用于：

该视频信息生成装置与如上述的视频信息生成方法相对于现有技术所具有的优势相同，在此不再赘述。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请还提供了一种电子设备40，参见图6，包括：处理器401、存储器402以及存储在存储器402上并可在处理器401上运行的计算机程序，处理器401执行程序时实现前述实施例的视频信息生成方法。

图7为实现本申请实施例的另一种电子设备的硬件结构示意图。

该电子设备50包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、以及处理器510等部件。

本领域技术人员可以理解，电子设备50还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

应理解的是，本申请实施例中，输入单元504可以包括图形处理器(GraphicsProcessing Unit，GPU)5051和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元506可包括显示面板5061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板5061。用户输入单元507包括触控面板5071以及其他输入设备5072中的至少一种。触控面板5071，也称为触摸屏。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器509可以包括易失性存储器或非易失性存储器，或者，存储器509可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器509包括但不限于这些和任意其它适合类型的存储器。

处理器510可包括一个或多个处理单元；可选的，处理器510集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

电子设备与如上述的视频信息生成方法相对于现有技术所具有的优势相同，在此不再赘述。

本申请还提供了一种可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的视频信息生成方法。

可读存储介质与如上述的视频信息生成方法相对于现有技术所具有的优势相同，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图，或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请的排序设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

需要说明的是，本申请实施例中获取各种数据相关过程，都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

Claims

1.一种视频信息生成方法，其特征在于，所述方法包括：

根据所述画面文本确定所述待处理视频对应的视频信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标对象、所述状态属性词以及所述场景属性词，生成所述目标图像对应的画面文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述待处理视频的字幕文本；

根据所述关键词和所述画面文本确定所述视频信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述字幕文本和所述画面文本，确定所述目标图像对应的关键词，包括：：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取所述待处理视频对应的进度条信息；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述视频信息获取所述待处理视频对应的目标视频；

根据所述目标片段生成检索结果。

7.根据权利要求1所述的方法，其特征在于，所述确定所述目标图像中的目标对象之前，所述方法还包括：

接收用户输入的标记信息；

8.一种视频信息生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的视频信息生成方法。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-7中任一所述的视频信息生成方法。