CN117793483A

CN117793483A - 视频标签的提取方法、系统、设备及介质

Info

Publication number: CN117793483A
Application number: CN202311828639.4A
Authority: CN
Inventors: 刘金羽; 成丹妮; 罗超
Original assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-29

Abstract

本公开提供了一种视频标签的提取方法、系统、设备及介质，属于人工智能领域。其中视频标签的提取方法包括以下步骤：从目标笔记获取目标视频并进行拆分，记录各片段时长占比，提取笔记文本信息，初步确定初始标签。对每个视频片段进行分析，生成第一阶段标签分析结果，采用两种文本处理方法，分别得到第二、三阶段标签分析结果，综合这三阶段结果及视频片段的时长占比，确认视频最终的标签信息。本公开解决了现有的视频标签提取准确率低、效率不高等问题，有效地提高了视频标签提取的准确性和效率，能够适用于大量视频内容的分类和处理的场景。

Description

视频标签的提取方法、系统、设备及介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种视频标签的提取方法和相关产品。

背景技术

随着技术发展，人们对高质量精神文化生活的需求日益增长，使得在线平台上视频内容的管理和检索变得尤为重要。由于视频资源的数量过于庞大，因此，“如何对这些视频进行分类，以使得用户能够从海量的视频中更加方便地获取自己感兴趣的视频”成为计算机视觉领域里面非常重要且具有挑战性的研究热点之一。

视觉基础模型，指的是那些在广泛数据上预先训练过的强大模型，可适用于各种下游任务。视觉领域的早期研究工作侧重于在大规模标注数据集上预训练。视频转场分段，指的是那些在时间维度上进行了特定设计了的模型，能够判断出视频中有哪些不同语义的片段，同时能够在时间维度上将这些片段分开，设置根据输入的指令来对片段进行定位。

现有的视频标签提取技术主要依赖用户手动操作或通过计算机视觉分析整个视频内容从而提取视频标签。

但是，这种人工的提取方式和单一模态的视频标签提取方式均存在精度和效率上均较低等问题，无法满足实际场景的使用需求。

具体地，在旅游场景中，用户一般都会拍摄图片或者视频对游玩的过程进行记录，特别是用户上传的视频含有更为丰富的信息。通过算法能够分析出视频中含有的不同信息，能够帮助分析用户游玩的景点、喜好、美食等，从而能够更好的对视频进行标签分类，促进旅游行业的AI(人工智能)发展。

当前业界缺少旅游行业的多模态视频标签提取系统，且旅游场景的视频场景类别较多信息较为复杂，视频分类的难度较大。

发明内容

本公开要解决的技术问题是为了克服现有技术中视频标签的提取方法准确率低、效率不高的缺陷，提供了一种视频标签的提取方法、系统、设备及介质。

本公开是通过下述技术方案来解决上述技术问题：

根据本公开的一方面，提供一种视频标签的提取方法，所述提取方法包括：

获取目标笔记；

其中，所述目标笔记包括目标视频和所述目标视频对应的其他笔记信息；

基于所述目标笔记内目标视频中的转场点，对所述目标视频进行拆分，以将所述目标视频拆分成若干个视频片段，并得到每个所述视频片段对应的时长占比；

从所述目标笔记中提取初始文本信息，以得到目标文本信息；

基于目标笔记，获取所述目标视频对应的若干初始标签信息；

对每个所述视频片段进行分析，以获取每个所述视频片段属于每个所述初始标签信息的第一标签分析结果；

采用第一预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第二标签分析结果；

采用第二预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第三标签分析结果；

基于所述第一标签分析结果、所述第二标签分析结果和所述第三标签分析结果和所述时长占比，得到所述目标视频对应的目标标签信息。

较佳地，所述基于所述目标笔记内目标视频中的转场点，对所述目标视频进行拆分，以将所述目标视频拆分成若干个视频片段的步骤包括：

使用转场算法遍历所述目标视频，比较所述目标视频中相邻两帧的帧图像，得到比较结果；

在所述比较结果表征分别对应不同场景时，则将当前两帧之间的每个时刻点作为转场点；

根据得到的若干所述转场点，将所述目标视频拆分成多个所述视频片段。

较佳地，所述对每个所述视频片段进行分析，以获取每个所述视频片段属于每个所述初始标签信息的第一标签分析结果的步骤，包括：

将每个所述视频片段进行分类处理，得到每个所述视频片段属于每个所述初始标签的第一概率值；

基于符合第一预设条件的每个所述视频片段的每个所述初始标签的所述第一概率值，生成对应的二维矩阵；

将所述二维矩阵进行逻辑回归运算，得到每个所述视频片段属于每个所述初始标签信息的所述第一标签分析结果。

较佳地，所述采用第一预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第二标签分析结果的步骤，包括：

对所述目标文本信息进行过滤处理，以得到每个所述视频片段对应每个所述初始标签的第二概率值；

选取符合第二预设条件的每个所述视频片段属于每个所述初始标签的所述第二概率值，得到每个所述视频片段属于每个所述初始标签信息的第二标签分析结果。

较佳地，所述采用第二预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第三标签分析结果的步骤包括：

采用预设文本模型对所述过滤处理后的所述目标文本信息进行分类处理，以得到每个所述视频片段对应每个所述初始标签的第三概率值；

选取符合第三预设条件的每个所述视频片段属于每个所述初始标签的所述第三概率值，得到每个所述视频片段属于每个所述初始标签信息的第三标签分析结果。

较佳地，所述基于所述第一标签分析结果、所述第二标签分析结果和所述第三标签分析结果和所述时长占比，得到所述目标视频对应的目标标签信息的步骤包括：

分别将所述第一概率值、所述第二概率值、所述第三概率值乘以对应的每个所述视频片段的时长占比，并进行加权计算，以得到每个所述视频片段中每个所述初始标签信息对应的第四概率值、第五概率值、第六概率值；

对不同所述视频片段中每个所述初始标签信息对应的所述第四概率值、所述第五概率值、所述第六概率值进行求和处理，得到所述目标视频中每个所述初始标签信息对应的第七概率值、第八概率值、第九概率值；

计算得到所述第七概率值、所述第八概率值、所述第九概率值对应的平均值，得以到所述目标视频对应每个所述初始标签信息的中间概率值；

选取最大的所述中间概率值对应的所述初始标签信息，作为所述目标视频对应的所述目标标签信息。

较佳地，所述得到所述目标视频对应的目标标签信息的步骤之后还包括：

获取所述目标标签信息在所述目标视频中每个所述视频片段的置信度得分，以评估所述目标标签信息的准确度；

和/或，所述提取方法应用在旅游场景中。

本公开还提供一种视频标签提取系统，所述提取系统包括：

目标笔记获取模块，用于获取目标笔记；

视频分段模块，用于基于所述目标笔记内目标视频中的转场点，对所述目标视频进行拆分，以将所述目标视频拆分成若干个视频片段，并得到每个所述视频片段对应的时长占比；

目标文本获取模块，用于从所述目标笔记中提取初始文本信息，以得到目标文本信息；

初始标签信息获取模块，用于基于目标笔记，获取所述目标视频对应的若干初始标签信息；

第一标签分析结果获取模块，用于对每个所述视频片段进行分析，以获取每个所述视频片段属于每个所述初始标签信息的第一标签分析结果；

第二标签分析结果获取模块，用于采用第一预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第二标签分析结果；

第三标签分析结果获取模块，用于采用第二预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第三标签分析结果；

目标标签信息获取模块，用于基于所述第一标签分析结果、所述第二标签分析结果和所述第三标签分析结果和所述时长占比，得到所述目标视频对应的目标标签信息。

较佳地，所述视频分段模块包括：

视频转场点识别单元，用于使用转场算法遍历所述目标视频，比较所述目标视频中相邻两帧的帧图像，得到比较结果；

转场点确定单元，用于在所述比较结果表征分别对应不同场景时，则将当前两帧之间的每个时刻点作为转场点；

视频拆分单元，用于根据得到的若干所述转场点，将所述目标视频拆分成多个所述视频片段。

较佳地，所述第一标签分析结果获取模块包括：

视频片段处理单元，用于将每个所述视频片段使用纯视觉模型进行分类处理，得到每个所述视频片段属于每个所述初始标签的第一概率值；

二维矩阵生成单元，用于基于符合第一预设条件的每个所述视频片段的每个所述初始标签的概率值，生成对应的二维矩阵；

第一分析结果获取单元，用于将所述二维矩阵进行逻辑回归运算，得到每个所述视频片段属于每个所述初始标签信息的所述第一标签分析结果。

较佳地，所述第二标签分析结果获取模块包括：

第二概率值获取单元，用于对所述目标文本信息进行正则关键词召回过滤处理，以得到每个所述视频片段对应每个所述初始标签的第二概率值；

第二分析结果获取单元，用于选取符合第二预设条件的每个所述视频片段属于每个所述初始标签的所述第二概率值，得到每个所述视频片段属于每个所述初始标签信息的第二标签分析结果。

较佳地，所述第三标签分析结果获取模块包括：

第三概率值获取单元，用于采用预设文本模型对过滤处理后的所述目标文本信息进行分类处理，以得到每个所述视频片段对应每个所述初始标签的第三概率值；

第三分析结果获取单元，用于选取符合第三预设条件的每个所述视频片段属于每个所述初始标签的所述第三概率值，得到每个所述视频片段属于每个所述初始标签信息的第三标签分析结果。

较佳地，所述目标标签信息获取模块包括：

概率值加权单元，用于分别将所述第一概率值、所述第二概率值、所述第三概率值乘以对应的每个所述视频片段的时长占比，并进行加权计算，以得到每个所述视频片段中每个所述初始标签信息对应的第四概率值、第五概率值、第六概率值；

平均概率值运算单元，用于对不同所述视频片段中每个所述初始标签信息对应的所述第四概率值、所述第五概率值、所述第六概率值进行求和处理，得到所述目标视频中每个所述初始标签信息对应的第七概率值、第八概率值、第九概率值；

中间概率值计算单元，用于计算得到所述第七概率值、所述第八概率值、所述第九概率值对应的平均值，得以到所述目标视频对应每个所述初始标签信息的中间概率值；

目标标签信息确定单元，用于选取最大的所述中间概率值对应的所述初始标签信息，作为所述目标视频对应的所述目标标签信息。

较佳地，所述提取系统还包括：

置信度得分获取模块，用于获取所述目标标签信息在所述目标视频中每个所述视频片段的置信度得分，以评估所述目标标签信息的准确度；

和/或，所述提取系统应用在旅游场景中。

本公开还提供一种电子设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的视频标签的提取方法。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的视频标签的提取方法。

在符合本领域常识的基础上，所述各优选条件，可任意组合，即得本公开各较佳实施例。

本公开的积极进步效果在于：

本公开可以提供了一种多模态的视频标签提取方法，通过将视频拆分成多个片段，并综合目标笔记中的文字信息和图片信息，通过对视频片段信息、文字信息、图片信息等信息进行处理，具体通过视频转场分段、OCR(光学字符识别)文字信息提取和视频多模态分类等技术手段，实现对旅游场景视频的分类和分析，综合判断目标笔记中视频所属的标签，显著提高了视频标签提取的准确率和效率，从而为旅游行业提供更加准确、智能的服务。

附图说明

图1为本公开实施例1的视频标签的提取方法的流程图；

图2为本公开实施例2的视频标签的提取方法步骤S5的流程图；

图3为在旅游场景下本公开视频标签提取方法的实现原理图；

图4为本公开视频标签的提取系统的结构示意图；

图5为本公开的实施例5的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本公开，但并不因此将本公开限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例提供一种视频标签的提取方法，包括以下步骤：

S1、获取目标笔记；

其中，所述目标笔记包括目标视频和所述目标视频对应的其他笔记信息。

具体地，目标笔记可以是包含视频、标题、正文、图片等信息。

对于旅游场景而言，该目标笔记为旅游笔记。

S2、基于所述目标笔记内目标视频中的转场点，对所述目标视频进行拆分，以将所述目标视频拆分成若干个视频片段，并得到每个所述视频片段对应的时长占比。

S3、从所述目标笔记中提取初始文本信息，以得到目标文本信息；

S4、基于目标笔记，获取所述目标视频对应的若干初始标签信息。

S5、对每个所述视频片段进行分析，以获取每个所述视频片段属于每个所述初始标签信息的第一标签分析结果。

S6、采用第一预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第二标签分析结果。

S7、采用第二预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第三标签分析结果。

S8、基于所述第一标签分析结果、所述第二标签分析结果和所述第三标签分析结果和所述时长占比，得到所述目标视频对应的目标标签信息。

本实施例中，提出一种基于视频和文本的多模态的视频标签提取方法，通过将视频拆分成多个片段，并综合目标笔记中的文字信息和图片信息，通过对视频片段信息、文字信息、图片信息等信息进行处理，具体通过视频转场分段、OCR文字信息提取和视频多模态分类等技术手段，实现对旅游场景视频的分类和分析，综合判断目标笔记中视频所属的标签，显著提高了视频标签提取的准确率和效率，从而为旅游行业提供更加准确、智能的服务。

实施例2

本实施例的视频标签的提取方法是对实施例1的进一步改进，具体地：

在一个可选实施例中，步骤S2具体包括：

S201、使用转场算法遍历所述目标视频，比较所述目标视频中相邻两帧的帧图像，得到比较结果；

S202、在所述比较结果表征分别对应不同场景时，则将当前两帧之间的每个时刻点作为转场点；

S203、根据得到的若干所述转场点，将所述目标视频拆分成多个所述视频片段。

具体地，采用预设转场算法对视频进行拆分处理，具体包括如下步骤：

(1)视频预处理：视频预处理是视频处理和分析的初步阶段，旨在将视频数据转换成适合后续算法处理的格式。首先，将视频被加载到处理系统中。这可能包括对视频进行解码和将其转换为一系列帧即单个图像的过程。视频预处理还可能包括调整帧的分辨率或进行其他形式的规范化，以便于后续分析。

(2)帧间差异分析：转场算法会逐帧分析视频，计算相邻帧之间的差异。首先，从视频序列中选择连续的帧。通常，这些是按时间顺序排列的相邻帧。其次，对选择的帧进行必要的预处理，例如调整分辨率、转换颜色空间、去噪等，以确保后续分析的准确性。最后，对每一对连续帧，计算它们之间的差异。这可以通过多种方法实现，常见的有，像素差异：直接计算相同位置上像素值的差异，这是最直接的方法；块匹配：将帧分割成小块，比较对应块之间的差异；特征匹配：提取每帧的关键特征(如边缘、角点)并比较它们；光流法：通过分析像素在连续帧之间的运动模式来评估变化。接下来，将计算得到的差异量化为可度量的值。这可能涉及统计像素差异的总和、计算均方差或其他统计度量。

(3)转场点识别：当帧间差异超过某个预定阈值时，算法标记这些点为转场点。转场点指的是视频中场景或视觉内容发生显著变化的时刻，通常意味着一个新的场景或镜头的开始。

(4)视频片段生成：根据识别出的转场点，视频被拆分成多个片段。每个片段通常从一个转场点开始，到下一个转场点结束。如果视频的开始或结束部分没有转场点，这些部分也被视作单独的片段。此外，转场算法还能进行转场类型判定，在某些情况下，算法还可能进一步分析转场的类型，例如硬切换(直接从一个场景切换到另一个场景)、渐变(场景逐渐过渡)等。这有助于更细致地理解视频内容的结构。

在一个可选实施例中，步骤S3具体包括：

S301、从旅游笔记中提取出标题、正文的文字以及用户上传的图片，并使用OCR图片识别技术提取图片中的文字。

OCR技术提取图片中的文字是将图像中的印刷或手写文字转换为机器编码文本的过程，通常包括以下步骤：

(1)加载图像，首先，需要从旅游笔记中加载图像。

(2)图像处理，对图像进行预处理以提高OCR的准确率；预处理操作包括但不限于调整对比度、亮度、图像锐化、去噪、色彩空间转换(例如，将彩色图像转换为灰度图像)，以及图像二值化(将图像转换为黑白两色)。

(3)文字区域定位，使用各种图像处理技术确定图像中可能包含文字的区域。这个过程可能涉及边缘检测、区域分割等方法。

(4)字符分割，在确定的文字区域中，进一步将文字分割成单个字符或单词。这需要处理字符间的距离和重叠问题，特别是在手写文字中尤为重要。

(5)使用OCR技术识别每个字符。这通常涉及机器学习或深度学习模型，如卷积神经网络(Convolutional Neural Network)。这些模型在大量标记数据上进行训练，以学习如何识别不同的字符和符号。

(6)后处理，对OCR系统的输出进行后处理，以提高文本的准确性。这可能包括拼写检查、词汇校正、上下文分析等；还可能涉及更复杂的语义分析，特别是在提取的文本需要进行进一步处理或理解的情况下。

(7)输出格式化，将识别出的文本格式化为可用的格式，如纯文本、XML(可扩展置标语言)或JSON(JavaScript，对象表示法)文件等。

S302、得到OCR图片识别技术提取的文字后，将这些文字与旅游笔记中的标题、正文拼接在一起，通过中文文本Roberta模型进行改写总结，最终得到一段流畅符合逻辑的文字。应用中文文本Roberta模型的过程是一个涉及自然语言处理(NLP)的过程，旨在利用机器学习技术提高文本的处理和理解能力。Roberta是一个基于Transformers架构的预训练语言模型，被设计用来理解和生成自然语言文本。它通过在大量文本上进行预训练，学习语言的深层特征和上下文关系。当涉及中文文本时，Roberta模型特别针对中文的语言结构、语法和语义进行优化，从而更好地处理中文数据。

其主要的处理步骤包括：

(1)预处理输入文本，对输入的拼接文本进行必要的预处理，如分词、去除特殊字符、规范化格式等。中文分词是一个重要步骤，因为中文写作不像英文那样有明显的单词分界。

(2)加载预训练模型，加载预训练的中文文本Roberta模型。这个模型已经在大量中文文本上进行了训练，因此具备理解中文文本的能力。

(3)特征提取和理解，将预处理后的文本输入模型。模型会提取文本的特征，理解其语义和上下文。这包括捕捉句子结构、语法关系和意义层面的信息。

(4)文本生成或改写，根据应用需求，Roberta可以用于生成新的文本、改写现有文本或提取关键信息。例如，它可以根据给定的上下文自动生成符合逻辑的句子，或者将原文重写得更加流畅、准确。

(5)后处理和输出，生成的文本可能需要一些后处理，比如调整语句顺序、校正小错误等，以提高文本质量。

在一个可选实施例中，步骤S4具体包括：

根据所述旅游笔记中的信息，获取所述旅游笔记中的视频对应的若干初始标签信息。所述初始标签信息可以是和旅游视频标签相关的一些主题和元素，如目的地标签、活动类型标签、景点类型标签、文化和节日标签、美食标签、住宿类型标签、旅行方式标签、交通方式标签、季节和时间标签、自然元素标签等。

在一个可选实施例中，如图2所示，步骤S5具体包括：

S501、将每个所述视频片段进行分类处理，得到每个所述视频片段属于每个所述初始标签的第一概率值；

S502、基于符合第一预设条件的每个所述视频片段的每个所述初始标签的所述第一概率值，生成对应的二维矩阵；

S503、将所述二维矩阵进行逻辑回归运算，得到每个所述视频片段属于每个所述初始标签信息的所述第一标签分析结果。

具体地，使用深度学习模型对每个片段进行分类得到每个标签的概率值。深度学习模型可以是MAE(Masked Autoencoder)模型，MAE是一种自编码器模型，它通过遮蔽一部分输入图像的策略来进行自我监督学习。类似于NLP中的BERT(Bidirectional EncoderRepresentations from Transformers)模型，MAE的目标是重建原始图像中被遮蔽的部分。MAE的关键是它的编码器和解码器架构。编码器处理输入图像，但在此过程中，一部分输入(例如，一定比例的像素)会被随机遮蔽。解码器则试图重建这些遮蔽的部分，从而学习到图像的内部表示。MAE在图像识别、图像恢复等领域有应用潜力。由于它采用自监督学习，可以在无需大量标注数据的情况下训练模型。

深度学习模型也可以是CLIP(Contrastive Language–Image Pretraining)模型，CLIP是一种跨模态学习模型，旨在学习图像和文本之间的关系。它通过同时处理图像和相关的文本描述，学习图像内容和自然语言描述之间的对应关系。CLIP包含两个主要部分：一个视觉编码器和一个文本编码器。视觉编码器处理图像，文本编码器处理图像的描述。通过对比学习，CLIP学习将图像和其描述映射到一个共同的特征空间中。CLIP可以用于各种跨模态任务，如图像检索、图像描述生成等。它特别擅长处理那些传统视觉模型难以解决的复杂、细粒度的分类任务。

针对每个标签设置阈值来选择命中的视频片段，统计命中的片段对应的时长占整个视频时长的比例，即得到一个n+1个片段，m个标签的矩阵(n、m均取正整数)，再将视频片段预测得到的二维矩阵进行逻辑回归，得到逻辑回归得分。针对每个标签设置阈值来选择命中的视频片段是视频内容分析和分类过程中的一个关键步骤。

这个过程涉及如下几个主要环节：

(1)标签定义，首先需要定义一系列的标签，这些标签代表了视频内容分析的目标。例如，这些标签可以是“自然风景”、“城市生活”、“文化活动”等。

(2)视频片段分类，使用深度学习模型或其他机器学习模型对视频中的每个片段进行分类。这一步通常涉及图像识别技术，模型会分析视频片段的视觉内容，并为每个标签提供一个概率值。

(3)阈值设置，对于每个标签，需要设定一个阈值。这个阈值是一个概率分数，用于判断视频片段是否足够“符合”某个标签。例如，如果设置“自然风景”标签的阈值为0.7，则只有当视频片段被分类为“自然风景”的概率超过70％时，它才被认为是该标签的有效代表。

(4)命中判定，对每个视频片段进行判断。如果片段属于某个标签的概率值超过了该标签的阈值，则认为这个片段“命中”了该标签。

(5)阈值调整，阈值的设定不是一成不变的，可能需要根据实际应用场景和数据集特性进行调整。例如，如果希望系统更严格地选择视频片段，则可以提高阈值；反之，如果希望系统更宽松或更包容，可以降低阈值。通过设置标签阈值，可以有效控制视频内容分析的精度和覆盖范围，使得结果更加符合特定应用的需求。将所有命中的标签和所有视频片段组成一个二维矩阵，即得到一个n+1个片段，m个标签的矩阵，矩阵中的每个元素代表对应的视频片段属于对应标签的概率值。再将视频片段预测得到的二维矩阵进行逻辑回归，得到逻辑回归得分。逻辑回归是一种广泛使用的分类算法，它可以估算一个或多个自变量与一个二元因变量之间的关系。在本实施例中，自变量是视频片段对各个标签的概率值，因变量是视频片段是否属于某个特定类别的标签。

逻辑回归模型为每个视频片段提供一个得分，这个得分表示视频片段属于每个类别的概率。得分是一个介于0和1之间的值，数值越接近1，表示视频片段属于该类别的可能性越大。将逻辑回归得分结果作为第一标签分析结果。

在一个可选实施例中，步骤S6具体包括：

S601、对所述目标文本信息进行过滤处理，以得到每个所述视频片段对应每个所述初始标签的第二概率值；

S602、选取符合第二预设条件的每个所述视频片段属于每个所述初始标签的所述第二概率值，得到每个所述视频片段属于每个所述初始标签信息的第二标签分析结果。

具体地，可以采用正则关键词召回对改写后的文本进行过滤，输出关键词召回结果。正则关键词召回是一种文本处理技术，它利用正则表达式(Regular Expression)来识别和提取文本中的特定关键词。通常包括以下步骤：

(1)创建正则表达式，需要编写正则表达式。正则表达式是一种文本模式，用于描述或匹配字符串的一种方式。这些表达式会设计成能够识别特定标签的关键词或短语，比如特定的景点名称、活动类型、物体描述等。例如，如果视频内容与旅游相关，那么正则表达式可能会被设计来匹配地名、旅游景点的名称、常见旅游活动的术语等。

(2)关键词召回，应用正则表达式到准备好的文本数据上。这个过程中，正则表达式会扫描文本，并识别出匹配特定模式的词语或短语。这一步的目的是从大量文本中快速准确地提取出与视频内容最相关的关键词，这些关键词对视频内容的分类和标签生成至关重要。

(3)相似度计算，计算每个视频片段与关键词之间的相似度。这通常涉及比较视频片段的特征和关键词的特征。相似度可以通过多种方法计算，例如余弦相似度、欧几里得距离、Jaccard(Jaccard Similarity Coefficient，卡德相似系数)等。

(4)输出关键词召回结果，最终生成一个表示每个视频片段和每个关键词之间的相似度概率值。作为第二标签分析结果。

在一个可选实施例中，步骤S7具体包括：

S701、采用预设文本模型对过滤处理后的所述目标文本信息进行分类处理，以得到每个所述视频片段对应每个所述初始标签的第三概率值；

S702、选取符合第三预设条件的每个所述视频片段属于每个所述初始标签的所述第三概率值，得到每个所述视频片段属于每个所述初始标签信息的第三标签分析结果。

具体地，对关键词召回过滤后的文本经过中文文本Roberta模型进行处理，得到文本分类得分。这一过程通常包括以下步骤：

(1)关联视频片段，将过滤后的文本与各个视频片段关联。这一步是为了确定文本中的信息与哪些视频片段最相关，以便在后续步骤中进行更准确的分类。这可以通过多种方式实现：如果文本直接提到了某个特定的场景或活动，系统可以查找视频中匹配这些描述的片段。如果文本中的信息更抽象，如情感倾向或主题类别，系统需要使用更复杂的算法来找到与这些抽象概念相匹配的视频片段。也可以使用机器学习模型来帮助建立文本与视频片段之间的关联。这些模型可能会根据先前的训练数据来识别视频中与文本描述相匹配的模式或特征。

(2)关联的视频片段进行文本分类，应用中文文本Roberta模型对每个关联的视频片段进行文本分类。对于每个视频片段，Roberta模型会输出一系列概率值，这些值代表该片段属于不同标签的可能性。这些标签是事先定义好的和旅游的主题或元素相关的标签，如“自然风景”、“城市生活”、“文化活动”等。概率值通常介于0到1之间，值越高表示模型越确信该视频片段属于对应的标签。最终，每个视频片段会有一个概率分布，展示了它属于各个标签的可能性。例如，一个片段可能有80％的概率属于“自然风景”类标签，15％属于“城市生活”类标签，等等。输出文本分类得分作为第三标签分析结果。

在一个可选实施例中，步骤S8具体包括：

S801、分别将所述第一概率值、所述第二概率值、所述第三概率值乘以对应的每个所述视频片段的时长占比，并进行加权计算，以得到每个所述视频片段中每个所述初始标签信息对应的第四概率值、第五概率值、第六概率值；

S802、对不同所述视频片段中每个所述初始标签信息对应的所述第四概率值、所述第五概率值、所述第六概率值进行求和处理，得到所述目标视频中每个所述初始标签信息对应的第七概率值、第八概率值、第九概率值；

S803、计算得到所述第七概率值、所述第八概率值、所述第九概率值对应的平均值，得以到所述目标视频对应每个所述初始标签信息的中间概率值；

S804、选取最大的所述中间概率值对应的所述初始标签信息，作为所述目标视频对应的所述目标标签信息。

具体地，分别将所述第一概率值、所述第二概率值、所述第三概率值乘以对应的每个所述视频片段的时长占比，并进行加权计算，以得到每个所述视频片段中每个所述初始标签信息对应的第四概率值、第五概率值、第六概率值；

在一个可选实施例中，步骤S8之后还包括：

S9、获取所述目标标签信息在所述目标视频中每个所述视频片段的置信度得分，以评估所述视频标签的提取方法的准确性，并为所述视频标签的提取方法的优化提供数据支持。

具体地，当本公开所述的视频标签的提取方法命中一个视频标签时，同时输出这个标签类别出现在视频中的对应片段，以及每个片段对应的置信度得分。例如，如果标签是“海滩”，本公开所述的视频标签的提取方法会识别出所有显示海滩场景的视频片段。对于每个识别出的片段，本公开所述的视频标签的提取方法会计算一个置信度得分。这个得分反映了本公开所述的视频标签的提取方法判断所有视频片段与标签“海滩”匹配的信心程度

置信度得分通常是一个介于0到1之间的数值，得分越高表示本公开所述的视频标签的提取方法越确信该片段与标签匹配。收集的置信度数据可用于分析视频标签提取方法的性能。例如，低置信度得分可能表明需要改进算法或调整分类模型。这些数据也可用于训练和优化模型，通过反馈循环不断提高标签提取的准确率。

下面以旅游笔记为例，结合图3，具体说明本实施例的1的视频标签提取方法的实现原理：

1.视频转场分段

给定一条旅游笔记，其中包含有视频、文字、图片等信息。取出其中的视频，根据转场算法做视频拆分，有n个转场点，拆分为n+1个片段，得到每个片段的时长占比。

2.OCR文字信息提取

给定一条旅游笔记，其中包含有视频、文字、图片等信息。取出标题、正文的文字以及用户上传的图片，通过OCR图片识别提取出图片中含有的文字，并将这些文字拼接在一起，通过中文文本模型进行改写总结，最终得到一段流畅符合逻辑的文字。

3.视频多模态分类

首先，通过视频转场分段之后得到的n+1个视频片段，使用纯视觉模型对每个片段进行分类得到每个类别的概率值。针对每个类别设置阈值来选择命中的视频片段，统计命中的片段对应的时长占整个视频时长的比例，即得到一个n+1个片段，m个类别的矩阵。

其次，针对文本分类，对于标题、正文、OCR结果中的文本，采用正则关键词召回先进行过滤，然后再经过中文文本Roberta模型，输出OCR结果的文本分类得分以及关键词的召回结果。

经过上述阶段操作后，有了视频时长占比、文本预测得分以及关键词召回结果，再将视频片段预测得到的二维矩阵进行逻辑回归，得到逻辑回归得分。通过四个维度预测的标签结果均值来进行最终的命中标签判断。当该算法命中一个标签时，同时输出这个标签类别出现在视频中的对应片段，以及每个片段对应的置信度得分。

在旅游场景的40个标签中，每个视频片段抽三帧图片进行模型推理，平均视频分类准确率达到90.1％，超过当前开源方法在旅游场景的视频分类准确率。

即对于旅游场景而言，通过视频转场分段、OCR文字信息提取和视频多模态分类等技术手段，实现对旅游场景视频的分类和分析，综合判断目标笔记中视频所属的标签，显著提高了视频标签提取的准确率和效率，从而为旅游行业提供更加准确、智能的服务。

实施例3

如图4所示，所述视频标签的提取系统100包括：

目标笔记获取模块1，用于获取目标笔记；

视频分段模块2，用于基于所述目标笔记内目标视频中的转场点，对所述目标视频进行拆分，以将所述目标视频拆分成若干个视频片段，并得到每个所述视频片段对应的时长占比；

目标文本获取模块3，用于从所述目标笔记中提取初始文本信息，以得到目标文本信息；

初始标签信息获取模块4，用于基于目标笔记，获取所述目标视频对应的若干初始标签信息；

第一标签分析结果获取模块5，用于对每个所述视频片段进行分析，以获取每个所述视频片段属于每个所述初始标签信息的第一标签分析结果；

第二标签分析结果获取模块6，用于采用第一预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第二标签分析结果；

第三标签分析结果获取模块7，用于采用第二预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第三标签分析结果；

目标标签信息获取模块8，用于基于所述第一标签分析结果、所述第二标签分析结果和所述第三标签分析结果和所述时长占比，得到所述目标视频对应的目标标签信息；

置信度得分获取模块9用于获取所述目标标签信息在所述目标视频中每个所述视频片段的置信度得分，以评估所述目标标签信息的准确度。

需要说明的是，对于本实施例中视频标签的提取系统而言，其基于对应的方法实施例1，所以相关之处参见方法实施例1的部分说明即可。

实施例4

本实施例的视频标签的提取系统是对实施例3的进一步改进，具体地：

所述视频分段模块包括：

所述第一标签分析结果获取模块包括：

所述第二标签分析结果获取模块包括：

所述第三标签分析结果获取模块包括：

所述目标标签信息获取模块包括：

所述提取系统还包括：

和/或，所述提取系统应用在旅游场景中。

需要说明的是，对于本实施例中视频标签的提取系统而言，其基于对应的方法实施例2，所以相关之处参见方法实施例2的部分说明即可。

实施例5

图5为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的视频标签的提取方法。图5显示的电子设备30仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本公开实施例1的视频标签的提取方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的视频标签的提取方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本公开还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的视频标签的提取方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本公开的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本公开的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本公开的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本公开的保护范围。

Claims

1.一种视频标签的提取方法，其特征在于，所述提取方法包括：

获取目标笔记；

2.如权利要求1所述的视频标签的提取方法，其特征在于，所述基于所述目标笔记内目标视频中的转场点，对所述目标视频进行拆分，以将所述目标视频拆分成若干个视频片段的步骤包括：

3.如权利要求1或2所述的视频标签的提取方法，其特征在于，所述对每个所述视频片段进行分析，以获取每个所述视频片段属于每个所述初始标签信息的第一标签分析结果的步骤，包括：

4.如权利要求3所述的视频标签的提取方法，其特征在于，所述采用第一预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第二标签分析结果的步骤，包括：

5.如权利要求4所述的视频标签的提取方法，其特征在于，所述采用第二预设文本处理方式对所述目标文本信息进行处理，获取每个所述视频片段属于每个所述初始标签信息的第三标签分析结果的步骤包括：

采用预设文本模型对过滤后的所述目标文本信息进行分类处理，以得到每个所述视频片段对应每个所述初始标签的第三概率值；

6.如权利要求5所述的视频标签的提取方法，其特征在于，所述基于所述第一标签分析结果、所述第二标签分析结果和所述第三标签分析结果和所述时长占比，得到所述目标视频对应的目标标签信息的步骤包括：

7.如权利要求1所述的视频标签的提取方法，其特征在于，所述得到所述目标视频对应的目标标签信息的步骤之后还包括：

和/或，所述提取方法应用在旅游场景中。

8.一种视频标签提取系统，其特征在于，所述提取系统包括：

目标笔记获取模块，用于获取目标笔记；

9.一种电子设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的视频标签的提取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的视频标签的提取方法。