CN117079081B

CN117079081B - 一种多模态视频文本处理模型训练方法及系统

Info

Publication number: CN117079081B
Application number: CN202311329604.6A
Authority: CN
Inventors: 韩东明; 万力; 王庆焕; 邢军鹏; 李晓阳; 刘其敏; 邵龙
Original assignee: Shandong Haibo Technology Information System Co ltd
Current assignee: Shandong Haibo Technology Information System Co ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-26
Anticipated expiration: 2043-10-16
Also published as: CN117079081A

Abstract

本发明涉及深度学习技术领域，尤其涉及一种多模态视频文本处理模型训练方法及系统，通过获取包含视频和描述视频内容的文本的视频文本对，计算视频文本对的数据质量评价值，根据评价值确定是否进行预处理，当需要预处理时，确定预处理方式，并将未处理和预处理完成的视频文本对存入数据集，当数据集中的视频文本对数量达到预设数量时，开始训练模型，训练完成后，根据模型在验证集上的准确率确定是否需要调节预处理过程，确定调节方式，本发明克服了现有技术中对视频文本对的质量评价的精确性差，从而导致视频文本对的数据集质量差的问题。

Description

一种多模态视频文本处理模型训练方法及系统

技术领域

本发明涉及深度学习技术领域，尤其涉及一种多模态视频文本处理模型训练方法及系统。

背景技术

随着深度学习和自然语言处理等技术的飞速发展，视频内容理解和生成技术已经成为了人工智能领域的研究热点，其中，视频描述生成就是其中的一个重要任务，即根据视频的内容生成描述视频的文字，有着广泛的应用场景，如视频搜索、视频推荐、无障碍服务等。

然而，多模态视频文本处理技术的发展面临着诸多挑战，其中之一便是数据集的构建，由于视频和文本数据的多样性和复杂性，构建一个高质量的多模态视频文本数据集不仅需要大量的数据，还需要对数据进行有效的筛选和预处理，现有的多模态视频文本处理技术在数据集构建方面存在以下问题：现有的多模态视频文本数据集规模较小，无法满足多模态视频文本处理模型的训练需求，导致模型泛化能力较弱，现有的多模态视频文本处理技术在数据筛选和预处理方面的方法较为简单，无法有效地识别和处理低质量数据，导致数据集质量较差，单一的评价指标无法全面地反映数据的质量，导致数据质量评价不准确。

中国专利申请公开号：CN112069361A公开了一种基于多模态融合的视频描述文本生成方法，包括获取待描述视频，所述待描述视频包括视频帧和音频，所述待描述视频设置有对应的视频描述语句；获取所述视频描述语句的至少一个文本主题信息，并给每个所述文本主题信息设置文本主题信息编码；将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中，以分别获取所述待描述视频的动态时域信息编码和静态信息编码；将所述待描述视频的音频输入至对应的神经网络中，以获取所述待描述视频的音频特征向量编码；将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理，以得到融合结果；将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定所述待描述视频的视频内容描述文本。

由此可见，现有技术存在以下问题：由于现有数据集规模有限，同时对数据质量评价不准确，对于数据的预处理策略不合理导致构建的数据集质量差。

发明内容

为此，本发明提供一种多模态视频文本处理模型训练方法及系统，用以克服现有技术中对视频文本对的质量评价的精确性差，从而导致视频文本对的数据集质量差的问题。

为实现上述目的，一方面，本发明提供一种多模态视频文本处理模型训练方法，包括：

步骤S1，数据获取模块获取包含了视频以及描述对应视频内容的文本的视频文本对，数据分析模块计算所述视频文本对的数据质量评价值，并根据所述数据质量评价值确定是否对所述视频文本对进行预处理；

步骤S2，当所述数据分析模块确定对所述视频文本对进行预处理时，数据预处理模块确定对所述视频文本对进行预处理的预处理方式，将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中；

步骤S3，当数据集中的视频文本对的数量达到预设数量时，建模模块构建视频描述生成网络模型，将所述数据集按照预设比例划分为训练集与验证集，并将所述训练集在视频描述生成网络模型上训练；

步骤S4，当所述视频描述生成网络模型训练完成后，模型评价模块根据所述视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节；

步骤S5，当模型评价模块确定对所述预处理过程进行调节时，根据第二相对差确定对所述预处理过程进行调节的调节方式；

其中，所述第二相对差由所述准确率与预设准确率确定。

进一步地，当所述数据获取模块获取视频文本对完成时，所述数据分析模块根据以下公式计算所述视频文本对的数据质量评价值，设定

；

其中，P表示所述数据质量评价值，Aa表示所述视频文本对中文本的句子连贯度，Ai表示所述视频文本对中文本的第i个句子的句子概率，n表示所述视频文本对中文本的句子数量，Bb表示所述视频文本对中视频的相邻帧之间的平均结构相似度。

进一步地，当所述数据分析模块计算所述数据质量评价值P完成且当所述数据质量评价值小于等于预设数据质量评价值时确定对所述视频文本对进行预处理。

进一步地，当所述数据分析模块确定对所述视频文本对进行预处理时，所述数据预处理模块根据第一相对差确定对所述视频文本对进行预处理的若干预处理方式，若干所述预处理方式包括对所述文本进行调整的第一预处理方式以及删除所述视频中每一帧的背景图像的第二预处理方式，其中所述第一相对差由所述数据质量评价值与预设数据质量评价值确定。

进一步地，当所述数据预处理模块确定以第一预处理方式对所述视频文本对进行预处理时，根据所述文本的句子连贯度确定对所述文本进行调整的若干调整方式，若干所述调整方式包括将所述文本进行回译的第一调整方式，将所述文本中的词语进行同义词替换的第二调整方式以及删除所述文本中的停用词的第三调整方式。

进一步地，当所述视频描述生成网络模型训练完成后，所述模型评价模块获取所述视频描述生成网络模型在验证集上的准确率，以在所述准确率小于等于预设准确率的条件下确定对预处理过程进行调节。

进一步地，当所述模型评价模块确定对所述预处理过程进行调节时，根据第二相对差确定对所述预处理过程进行调节的若干调节方式，若干所述调节方式包括以第一调节系数调节预设第一句子连贯度的第一调节方式以及以第二调节系数调节预设第一相对差的第二调节方式。

进一步地，当所述模型评价模块确定以第一调节方式调节所述预处理过程时，根据以下第一调节系数调节预设第一句子连贯度，设定

；

其中，T1表示所述第一调节系数，△Z表示所述第二相对差。

进一步地，当所述模型评价模块确定以第二调节方式调节所述预处理过程时，根据以下第二调节系数调节预设第一相对差，设定

；

其中，T2表示所述第二调节系数。

另一方面，本发明还提供一种处理系统，包括：包括：

数据获取模块，用以获取包含了视频以及描述对应视频内容的文本的视频文本对；

数据分析模块，其与所述数据获取模块相连，用以计算所述视频文本对的数据质量评价值，并根据所述数据质量评价值确定是否对所述视频文本对进行预处理；

数据预处理模块，其与所述数据分析模块相连，用以确定对所述视频文本对进行预处理的预处理方式，将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中；

建模模块，其与所述数据预处理模块相连，用以构建视频描述生成网络模型，将所述数据集按照预设比例划分为训练集与验证集，并将所述训练集在视频描述生成网络模型上训练；

模型评价模块，其与所述建模模块相连，用以根据建模模块训练完成的视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节，确定对所述预处理过程进行调节的调节方式。

与现有技术相比，本发明的有益效果在于，本发明通过计算视频文本对的数据质量评价值以更加精确地评估输入数据的质量，更高效地识别筛选低质量的视频文本对数据，从而模型训练的效果。

进一步地，本发明根据数据质量评价值与预设数据质量评价值的比对结果确定是否进行预处理，以根据数据的实际质量调整处理策略，避免对高质量数据的不必要处理，同时也对低质量数据进行适当的预处理，提高数据的利用效率。

进一步地，本发明通过计算数据质量评价值与预设数据质量评价值的第一相对差并根据其与预设第一相对差的比对结果来确定预处理方式，实现了对预处理策略的精细化控制，以针对性的对视频文本对进行处理，提高预处理的效果。

进一步地，本发明第一调整方式是将文本翻译成另一种语言，然后再翻译回原语言，以有效地改善文本的流畅性和连贯性，第二调整方式通过将文本中的词语替换为其同义词，以在保持原有语义的基础上，增加文本的含义表达的精确度，帮助模型更好地理解和学习文本从而提高模型的泛化能力，第三调整方式使模型更加关注于重要的信息，从而提高模型的训练效果，根据文本的句子连贯度与预设句子连贯度的比对结果确定对文本进行调整的调整方式，实现了对文本预处理策略的精细化控制，提高预处理的效果。

进一步地，本发明根据模型在验证集上的准确率与预设准确率的比对结果来决定是否对预处理过程进行调节以根据模型的实际表现动态调整预处理策略，提高模型的训练效果，当模型的准确率低于预设准确率时，通过调整预处理过程以有效地提高模型的训练效果和最终性能。

进一步地，本发明通过计算准确率与预设准确率的第二相对差并根据其与预设第二相对差的比对结果来确定调节方式，实现了对预处理过程的精细化调节，以针对性地对预处理过程进行调整，提高预处理的效果，根据预设第二相对差的大小选择不同的调节方式，以更好地适应模型的实际训练效果，提高预处理过程的调节效果。

进一步地，具体而言，本发明调节预设第一句子连贯度以更细致地调整文本预处理的标准，若当前模型的准确率低于预设准确率，降低预设第一句子连贯度使得预处理过程更严格，提高预处理后的文本质量，从而提高模型的准确率，调节预设第一相对差以调整对视频文本对的质量进行评价的严格程度，当前模型的准确率低于预设准确率，降低预设第一相对差使得对数据质量的要求更高，从而提高模型的准确率。

附图说明

图1为本发明实施例基于多模态视频文本处理模型训练方法的流程图；

图2为本发明实施例基于多模态视频文本处理模型训练方法的数据预处理过程的逻辑框图；

图3为本发明实施例基于多模态视频文本处理模型训练方法的文本调整过程的逻辑框图；

图4为本发明实施例基于多模态视频文本处理模型训练方法的预处理过程调节的逻辑框图；

图5为本发明实施例应用基于多模态视频文本处理模型训练方法的系统的结构示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1至图4所示，图1为本发明实施例基于多模态视频文本处理模型训练方法的流程图；图2为本发明实施例基于多模态视频文本处理模型训练方法的数据预处理过程的逻辑框图；图3为本发明实施例基于多模态视频文本处理模型训练方法的文本调整过程的逻辑框图；图4为本发明实施例基于多模态视频文本处理模型训练方法的预处理过程调节的逻辑框图。

本发明实施例基于多模态视频文本处理模型训练方法，包括：

步骤S1，数据获取模块获取包含了视频以及描述对应视频内容的文本的视频文本对，数据分析模块计算所述视频文本对的数据质量评价值P，并根据所述数据质量评价值P确定是否对所述视频文本对进行预处理；

步骤S3，当数据集中的视频文本对的数量L达到预设数量L0时，建模模块构建视频描述生成网络模型，将所述数据集按照预设比例划分为训练集与验证集，并将所述训练集在视频描述生成网络模型上训练；

步骤S5，当模型评价模块确定对所述预处理过程进行调节时，根据第二相对差△Z确定对所述预处理过程进行调节的调节方式。

本发明实施例中，所述视频描述生成网络模型优选为VideoBERT模型，所述预设比例优选为8:2，预设数量L0优选为2000。

具体而言，当所述数据获取模块获取视频文本对完成时，所述数据分析模块根据以下公式计算所述视频文本对的数据质量评价值P，设定

；

其中，Aa表示所述视频文本对中文本的句子连贯度，Ai表示所述视频文本对中文本的第i个句子的句子概率，n表示所述视频文本对中文本的句子数量，Bb表示所述视频文本对中视频的相邻帧之间的平均结构相似度。

本发明实施例中，句子概率Ai根据N-GRAM语言模型确定。

具体而言，本发明通过计算视频文本对的数据质量评价值以更加精确地评估输入数据的质量，更高效地识别筛选低质量的视频文本对数据，从而模型训练的效果。

具体而言，当所述数据分析模块计算所述数据质量评价值P完成时，根据所述数据质量评价值P与预设数据质量评价值P0的比对结果确定是否对所述视频文本对进行预处理；

当P≤P0时，则所述数据分析模块确定对所述视频文本对进行预处理；

当P＞P0，则所述数据分析模块确定不对所述视频文本对进行预处理。

本发明实施例中，所述预设数据质量评价值P0取值为1.5，预设数据质量评价值P是在所述句子连贯度Aa为0.5，所述平均结构相似度Bb为0.5的情况下取得的，本领域技术人员可以根据具体情况对预设数据质量评价值P进行调整。

具体而言，本发明根据数据质量评价值与预设数据质量评价值的比对结果确定是否进行预处理，以根据数据的实际质量调整处理策略，避免对高质量数据的不必要处理，同时也对低质量数据进行适当的预处理，提高数据的利用效率。

具体而言，当所述数据分析模块确定对所述视频文本对进行预处理时，所述数据预处理模块计算所述数据质量评价值P与预设数据质量评价值P0的第一相对差△P，并根据所述第一相对差△P与预设第一相对差△P0的比对结果确定对所述视频文本对进行预处理的预处理方式，设定△P=（P0-P）/P0；

当△P≤△P0时，则所述数据预处理模块确定以第一预处理方式对所述视频文本对进行预处理；

当△P＞△P0时，则所述数据预处理模块确定以第二预处理方式对所述视频文本对进行预处理。

其中，所述第一预处理方式为对所述文本进行调整，所述第二预处理方式为删除所述视频中每一帧的背景图像。

本发明实施例中，所述预设第一相对差△P0取值为0.45，预设第一相对差△P0是在数据质量评价值P为0.83的情况下取得的，本领域技术人员可以根据具体情况对预设第一相对差△P0进行调整。

具体而言，本发明通过计算数据质量评价值与预设数据质量评价值的第一相对差并根据其与预设第一相对差的比对结果来确定预处理方式，实现了对预处理策略的精细化控制，以针对性的对视频文本对进行处理，提高预处理的效果。

具体而言，当所述数据预处理模块确定以第一预处理方式对所述视频文本对进行预处理时，根据所述文本的句子连贯度Aa与预设句子连贯度的比对结果确定对所述文本进行调整的调整方式，所述预设句子连贯度包括预设第一句子连贯度Aa1以及预设第二句子连贯度Aa2；

当Aa≤Aa1时，则所述数据预处理模块确定以第一调整方式对所述文本进行调整；

当Aa1＜Aa≤Aa2时，则所述数据预处理模块确定以第二调整方式对所述文本进行调整；

当Aa＞Aa2时，则所述数据预处理模块确定以第三调整方式对所述文本进行调整。

其中，所述第一调整方式为将所述文本进行回译，所述第二调整方式为将所述文本中的词语进行同义词替换，所述第三调整方式为删除所述文本中的停用词。

本发明实施例中，回译为将文本翻译成预设语言，再翻译回原语言，预设语言优选英语，预设第一句子连贯度Aa1取值为0.2，预设第二句子连贯度Aa2取值为0.4，本领域技术人员可以根据具体情况对预设第一句子连贯度Aa1以及预设第二句子连贯度Aa2进行调整。

具体而言，本发明第一调整方式是将文本翻译成另一种语言，然后再翻译回原语言，以有效地改善文本的流畅性和连贯性，第二调整方式通过将文本中的词语替换为其同义词，以在保持原有语义的基础上，增加文本的含义表达的精确度，帮助模型更好地理解和学习文本从而提高模型的泛化能力，第三调整方式使模型更加关注于重要的信息，从而提高模型的训练效果，根据文本的句子连贯度与预设句子连贯度的比对结果确定对文本进行调整的调整方式，实现了对文本预处理策略的精细化控制，提高预处理的效果。

具体而言，当所述视频描述生成网络模型训练完成后，所述模型评价模块根据所述视频描述生成网络模型在验证集上的准确率Z与预设准确率Z0的比对结果确定是否对预处理过程进行调节；

当Z≤Z0时，则所述模型评价模块确定对所述预处理过程进行调节；

当Z＞Z0时，则所述模型评价模块确定不对所述预处理过程进行调节；

本发明实施例中，所述预设准确率Z0取值为95%，本领域技术人员可以根据具体情况对所述预设准确率Z0进行调整。

具体而言，本发明根据模型在验证集上的准确率与预设准确率的比对结果来决定是否对预处理过程进行调节以根据模型的实际表现动态调整预处理策略，提高模型的训练效果，当模型的准确率低于预设准确率时，通过调整预处理过程以有效地提高模型的训练效果和最终性能。

具体而言，当所述模型评价模块确定对所述预处理过程进行调节时，计算所述准确率Z与预设准确率Z0的第二相对差△Z，并根据所述第二相对差△Z与预设第二相对差△Z0的比对结果确定对所述预处理过程进行调节的调节方式，设定△Z=（Z0-Z）/Z0；

当△Z≤△Z0时，则所述模型评价模块确定以第一调节方式调节所述预处理过程；

当△Z＞△Z0时，则所述模型评价模块确定以第二调节方式调节所述预处理过程；

其中，所述第一调节方式为以第一调节系数T1调节预设第一句子连贯度Aa1，所述第二调节方式为以第二调节系数T2调节预设第一相对差△P0。

本发明实施例中，预设第二相对差△Z0取值为0.16，预设第二相对差△Z0是在准确率Z为80%的情况下取得的，本领域技术人员可以根据具体情况对预设第二相对差△Z0进行调整。

具体而言，本发明通过计算准确率与预设准确率的第二相对差并根据其与预设第二相对差的比对结果来确定调节方式，实现了对预处理过程的精细化调节，以针对性地对预处理过程进行调整，提高预处理的效果，根据预设第二相对差的大小选择不同的调节方式，以更好地适应模型的实际训练效果，提高预处理过程的调节效果。

具体而言，当所述模型评价模块确定以第一调节方式调节所述预处理过程时，根据以下第一调节系数T1调节预设第一句子连贯度Aa1，设定

；

将调节后的预设第一句子连贯度设置为AA1=Aa1×T1。

具体而言，当所述模型评价模块确定以第二调节方式调节所述预处理过程时，根据以下第二调节系数T2调节预设第一相对差△P0，设定

T2=；

将调节后的预设第一相对差设置为△P1=△P0×T2。

具体而言，本发明调节预设第一句子连贯度以更细致地调整文本预处理的标准，若当前模型的准确率低于预设准确率，降低预设第一句子连贯度使得预处理过程更严格，提高预处理后的文本质量，从而提高模型的准确率，调节预设第一相对差以调整对视频文本对的质量进行评价的严格程度，当前模型的准确率低于预设准确率，降低预设第一相对差使得对数据质量的要求更高，从而提高模型的准确率。

请继续参阅图5所示，图5为本发明实施例应用基于多模态视频文本处理模型训练方法的系统的结构示意图。

本发明实施例应用于基于多模态视频文本处理模型训练方法的系统，包括：

数据分析模块，其与所述数据获取模块相连，用以计算所述视频文本对的数据质量评价值P，并根据所述数据质量评价值P确定是否对所述视频文本对进行预处理；

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态视频文本处理模型训练方法，其特征在于，包括：

其中，所述第二相对差由所述准确率与预设准确率确定；

当所述数据获取模块获取视频文本对完成时，所述数据分析模块根据以下公式计算所述视频文本对的数据质量评价值，设定

；

其中，P表示所述数据质量评价值，Aa表示所述视频文本对中文本的句子连贯度，Ai表示所述视频文本对中文本的第i个句子的句子概率，n表示所述视频文本对中文本的句子数量，Bb表示所述视频文本对中视频的相邻帧之间的平均结构相似度；

当所述数据分析模块计算所述数据质量评价值完成且当所述数据质量评价值小于等于预设数据质量评价值时确定对所述视频文本对进行预处理；

当所述数据分析模块确定对所述视频文本对进行预处理时，所述数据预处理模块根据第一相对差确定对所述视频文本对进行预处理的若干预处理方式，若干所述预处理方式包括对所述文本进行调整的第一预处理方式以及删除所述视频中每一帧的背景图像的第二预处理方式，其中所述第一相对差由所述数据质量评价值与预设数据质量评价值确定。

2.根据权利要求1所述的多模态视频文本处理模型训练方法，其特征在于，当所述数据预处理模块确定以第一预处理方式对所述视频文本对进行预处理时，根据所述文本的句子连贯度确定对所述文本进行调整的若干调整方式，若干所述调整方式包括将所述文本进行回译的第一调整方式，将所述文本中的词语进行同义词替换的第二调整方式以及删除所述文本中的停用词的第三调整方式。

3.根据权利要求2所述的多模态视频文本处理模型训练方法，其特征在于，当所述视频描述生成网络模型训练完成后，所述模型评价模块获取所述视频描述生成网络模型在验证集上的准确率，以在所述准确率小于等于预设准确率的条件下确定对预处理过程进行调节。

4.根据权利要求3所述的多模态视频文本处理模型训练方法，其特征在于，当所述模型评价模块确定对所述预处理过程进行调节时，根据第二相对差确定对所述预处理过程进行调节的若干调节方式，若干所述调节方式包括以第一调节系数调节预设第一句子连贯度的第一调节方式以及以第二调节系数调节预设第一相对差的第二调节方式。

5.根据权利要求4所述的多模态视频文本处理模型训练方法，其特征在于，当所述模型评价模块确定以第一调节方式调节所述预处理过程时，根据以下第一调节系数调节预设第一句子连贯度，设定

；

其中，T1表示所述第一调节系数，△Z表示所述第二相对差。

6.根据权利要求5所述的多模态视频文本处理模型训练方法，其特征在于，当所述模型评价模块确定以第二调节方式调节所述预处理过程时，根据以下第二调节系数调节预设第一相对差，设定

；

其中，T2表示所述第二调节系数。

7.一种应用权利要求1-6任一项所述的多模态视频文本处理模型训练方法的系统，其特征在于，包括：