CN117079081B - 一种多模态视频文本处理模型训练方法及系统 - Google Patents

一种多模态视频文本处理模型训练方法及系统 Download PDF

Info

Publication number
CN117079081B
CN117079081B CN202311329604.6A CN202311329604A CN117079081B CN 117079081 B CN117079081 B CN 117079081B CN 202311329604 A CN202311329604 A CN 202311329604A CN 117079081 B CN117079081 B CN 117079081B
Authority
CN
China
Prior art keywords
video
data
preprocessing
video text
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311329604.6A
Other languages
English (en)
Other versions
CN117079081A (zh
Inventor
韩东明
万力
王庆焕
邢军鹏
李晓阳
刘其敏
邵龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Haibo Technology Information System Co ltd
Original Assignee
Shandong Haibo Technology Information System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Haibo Technology Information System Co ltd filed Critical Shandong Haibo Technology Information System Co ltd
Priority to CN202311329604.6A priority Critical patent/CN117079081B/zh
Publication of CN117079081A publication Critical patent/CN117079081A/zh
Application granted granted Critical
Publication of CN117079081B publication Critical patent/CN117079081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及深度学习技术领域,尤其涉及一种多模态视频文本处理模型训练方法及系统,通过获取包含视频和描述视频内容的文本的视频文本对,计算视频文本对的数据质量评价值,根据评价值确定是否进行预处理,当需要预处理时,确定预处理方式,并将未处理和预处理完成的视频文本对存入数据集,当数据集中的视频文本对数量达到预设数量时,开始训练模型,训练完成后,根据模型在验证集上的准确率确定是否需要调节预处理过程,确定调节方式,本发明克服了现有技术中对视频文本对的质量评价的精确性差,从而导致视频文本对的数据集质量差的问题。

Description

一种多模态视频文本处理模型训练方法及系统
技术领域
本发明涉及深度学习技术领域,尤其涉及一种多模态视频文本处理模型训练方法及系统。
背景技术
随着深度学习和自然语言处理等技术的飞速发展,视频内容理解和生成技术已经成为了人工智能领域的研究热点,其中,视频描述生成就是其中的一个重要任务,即根据视频的内容生成描述视频的文字,有着广泛的应用场景,如视频搜索、视频推荐、无障碍服务等。
然而,多模态视频文本处理技术的发展面临着诸多挑战,其中之一便是数据集的构建,由于视频和文本数据的多样性和复杂性,构建一个高质量的多模态视频文本数据集不仅需要大量的数据,还需要对数据进行有效的筛选和预处理,现有的多模态视频文本处理技术在数据集构建方面存在以下问题:现有的多模态视频文本数据集规模较小,无法满足多模态视频文本处理模型的训练需求,导致模型泛化能力较弱,现有的多模态视频文本处理技术在数据筛选和预处理方面的方法较为简单,无法有效地识别和处理低质量数据,导致数据集质量较差,单一的评价指标无法全面地反映数据的质量,导致数据质量评价不准确。
中国专利申请公开号:CN112069361A公开了一种基于多模态融合的视频描述文本生成方法,包括获取待描述视频,所述待描述视频包括视频帧和音频,所述待描述视频设置有对应的视频描述语句;获取所述视频描述语句的至少一个文本主题信息,并给每个所述文本主题信息设置文本主题信息编码;将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取所述待描述视频的动态时域信息编码和静态信息编码;将所述待描述视频的音频输入至对应的神经网络中,以获取所述待描述视频的音频特征向量编码;将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理,以得到融合结果;将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定所述待描述视频的视频内容描述文本。
由此可见,现有技术存在以下问题:由于现有数据集规模有限,同时对数据质量评价不准确,对于数据的预处理策略不合理导致构建的数据集质量差。
发明内容
为此,本发明提供一种多模态视频文本处理模型训练方法及系统,用以克服现有技术中对视频文本对的质量评价的精确性差,从而导致视频文本对的数据集质量差的问题。
为实现上述目的,一方面,本发明提供一种多模态视频文本处理模型训练方法,包括:
步骤S1,数据获取模块获取包含了视频以及描述对应视频内容的文本的视频文本对,数据分析模块计算所述视频文本对的数据质量评价值,并根据所述数据质量评价值确定是否对所述视频文本对进行预处理;
步骤S2,当所述数据分析模块确定对所述视频文本对进行预处理时,数据预处理模块确定对所述视频文本对进行预处理的预处理方式,将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中;
步骤S3,当数据集中的视频文本对的数量达到预设数量时,建模模块构建视频描述生成网络模型,将所述数据集按照预设比例划分为训练集与验证集,并将所述训练集在视频描述生成网络模型上训练;
步骤S4,当所述视频描述生成网络模型训练完成后,模型评价模块根据所述视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节;
步骤S5,当模型评价模块确定对所述预处理过程进行调节时,根据第二相对差确定对所述预处理过程进行调节的调节方式;
其中,所述第二相对差由所述准确率与预设准确率确定。
进一步地,当所述数据获取模块获取视频文本对完成时,所述数据分析模块根据以下公式计算所述视频文本对的数据质量评价值,设定
其中,P表示所述数据质量评价值,Aa表示所述视频文本对中文本的句子连贯度,Ai表示所述视频文本对中文本的第i个句子的句子概率,n表示所述视频文本对中文本的句子数量,Bb表示所述视频文本对中视频的相邻帧之间的平均结构相似度。
进一步地,当所述数据分析模块计算所述数据质量评价值P完成且当所述数据质量评价值小于等于预设数据质量评价值时确定对所述视频文本对进行预处理。
进一步地,当所述数据分析模块确定对所述视频文本对进行预处理时,所述数据预处理模块根据第一相对差确定对所述视频文本对进行预处理的若干预处理方式,若干所述预处理方式包括对所述文本进行调整的第一预处理方式以及删除所述视频中每一帧的背景图像的第二预处理方式,其中所述第一相对差由所述数据质量评价值与预设数据质量评价值确定。
进一步地,当所述数据预处理模块确定以第一预处理方式对所述视频文本对进行预处理时,根据所述文本的句子连贯度确定对所述文本进行调整的若干调整方式,若干所述调整方式包括将所述文本进行回译的第一调整方式,将所述文本中的词语进行同义词替换的第二调整方式以及删除所述文本中的停用词的第三调整方式。
进一步地,当所述视频描述生成网络模型训练完成后,所述模型评价模块获取所述视频描述生成网络模型在验证集上的准确率,以在所述准确率小于等于预设准确率的条件下确定对预处理过程进行调节。
进一步地,当所述模型评价模块确定对所述预处理过程进行调节时,根据第二相对差确定对所述预处理过程进行调节的若干调节方式,若干所述调节方式包括以第一调节系数调节预设第一句子连贯度的第一调节方式以及以第二调节系数调节预设第一相对差的第二调节方式。
进一步地,当所述模型评价模块确定以第一调节方式调节所述预处理过程时,根据以下第一调节系数调节预设第一句子连贯度,设定
其中,T1表示所述第一调节系数,△Z表示所述第二相对差。
进一步地,当所述模型评价模块确定以第二调节方式调节所述预处理过程时,根据以下第二调节系数调节预设第一相对差,设定
其中,T2表示所述第二调节系数。
另一方面,本发明还提供一种处理系统,包括:包括:
数据获取模块,用以获取包含了视频以及描述对应视频内容的文本的视频文本对;
数据分析模块,其与所述数据获取模块相连,用以计算所述视频文本对的数据质量评价值,并根据所述数据质量评价值确定是否对所述视频文本对进行预处理;
数据预处理模块,其与所述数据分析模块相连,用以确定对所述视频文本对进行预处理的预处理方式,将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中;
建模模块,其与所述数据预处理模块相连,用以构建视频描述生成网络模型,将所述数据集按照预设比例划分为训练集与验证集,并将所述训练集在视频描述生成网络模型上训练;
模型评价模块,其与所述建模模块相连,用以根据建模模块训练完成的视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节,确定对所述预处理过程进行调节的调节方式。
与现有技术相比,本发明的有益效果在于,本发明通过计算视频文本对的数据质量评价值以更加精确地评估输入数据的质量,更高效地识别筛选低质量的视频文本对数据,从而模型训练的效果。
进一步地,本发明根据数据质量评价值与预设数据质量评价值的比对结果确定是否进行预处理,以根据数据的实际质量调整处理策略,避免对高质量数据的不必要处理,同时也对低质量数据进行适当的预处理,提高数据的利用效率。
进一步地,本发明通过计算数据质量评价值与预设数据质量评价值的第一相对差并根据其与预设第一相对差的比对结果来确定预处理方式,实现了对预处理策略的精细化控制,以针对性的对视频文本对进行处理,提高预处理的效果。
进一步地,本发明第一调整方式是将文本翻译成另一种语言,然后再翻译回原语言,以有效地改善文本的流畅性和连贯性,第二调整方式通过将文本中的词语替换为其同义词,以在保持原有语义的基础上,增加文本的含义表达的精确度,帮助模型更好地理解和学习文本从而提高模型的泛化能力,第三调整方式使模型更加关注于重要的信息,从而提高模型的训练效果,根据文本的句子连贯度与预设句子连贯度的比对结果确定对文本进行调整的调整方式,实现了对文本预处理策略的精细化控制,提高预处理的效果。
进一步地,本发明根据模型在验证集上的准确率与预设准确率的比对结果来决定是否对预处理过程进行调节以根据模型的实际表现动态调整预处理策略,提高模型的训练效果,当模型的准确率低于预设准确率时,通过调整预处理过程以有效地提高模型的训练效果和最终性能。
进一步地,本发明通过计算准确率与预设准确率的第二相对差并根据其与预设第二相对差的比对结果来确定调节方式,实现了对预处理过程的精细化调节,以针对性地对预处理过程进行调整,提高预处理的效果,根据预设第二相对差的大小选择不同的调节方式,以更好地适应模型的实际训练效果,提高预处理过程的调节效果。
进一步地,具体而言,本发明调节预设第一句子连贯度以更细致地调整文本预处理的标准,若当前模型的准确率低于预设准确率,降低预设第一句子连贯度使得预处理过程更严格,提高预处理后的文本质量,从而提高模型的准确率,调节预设第一相对差以调整对视频文本对的质量进行评价的严格程度,当前模型的准确率低于预设准确率,降低预设第一相对差使得对数据质量的要求更高,从而提高模型的准确率。
附图说明
图1为本发明实施例基于多模态视频文本处理模型训练方法的流程图;
图2为本发明实施例基于多模态视频文本处理模型训练方法的数据预处理过程的逻辑框图;
图3为本发明实施例基于多模态视频文本处理模型训练方法的文本调整过程的逻辑框图;
图4为本发明实施例基于多模态视频文本处理模型训练方法的预处理过程调节的逻辑框图;
图5为本发明实施例应用基于多模态视频文本处理模型训练方法的系统的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1至图4所示,图1为本发明实施例基于多模态视频文本处理模型训练方法的流程图;图2为本发明实施例基于多模态视频文本处理模型训练方法的数据预处理过程的逻辑框图;图3为本发明实施例基于多模态视频文本处理模型训练方法的文本调整过程的逻辑框图;图4为本发明实施例基于多模态视频文本处理模型训练方法的预处理过程调节的逻辑框图。
本发明实施例基于多模态视频文本处理模型训练方法,包括:
步骤S1,数据获取模块获取包含了视频以及描述对应视频内容的文本的视频文本对,数据分析模块计算所述视频文本对的数据质量评价值P,并根据所述数据质量评价值P确定是否对所述视频文本对进行预处理;
步骤S2,当所述数据分析模块确定对所述视频文本对进行预处理时,数据预处理模块确定对所述视频文本对进行预处理的预处理方式,将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中;
步骤S3,当数据集中的视频文本对的数量L达到预设数量L0时,建模模块构建视频描述生成网络模型,将所述数据集按照预设比例划分为训练集与验证集,并将所述训练集在视频描述生成网络模型上训练;
步骤S4,当所述视频描述生成网络模型训练完成后,模型评价模块根据所述视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节;
步骤S5,当模型评价模块确定对所述预处理过程进行调节时,根据第二相对差△Z确定对所述预处理过程进行调节的调节方式。
本发明实施例中,所述视频描述生成网络模型优选为VideoBERT模型,所述预设比例优选为8:2,预设数量L0优选为2000。
具体而言,当所述数据获取模块获取视频文本对完成时,所述数据分析模块根据以下公式计算所述视频文本对的数据质量评价值P,设定
其中,Aa表示所述视频文本对中文本的句子连贯度,Ai表示所述视频文本对中文本的第i个句子的句子概率,n表示所述视频文本对中文本的句子数量,Bb表示所述视频文本对中视频的相邻帧之间的平均结构相似度。
本发明实施例中,句子概率Ai根据N-GRAM语言模型确定。
具体而言,本发明通过计算视频文本对的数据质量评价值以更加精确地评估输入数据的质量,更高效地识别筛选低质量的视频文本对数据,从而模型训练的效果。
具体而言,当所述数据分析模块计算所述数据质量评价值P完成时,根据所述数据质量评价值P与预设数据质量评价值P0的比对结果确定是否对所述视频文本对进行预处理;
当P≤P0时,则所述数据分析模块确定对所述视频文本对进行预处理;
当P>P0,则所述数据分析模块确定不对所述视频文本对进行预处理。
本发明实施例中,所述预设数据质量评价值P0取值为1.5,预设数据质量评价值P是在所述句子连贯度Aa为0.5,所述平均结构相似度Bb为0.5的情况下取得的,本领域技术人员可以根据具体情况对预设数据质量评价值P进行调整。
具体而言,本发明根据数据质量评价值与预设数据质量评价值的比对结果确定是否进行预处理,以根据数据的实际质量调整处理策略,避免对高质量数据的不必要处理,同时也对低质量数据进行适当的预处理,提高数据的利用效率。
具体而言,当所述数据分析模块确定对所述视频文本对进行预处理时,所述数据预处理模块计算所述数据质量评价值P与预设数据质量评价值P0的第一相对差△P,并根据所述第一相对差△P与预设第一相对差△P0的比对结果确定对所述视频文本对进行预处理的预处理方式,设定△P=(P0-P)/P0;
当△P≤△P0时,则所述数据预处理模块确定以第一预处理方式对所述视频文本对进行预处理;
当△P>△P0时,则所述数据预处理模块确定以第二预处理方式对所述视频文本对进行预处理。
其中,所述第一预处理方式为对所述文本进行调整,所述第二预处理方式为删除所述视频中每一帧的背景图像。
本发明实施例中,所述预设第一相对差△P0取值为0.45,预设第一相对差△P0是在数据质量评价值P为0.83的情况下取得的,本领域技术人员可以根据具体情况对预设第一相对差△P0进行调整。
具体而言,本发明通过计算数据质量评价值与预设数据质量评价值的第一相对差并根据其与预设第一相对差的比对结果来确定预处理方式,实现了对预处理策略的精细化控制,以针对性的对视频文本对进行处理,提高预处理的效果。
具体而言,当所述数据预处理模块确定以第一预处理方式对所述视频文本对进行预处理时,根据所述文本的句子连贯度Aa与预设句子连贯度的比对结果确定对所述文本进行调整的调整方式,所述预设句子连贯度包括预设第一句子连贯度Aa1以及预设第二句子连贯度Aa2;
当Aa≤Aa1时,则所述数据预处理模块确定以第一调整方式对所述文本进行调整;
当Aa1<Aa≤Aa2时,则所述数据预处理模块确定以第二调整方式对所述文本进行调整;
当Aa>Aa2时,则所述数据预处理模块确定以第三调整方式对所述文本进行调整。
其中,所述第一调整方式为将所述文本进行回译,所述第二调整方式为将所述文本中的词语进行同义词替换,所述第三调整方式为删除所述文本中的停用词。
本发明实施例中,回译为将文本翻译成预设语言,再翻译回原语言,预设语言优选英语,预设第一句子连贯度Aa1取值为0.2,预设第二句子连贯度Aa2取值为0.4,本领域技术人员可以根据具体情况对预设第一句子连贯度Aa1以及预设第二句子连贯度Aa2进行调整。
具体而言,本发明第一调整方式是将文本翻译成另一种语言,然后再翻译回原语言,以有效地改善文本的流畅性和连贯性,第二调整方式通过将文本中的词语替换为其同义词,以在保持原有语义的基础上,增加文本的含义表达的精确度,帮助模型更好地理解和学习文本从而提高模型的泛化能力,第三调整方式使模型更加关注于重要的信息,从而提高模型的训练效果,根据文本的句子连贯度与预设句子连贯度的比对结果确定对文本进行调整的调整方式,实现了对文本预处理策略的精细化控制,提高预处理的效果。
具体而言,当所述视频描述生成网络模型训练完成后,所述模型评价模块根据所述视频描述生成网络模型在验证集上的准确率Z与预设准确率Z0的比对结果确定是否对预处理过程进行调节;
当Z≤Z0时,则所述模型评价模块确定对所述预处理过程进行调节;
当Z>Z0时,则所述模型评价模块确定不对所述预处理过程进行调节;
本发明实施例中,所述预设准确率Z0取值为95%,本领域技术人员可以根据具体情况对所述预设准确率Z0进行调整。
具体而言,本发明根据模型在验证集上的准确率与预设准确率的比对结果来决定是否对预处理过程进行调节以根据模型的实际表现动态调整预处理策略,提高模型的训练效果,当模型的准确率低于预设准确率时,通过调整预处理过程以有效地提高模型的训练效果和最终性能。
具体而言,当所述模型评价模块确定对所述预处理过程进行调节时,计算所述准确率Z与预设准确率Z0的第二相对差△Z,并根据所述第二相对差△Z与预设第二相对差△Z0的比对结果确定对所述预处理过程进行调节的调节方式,设定△Z=(Z0-Z)/Z0;
当△Z≤△Z0时,则所述模型评价模块确定以第一调节方式调节所述预处理过程;
当△Z>△Z0时,则所述模型评价模块确定以第二调节方式调节所述预处理过程;
其中,所述第一调节方式为以第一调节系数T1调节预设第一句子连贯度Aa1,所述第二调节方式为以第二调节系数T2调节预设第一相对差△P0。
本发明实施例中,预设第二相对差△Z0取值为0.16,预设第二相对差△Z0是在准确率Z为80%的情况下取得的,本领域技术人员可以根据具体情况对预设第二相对差△Z0进行调整。
具体而言,本发明通过计算准确率与预设准确率的第二相对差并根据其与预设第二相对差的比对结果来确定调节方式,实现了对预处理过程的精细化调节,以针对性地对预处理过程进行调整,提高预处理的效果,根据预设第二相对差的大小选择不同的调节方式,以更好地适应模型的实际训练效果,提高预处理过程的调节效果。
具体而言,当所述模型评价模块确定以第一调节方式调节所述预处理过程时,根据以下第一调节系数T1调节预设第一句子连贯度Aa1,设定
将调节后的预设第一句子连贯度设置为AA1=Aa1×T1。
具体而言,当所述模型评价模块确定以第二调节方式调节所述预处理过程时,根据以下第二调节系数T2调节预设第一相对差△P0,设定
T2=
将调节后的预设第一相对差设置为△P1=△P0×T2。
具体而言,本发明调节预设第一句子连贯度以更细致地调整文本预处理的标准,若当前模型的准确率低于预设准确率,降低预设第一句子连贯度使得预处理过程更严格,提高预处理后的文本质量,从而提高模型的准确率,调节预设第一相对差以调整对视频文本对的质量进行评价的严格程度,当前模型的准确率低于预设准确率,降低预设第一相对差使得对数据质量的要求更高,从而提高模型的准确率。
请继续参阅图5所示,图5为本发明实施例应用基于多模态视频文本处理模型训练方法的系统的结构示意图。
本发明实施例应用于基于多模态视频文本处理模型训练方法的系统,包括:
数据获取模块,用以获取包含了视频以及描述对应视频内容的文本的视频文本对;
数据分析模块,其与所述数据获取模块相连,用以计算所述视频文本对的数据质量评价值P,并根据所述数据质量评价值P确定是否对所述视频文本对进行预处理;
数据预处理模块,其与所述数据分析模块相连,用以确定对所述视频文本对进行预处理的预处理方式,将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中;
建模模块,其与所述数据预处理模块相连,用以构建视频描述生成网络模型,将所述数据集按照预设比例划分为训练集与验证集,并将所述训练集在视频描述生成网络模型上训练;
模型评价模块,其与所述建模模块相连,用以根据建模模块训练完成的视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节,确定对所述预处理过程进行调节的调节方式。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种多模态视频文本处理模型训练方法,其特征在于,包括:
步骤S1,数据获取模块获取包含了视频以及描述对应视频内容的文本的视频文本对,数据分析模块计算所述视频文本对的数据质量评价值,并根据所述数据质量评价值确定是否对所述视频文本对进行预处理;
步骤S2,当所述数据分析模块确定对所述视频文本对进行预处理时,数据预处理模块确定对所述视频文本对进行预处理的预处理方式,将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中;
步骤S3,当数据集中的视频文本对的数量达到预设数量时,建模模块构建视频描述生成网络模型,将所述数据集按照预设比例划分为训练集与验证集,并将所述训练集在视频描述生成网络模型上训练;
步骤S4,当所述视频描述生成网络模型训练完成后,模型评价模块根据所述视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节;
步骤S5,当模型评价模块确定对所述预处理过程进行调节时,根据第二相对差确定对所述预处理过程进行调节的调节方式;
其中,所述第二相对差由所述准确率与预设准确率确定;
当所述数据获取模块获取视频文本对完成时,所述数据分析模块根据以下公式计算所述视频文本对的数据质量评价值,设定
其中,P表示所述数据质量评价值,Aa表示所述视频文本对中文本的句子连贯度,Ai表示所述视频文本对中文本的第i个句子的句子概率,n表示所述视频文本对中文本的句子数量,Bb表示所述视频文本对中视频的相邻帧之间的平均结构相似度;
当所述数据分析模块计算所述数据质量评价值完成且当所述数据质量评价值小于等于预设数据质量评价值时确定对所述视频文本对进行预处理;
当所述数据分析模块确定对所述视频文本对进行预处理时,所述数据预处理模块根据第一相对差确定对所述视频文本对进行预处理的若干预处理方式,若干所述预处理方式包括对所述文本进行调整的第一预处理方式以及删除所述视频中每一帧的背景图像的第二预处理方式,其中所述第一相对差由所述数据质量评价值与预设数据质量评价值确定。
2.根据权利要求1所述的多模态视频文本处理模型训练方法,其特征在于,当所述数据预处理模块确定以第一预处理方式对所述视频文本对进行预处理时,根据所述文本的句子连贯度确定对所述文本进行调整的若干调整方式,若干所述调整方式包括将所述文本进行回译的第一调整方式,将所述文本中的词语进行同义词替换的第二调整方式以及删除所述文本中的停用词的第三调整方式。
3.根据权利要求2所述的多模态视频文本处理模型训练方法,其特征在于,当所述视频描述生成网络模型训练完成后,所述模型评价模块获取所述视频描述生成网络模型在验证集上的准确率,以在所述准确率小于等于预设准确率的条件下确定对预处理过程进行调节。
4.根据权利要求3所述的多模态视频文本处理模型训练方法,其特征在于,当所述模型评价模块确定对所述预处理过程进行调节时,根据第二相对差确定对所述预处理过程进行调节的若干调节方式,若干所述调节方式包括以第一调节系数调节预设第一句子连贯度的第一调节方式以及以第二调节系数调节预设第一相对差的第二调节方式。
5.根据权利要求4所述的多模态视频文本处理模型训练方法,其特征在于,当所述模型评价模块确定以第一调节方式调节所述预处理过程时,根据以下第一调节系数调节预设第一句子连贯度,设定
其中,T1表示所述第一调节系数,△Z表示所述第二相对差。
6.根据权利要求5所述的多模态视频文本处理模型训练方法,其特征在于,当所述模型评价模块确定以第二调节方式调节所述预处理过程时,根据以下第二调节系数调节预设第一相对差,设定
其中,T2表示所述第二调节系数。
7.一种应用权利要求1-6任一项所述的多模态视频文本处理模型训练方法的系统,其特征在于,包括:
数据获取模块,用以获取包含了视频以及描述对应视频内容的文本的视频文本对;
数据分析模块,其与所述数据获取模块相连,用以计算所述视频文本对的数据质量评价值,并根据所述数据质量评价值确定是否对所述视频文本对进行预处理;
数据预处理模块,其与所述数据分析模块相连,用以确定对所述视频文本对进行预处理的预处理方式,将未进行处理的视频文本对以及预处理完成的视频文本对存储至数据集中;
建模模块,其与所述数据预处理模块相连,用以构建视频描述生成网络模型,将所述数据集按照预设比例划分为训练集与验证集,并将所述训练集在视频描述生成网络模型上训练;
模型评价模块,其与所述建模模块相连,用以根据建模模块训练完成的视频描述生成网络模型在验证集上的准确率确定是否对预处理过程进行调节,确定对所述预处理过程进行调节的调节方式。
CN202311329604.6A 2023-10-16 2023-10-16 一种多模态视频文本处理模型训练方法及系统 Active CN117079081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311329604.6A CN117079081B (zh) 2023-10-16 2023-10-16 一种多模态视频文本处理模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311329604.6A CN117079081B (zh) 2023-10-16 2023-10-16 一种多模态视频文本处理模型训练方法及系统

Publications (2)

Publication Number Publication Date
CN117079081A CN117079081A (zh) 2023-11-17
CN117079081B true CN117079081B (zh) 2024-01-26

Family

ID=88717490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311329604.6A Active CN117079081B (zh) 2023-10-16 2023-10-16 一种多模态视频文本处理模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN117079081B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473284A (zh) * 2023-11-20 2024-01-30 灏冉舟网络有限公司 一种基于人工智能的三方交易平台及其方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法
CN111612766A (zh) * 2020-05-20 2020-09-01 北京金山云网络技术有限公司 图像质量评价方法、装置和电子设备
CN111858935A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种航班点评的细粒度情感分类系统
CN112464993A (zh) * 2020-11-05 2021-03-09 苏州浪潮智能科技有限公司 一种多模态模型训练方法、装置、设备及存储介质
CN112969065A (zh) * 2021-05-18 2021-06-15 浙江华创视讯科技有限公司 一种评估视频会议质量的方法、装置及计算机可读介质
CN113806587A (zh) * 2021-08-24 2021-12-17 西安理工大学 一种多模态特征融合的视频描述文本生成方法
CN114048729A (zh) * 2021-10-19 2022-02-15 中山大学孙逸仙纪念医院 医学文献评价方法、电子设备、存储介质和程序产品
WO2023036045A1 (zh) * 2021-09-09 2023-03-16 中兴通讯股份有限公司 模型训练方法、视频质量评估方法、装置、设备及介质
CN116227466A (zh) * 2023-05-06 2023-06-06 之江实验室 一种语义不同措辞相似的句子生成方法、装置及设备
CN116431857A (zh) * 2023-06-14 2023-07-14 山东海博科技信息系统股份有限公司 一种用于无人场景的视频处理方法和系统
CN116662630A (zh) * 2023-04-14 2023-08-29 中国航空综合技术研究所 基于多模态预训练模型的民航领域图文检索方法
CN116756306A (zh) * 2022-03-03 2023-09-15 腾讯科技(深圳)有限公司 对象分类方法、装置、计算机设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021211978A1 (en) * 2020-04-18 2021-10-21 Alibaba Group Holding Limited Method for optimizing structure similarity index in video coding

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法
CN111612766A (zh) * 2020-05-20 2020-09-01 北京金山云网络技术有限公司 图像质量评价方法、装置和电子设备
CN111858935A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种航班点评的细粒度情感分类系统
CN112464993A (zh) * 2020-11-05 2021-03-09 苏州浪潮智能科技有限公司 一种多模态模型训练方法、装置、设备及存储介质
CN112969065A (zh) * 2021-05-18 2021-06-15 浙江华创视讯科技有限公司 一种评估视频会议质量的方法、装置及计算机可读介质
CN113806587A (zh) * 2021-08-24 2021-12-17 西安理工大学 一种多模态特征融合的视频描述文本生成方法
WO2023036045A1 (zh) * 2021-09-09 2023-03-16 中兴通讯股份有限公司 模型训练方法、视频质量评估方法、装置、设备及介质
CN114048729A (zh) * 2021-10-19 2022-02-15 中山大学孙逸仙纪念医院 医学文献评价方法、电子设备、存储介质和程序产品
CN116756306A (zh) * 2022-03-03 2023-09-15 腾讯科技(深圳)有限公司 对象分类方法、装置、计算机设备及计算机可读存储介质
CN116662630A (zh) * 2023-04-14 2023-08-29 中国航空综合技术研究所 基于多模态预训练模型的民航领域图文检索方法
CN116227466A (zh) * 2023-05-06 2023-06-06 之江实验室 一种语义不同措辞相似的句子生成方法、装置及设备
CN116431857A (zh) * 2023-06-14 2023-07-14 山东海博科技信息系统股份有限公司 一种用于无人场景的视频处理方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Image decomposition-based structural similarity index for image quality assessment;Junfeng Yang 等;《EURASIP Journal on Image and Video Processing》;第31卷;1-13 *
基于深度学习的视频字幕生成技术的研究与应用;魏燚伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2021年卷(第9期);I138-333 *
跨层多模型特征融合与因果卷积解码的图像描述;罗会兰 等;《中国图象图形学报》;第25卷(第8期);1604-1617 *

Also Published As

Publication number Publication date
CN117079081A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN110929587B (zh) 一种基于层次注意力机制的双向重构网络视频描述方法
CN110069790B (zh) 一种通过译文回译对照原文的机器翻译系统及方法
CN117079081B (zh) 一种多模态视频文本处理模型训练方法及系统
CN110147806B (zh) 图像描述模型的训练方法、装置及存储介质
US11574142B2 (en) Semantic image manipulation using visual-semantic joint embeddings
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
US20220237222A1 (en) Information determining method and apparatus, computer device, and storage medium
CN113221545B (zh) 一种文本处理方法、装置、设备及介质、程序产品
EP3885966B1 (en) Method and device for generating natural language description information
US11928957B2 (en) Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN111061861A (zh) 一种基于XLNet的文本摘要自动生成方法
CN114596566B (zh) 文本识别方法及相关装置
CN112861524A (zh) 一种基于深度学习的多层次中文细粒度情感分析方法
CN115292470B (zh) 一种用于小额贷款智能客服的语义匹配方法及系统
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114444476B (zh) 信息处理方法、装置和计算机可读存储介质
Tymoshenko et al. Real-Time Ukrainian Text Recognition and Voicing.
Zhu et al. How to Evaluate Semantic Communications for Images with ViTScore Metric?
CN112926344A (zh) 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN113887244A (zh) 文本处理方法及装置
CN113220892A (zh) 基于bert的自适应文本分类方法及装置
CN116266266B (zh) 多音字消歧方法、装置、设备及存储介质
CN113011555B (zh) 一种数据处理方法、装置、设备及存储介质
CN117746186A (zh) 低秩自适应模型的训练方法、文本生成图像方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant