CN115205758A

CN115205758A - 基于视频与文本的智能转换方法、装置、电子设备及介质

Info

Publication number: CN115205758A
Application number: CN202210908621.4A
Authority: CN
Inventors: 张一帆; 山金孝; 李琦; 叶颖琦; 刘屹; 孙猛; 龙喜洋
Original assignee: China Merchants Finance Technology Co Ltd
Current assignee: China Merchants Finance Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-18

Abstract

本发明涉及人工智能领域，揭露一种基于视频与文本的智能转换方法，包括：获取训练视频及其对应的视频文本，提取训练视频中的训练图片；利用预构建文本视频转换模型中的编码器对训练图片和视频文本进行特征向量编码、向量掩码以及向量拼接，得到图片‑文本拼接向量；利用预构建文本视频转换模型中的语义分析网络识别图片‑文本拼接向量的预测图片和预测文本后并解码，得到预测视频和预测视频文本；根据预测视频和预测视频文本，及训练视频和视频文本，计算预构建文本视频转换模型的模型损失，以生成训练好的文本视频转换模型，实现对待转换场景数据进行场景转换，得到场景转换结果。本发明可以提高视频与文本之间的场景转换效率。

Description

基于视频与文本的智能转换方法、装置、电子设备及介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于视频与文本的智能转换方法、装置、电子设备及介质。

背景技术

随着信息科技的发展，关于信息的记录方式越来越多，如视频记录、文本记录等，在实际业务场景中往往需要将不同记录方式的信息进行直接转换，以方便用户的直接阅读，目前关于视频-文本之间的场景转换往往是单向转换的，即通常是根据视频进行文本转换或者根据文本进行视频转换，因此，亟待一种方案以实现视频-文本的互相转换，保障视频-文本之间的场景转换效率。

发明内容

本发明提供一种基于视频与文本的智能转换方法、装置、电子设备及介质，其主要目的在于实现视频与文本之间的互相转换，提高视频与文本之间的场景转换效率。

为实现上述目的，本发明提供的一种基于视频与文本的智能转换方法，包括：

获取训练视频及其对应的视频文本，并提取所述训练视频中的训练图片；

利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码，得到图片特征向量，及利用所述预构建文本视频转换模型中的文本编码器对所述视频文本进行特征向量编码，得到文本特征向量；

利用所述预构建文本视频转换模型中的掩码层分别对所述图片特征向量和所述文本特征向量进行向量掩码，并将向量掩码后的所述图片特征向量和所述文本特征向量进行向量拼接，得到图片-文本拼接向量；

利用所述预构建文本视频转换模型中的语义分析网络识别所述图片-文本拼接向量的预测图片和预测文本；

利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码，得到预测视频，及利用所述预构建文本视频转换模型中的文本解码器对所述预测文本进行解码，得到预测视频文本；

根据所述预测视频和所述预测视频文本，及所述训练视频及所述视频文本，计算所述预构建文本视频转换模型中的模型损失；

在所述模型损失大于预设损失时，更新所述预构建文本视频转换模型的模型参数，并返回利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码的步骤；

在所述模型损失不大于所述预设损失时，得到训练好的文本视频转换模型，并利用所述训练好的文本视频转换模型对待转换场景数据进行场景转换，得到场景转换结果。

可选地，所述利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码，得到图片特征向量，包括：

利用所述图片编码器中的位置编码层对所述训练图片进行位置向量编码，得到位置编码向量；

利用所述图片编码器中的自注意力模块计算所述位置编码向量中向量之间的权重值，根据所述权重值，更新所述位置编码向量的权重信息，得到权重编码向量；

利用所述图片编码器中的前馈神经网络提取所述权重编码向量中的特征向量，得到图片特征向量。

可选地，所述将向量掩码后的所述图片特征向量和所述文本特征向量进行向量拼接，得到图片-文本拼接向量，包括：

获取所述向量掩码后的所述图片特征向量和所述文本特征向量的序列对应关系；

根据所述序列对应关系，将所述向量掩码后的所述图片特征向量和所述文本特征向量进行拼接，得到所述图片-文本拼接向量。

可选地，所述利用所述预构建文本视频转换模型中的语义分析网络识别所述图片-文本拼接向量的预测图片和预测文本，包括：

利用所述语义分析网络中的分类层对所述图片-文本拼接向量进行预测类别分类，得到预测类别；

根据所述预测类别，利用所述语义分析网络中的嵌入层对所述图片-文本拼接向量进行维度矩阵嵌入，得到所述图片-文本拼接向量的向量维度矩阵；

根据所述向量维度矩阵，利用所述语义分析网络中的全连接层检测所述图片-文本拼接向量的预测图片和预测文本。

可选地，所述利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码，得到预测视频，包括：

利用所述片解码器中的注意力模块计算所述预测图片的信息序列，得到图片信息序列；

利用所述解码器中的全连接神经网络输出所述图片信息序列后进行图片合并，得到预测视频。

可选地，所述根据所述预测视频和所述预测视频文本，及所述训练视频及所述视频文本，计算所述预构建文本视频转换模型中的模型损失，包括：

根据所述预测视频和所述训练视频，计算所述预构建文本视频转换模型中的视频损失；

根据所述预测视频文本和所述视频文本，计算所述预构建文本视频转换模型中的文本损失；

根据所述视频损失和所述文本损失，计算所述预构建文本视频转换模型中的模型损失。

可选地，所述根据所述预测视频和所述训练视频，计算所述预构建文本视频转换模型中的视频损失，包括：

利用下述公式计算所述预构建文本视频转换模型中的视频损失：

L1＝m_glogm_p+(1-m_g)log(1-m_p)

其中，L1表示视频损失，m_g表示预测视频，m_p表示训练视频。

为了解决上述问题，本发明还提供一种基于视频与文本的智能转换装置，所述装置包括：

训练数据获取模块，用于获取训练视频及其对应的视频文本，并提取所述训练视频中的训练图片；

特征向量编码模块，用于利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码，得到图片特征向量，及利用所述预构建文本视频转换模型中的文本编码器对所述视频文本进行特征向量编码，得到文本特征向量；

特征向量拼接模块，用于利用所述预构建文本视频转换模型中的掩码层分别对所述图片特征向量和所述文本特征向量进行向量掩码，并将向量掩码后的所述图片特征向量和所述文本特征向量进行向量拼接，得到图片-文本拼接向量；

向量语义分析模块，用于利用所述预构建文本视频转换模型中的语义分析网络识别所述图片-文本拼接向量的预测图片和预测文本；

数据解码模块，用于利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码，得到预测视频，及利用所述预构建文本视频转换模型中的文本解码器对所述预测文本进行解码，得到预测视频文本；

模型损失计算模块，用于根据所述预测视频和所述预测视频文本，及所述训练视频及所述视频文本，计算所述预构建文本视频转换模型中的模型损失；

模型参数调整模块，用于在所述模型损失大于预设损失时，更新所述预构建文本视频转换模型的模型参数，并返回利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码的步骤；

数据场景转换模块，用于在所述模型损失不大于所述预设损失时，得到训练好的文本视频转换模型，并利用所述训练好的文本视频转换模型对待转换场景数据进行场景转换，得到场景转换结果。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以实现上述所述的基于视频与文本的智能转换方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于视频与文本的智能转换方法。

可以看出，本发明实施例通过获取训练视频及其对应的视频文本，提取训练视频中的训练图片，可以将所述训练视频拆分为多个视频帧的图片，保障后续模型的训练前提，利用预构建文本视频转换模型中的编码器对训练图片和视频文本进行特征向量编码、向量掩码以及向量拼接，得到图片-文本拼接向量，可以分别提取训练图片和视频文本的特征信息，用于将训练图片和视频文本压缩为潜在空间表征，并可以掩盖图片特征向量和文本特征向量的部分信息后，构建图片特征向量和文本特征向量的映射关系，保障后续在进行视频-文本之间互相转换时的对应关系识别前提；其次，本发明实施例通过利用预构建文本视频转换模型中的语义分析网络识别图片-文本拼接向量的预测图片和预测文本后并解码，得到预测视频和预测视频文本，可以检测图片-文本拼接向量对应的掩码信息，保障后续预测视频和预测视频文本的生成前提，并可以检验所述预构建文本视频转换模型的模型能力，保障后续在通过所述预构建文本视频转换模型进行文本-视频转换过程中的转换能力；进一步地，本发明实施例通过根据预测视频和预测视频文本，及训练视频和视频文本，计算预构建文本视频转换模型的模型损失，以生成训练好的文本视频转换模型，保障模型的转换能力，实现对待转换场景数据进行场景互换，提高待转换场景数据的场景转换效率。因此，本发明实施例提出的一种基于视频与文本的智能转换方法、装置、电子设备及介质可以实现视频与文本之间的互相转换，提高视频与文本之间的场景转换效率。

附图说明

图1为本发明一实施例提供的基于视频与文本的智能转换方法的流程示意图；

图2为本发明一实施例提供的基于视频与文本的智能转换装置的模块示意图；

图3为本发明一实施例提供的实现基于视频与文本的智能转换方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种基于视频与文本的智能转换方法。所述基于视频与文本的智能转换方法的执行主体包括但不限于服务端、终端等能够被配置为执行本发明实施例提供的该方法的电子设备中的至少一种。换言之，所述基于视频与文本的智能转换方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示，为本发明一实施例提供的基于视频与文本的智能转换方法的流程示意图。在本发明实施例中，所述基于视频与文本的智能转换方法包括：

S1、获取训练视频及其对应的视频文本，并提取所述训练视频中的训练图片。

本发明实施例中，所述训练视频是指用于后续进行文本-视频转换的模型训练数据，所述视频文本是指与所述训练视频对应的视频文本信息，如视频字幕，可选的所述训练视频和所述视频文本可以通过采用爬虫技术从网络上爬取得到，如node.js技术。

进一步地，本发明实施例通过提取所述训练视频中你的训练图片，以将所述训练视频拆分为多个视频帧的图片，保障后续模型的训练前提，可选的，所述训练视频的训练图片提取可以通过分帧的形式进行提取。

S2、利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码，得到图片特征向量，及利用所述预构建文本视频转换模型中的文本编码器对所述视频文本进行特征向量编码，得到文本特征向量。

本发明实施例中，所述预构建文本视频转换模型包括编码器、掩码层、语义分析网络以及解码器，其中所述编码器包括图片编码器和所述文本编码器，其用于提取所述训练图片和训练文本的特征信息，所述掩码层用于掩盖通过编码器提取的特征向量的部分信息，保障后续的语义分析，所述语义分析网络用于检测通过掩码层进行掩码的特征信息，所述解码器包括图片解码器和文本解码器，其用于重构通过语义分析网络识别的特征信息的内容，实现训练视频和训练文本的信息预测。进一步地，所述图片编码器和所述图片解码器可以通过transform机制进行构建，所述文本编码器、所述文本解码器以及所述语义分析网络可以通过bert网络进行构建。

进一步地，本发明实施例通过利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码，及利用所述预构建文本视频转换模型中的文本编码器对所述视频文本进行特征向量编码，以分别提取所述训练图片和所述视频文本的特征信息，用于将所述训练图片和所述视频文本压缩为潜在空间表征，保障后续数据的处理准确性。

作为本发明的一个实施例，所述利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码，得到图片特征向量，包括：利用所述图片编码器中的位置编码层对所述训练图片进行位置向量编码，得到位置编码向量，利用所述图片编码器中的自注意力模块计算所述位置编码向量中向量之间的权重值，根据所述权重值，更新所述位置编码向量的权重信息，得到权重编码向量；利用所述图片编码器中的前馈神经网络提取所述权重编码向量中的特征向量，得到图片特征向量。

其中，所述位置编码层用于将所述训练图片切分为多个图片块，确定所述训练图片的位置序列信息，以弥补后续训练图片在特征编码过程中位置信息的缺失，所述自注意力模块用于识别出所述位置编码向量中每个位置编码向量与其他向量之间的相关关系，以更新对应位置编码向量的权重信息，从而使得所述位置编码向量包含有上下文特征信息，所述前馈神经网络用于激活所述位置编码向量，以识别所述位置编码向量中的特征向量。

进一步地，本发明一可选实施例中，所述训练图片的位置向量编码可以通过所述位置编码层的编码函数实现，如PE函数，所述位置编码向量中向量之间的权重值可以通过所述自注意模块中的维度向量进行计算，所述维度向量包括：Query、key及value，其中，所述Query可以理解为待计算权重值的位置编码向量，所述key可以理解为所述位置编码向量，所述value可以理解为位置编码向量的上下文向量，所述权重编码向量中的特征向量可以通过所述前馈神经网络中的激活函数进行检测，如softmax函数。

需要说明的是，在本发明实施例中，所述视频文本的特征向量编码与所述训练图片的特征向量编码原理相同，在此不做进一步地赘述。

S3、利用所述预构建文本视频转换模型中的掩码层分别对所述图片特征向量和所述文本特征向量进行向量掩码，并将向量掩码后的所述图片特征向量和所述文本特征向量进行向量拼接，得到图片-文本拼接向量。

本发明实施例通过利用所述预构建文本视频转换模型中的掩码层分别对所述图片特征向量和所述文本特征向量进行向量掩码，以掩盖所述图片特征向量所述文本特征向量的部分信息，保障后续的信息预测前提。可选的，所述图片特征向量和所述文本特征向量的向量掩码通过随机掩码的形式实现，即随机选取所述图片特征向量与所述文本特征向量中的向量位置序列进行掩码。

进一步地，本发明实施例通过将向量掩码后的所述图片特征向量和所述文本特征向量进行向量拼接，以构建所述图片特征向量和所述文本特征向量的映射关系，保障后续在进行视频-文本之间互相转换时的对应关系识别前提。

作为本发明的一个实施例，所述将向量掩码后的所述图片特征向量和所述文本特征向量进行向量拼接，得到图片-文本拼接向量，包括：获取所述向量掩码后的所述图片特征向量和所述文本特征向量的序列对应关系，根据所述序列对应关系，将所述向量掩码后的所述图片特征向量和所述文本特征向量进行拼接，得到所述图片-文本拼接向量。

其中，所述序列对应关系是指所述图片特征向量对应训练图片与所述文本特征向量对应文本信息的对应关系，其可以通过查询所述图片特征向量与所述文本特征向量的图片-文本映射表得到。

S4、利用所述预构建文本视频转换模型中的语义分析网络识别所述图片-文本拼接向量的预测图片和预测文本。

本发明实施例通过利用所述预构建文本视频转换模型中的语义分析网络识别所述图片-文本拼接向量的预测图片和预测文本，以检测所述图片-文本拼接向量对应的掩码信息，保障后续预测视频和预测视频文本的生成前提。

作为本发明的一个实施例，所述利用所述预构建文本视频转换模型中的语义分析网络识别所述图片-文本拼接向量的预测图片和预测文本，包括：利用所述语义分析网络中的分类层对所述图片-文本拼接向量进行预测类别分类，得到预测类别，根据所述预测类别，利用所述语义分析网络中的嵌入层对所述图片-文本拼接向量进行维度矩阵嵌入，得到所述图片-文本拼接向量的向量维度矩阵，根据所述向量维度矩阵，利用所述语义分析网络中的全连接层检测所述图片-文本拼接向量的预测图片和预测文本。

其中，所述分类层用于明确所述图片-文本拼接向量将要预测的数据类别，其包括文本类别和图片类别，所述嵌入层用于将所述图片-文本拼接向量转换为词汇维度，实现后续预测数据的检测前提，所述图片-文本拼接向量的预测图片和预测文本通过所述全连接层中的激活函数进行检测。

S5、利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码，得到预测视频，及利用所述预构建文本视频转换模型中的文本解码器对所述预测文本进行解码，得到预测视频文本。

本发明实施例通过利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码后进行合并，及利用所述预构建文本视频转换模型中的文本解码器对所述预测文本进行解码，以获取所述训练视频和所述视频文本对应的预测结果，以检验所述预构建文本视频转换模型的模型能力，保障后续在通过所述预构建文本视频转换模型进行文本-视频转换过程中的转换能力。

作为本发明的一个实施例，所述利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码，得到预测视频，包括：利用所述片解码器中的注意力模块计算所述预测图片的信息序列，得到图片信息序列；利用所述解码器中的全连接神经网络输出所述图片信息序列后进行图片合并，得到预测视频。

其中，所述信息序列用于明确所述预测图片的长度序列和图片帧序列，所述，所述图片信息序列的输出通过所述全连接神经网络的激活函数实现。

进一步地，在本发明中，所述预测文本的解码与所述预测图片的解码原理相同，在此不做进一步地赘述。

S6、根据所述预测视频和所述预测视频文本，及所述训练视频及所述视频文本，计算所述预构建文本视频转换模型中的模型损失。

作为本发明的一个实施例，所述根据所述预测视频和所述预测视频文本，及所述训练视频及所述视频文本，计算所述预构建文本视频转换模型中的模型损失，包括：根据所述预测视频和所述训练视频，计算所述预构建文本视频转换模型中的视频损失，根据所述预测视频文本和所述视频文本，计算所述预构建文本视频转换模型中的文本损失，根据所述视频损失和所述文本损失，计算所述预构建文本视频转换模型中的模型损失。

进一步地，本发明一可选实施例中，利用下述公式计算所述预构建文本视频转换模型中的视频损失：

L1＝m_g logm_p+(1-m_g)log(1-m_p)

进一步地，本发明一可选实施例中，利用下述公式计算所述预构建文本视频转换模型中的文本损失：

其中，L2表示文本损失，k表示预测视频文本的数量，y_i表示第i个预测视频文本，y_i′表示第i个视频文本。

进一步地，本发明一可选实施例中，利用下述公式计算所述预构建文本视频转换模型中的模型损失：

L＝L1+L2

其中，L表示模型损失，L1表示视频损失，L2表示文本损失。

S7、在所述模型损失大于预设损失时，更新所述预构建文本视频转换模型的模型参数，并返回利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码的步骤。

应该了解，在所述模型损失大于预设损失时，表示所述预构建文本视频转换模型的转换能力并不够好，因此，本发明实施例通过更新所述预构建文本视频转换模型的模型参数，并返回利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码的步骤，以保障所述预构建文本视频转换模型的转换能力。可选的，所述预设损失可以设置为0.1，也可以根据实际业务场景设置，所述预构建文本视频转换模型的模型参数可以通过梯度下降算法进行更新，如随机梯度下降算法。

S8、在所述模型损失不大于所述预设损失时，得到训练好的文本视频转换模型，并利用所述训练好的文本视频转换模型对待转换场景数据进行场景转换，得到场景转换结果。

应该了解，在所述模型损失不大于所述预设损失时，表示所述预构建文本视频转换模型具有良好的转换能力，因此，本发明实施例直接生成训练好的文本视频转换模型，以对待转换场景数据进行场景转换，得到场景转换结果。其中，所述待转换场景数据基于不同的转换场景下生成，其包括视频数据和文本数据，如在文本生成视频场景中，所述待转换场景数据为文本数据，在视频生成文本场景中，所述待转换场景数据为视频数据。

可以看出，本发明实施例通过获取训练视频及其对应的视频文本，提取训练视频中的训练图片，可以将所述训练视频拆分为多个视频帧的图片，保障后续模型的训练前提，利用预构建文本视频转换模型中的编码器对训练图片和视频文本进行特征向量编码、向量掩码以及向量拼接，得到图片-文本拼接向量，可以分别提取训练图片和视频文本的特征信息，用于将训练图片和视频文本压缩为潜在空间表征，并可以掩盖图片特征向量和文本特征向量的部分信息后，构建图片特征向量和文本特征向量的映射关系，保障后续在进行视频-文本之间互相转换时的对应关系识别前提；其次，本发明实施例通过利用预构建文本视频转换模型中的语义分析网络识别图片-文本拼接向量的预测图片和预测文本后并解码，得到预测视频和预测视频文本，可以检测图片-文本拼接向量对应的掩码信息，保障后续预测视频和预测视频文本的生成前提，并可以检验所述预构建文本视频转换模型的模型能力，保障后续在通过所述预构建文本视频转换模型进行文本-视频转换过程中的转换能力；进一步地，本发明实施例通过根据预测视频和预测视频文本，及训练视频和视频文本，计算预构建文本视频转换模型的模型损失，以生成训练好的文本视频转换模型，保障模型的转换能力，实现对待转换场景数据进行场景互换，提高待转换场景数据的场景转换效率。因此，本发明实施例提出的一种基于视频与文本的智能转换方法可以实现视频与文本之间的互相转换，提高视频与文本之间的场景转换效率。

如图2所示，是本发明基于视频与文本的智能转换装置的功能模块图。

本发明所述基于视频与文本的智能转换装置100可以安装于电子设备中。根据实现的功能，所述基于视频与文本的智能转换装置可以包括训练数据获取模块101、特征向量编码模块102、特征向量拼接模块103、向量语义分析模块104、数据解码模块105、模型损失计算模块106、模型参数调整模块107以及数据场景转换模块108。本发明所述模块也可以称之为单元，是指一种能够被电子设备的处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述训练数据获取模块101，用于获取训练视频及其对应的视频文本，并提取所述训练视频中的训练图片；

所述特征向量编码模块102，用于利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码，得到图片特征向量，及利用所述预构建文本视频转换模型中的文本编码器对所述视频文本进行特征向量编码，得到文本特征向量；

所述特征向量拼接模块103，用于利用所述预构建文本视频转换模型中的掩码层分别对所述图片特征向量和所述文本特征向量进行向量掩码，并将向量掩码后的所述图片特征向量和所述文本特征向量进行向量拼接，得到图片-文本拼接向量；

所述向量语义分析模块104，用于利用所述预构建文本视频转换模型中的语义分析网络识别所述图片-文本拼接向量的预测图片和预测文本；

所述数据解码模块105，用于利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码，得到预测视频，及利用所述预构建文本视频转换模型中的文本解码器对所述预测文本进行解码，得到预测视频文本；

所述模型损失计算模块106，用于根据所述预测视频和所述预测视频文本，及所述训练视频及所述视频文本，计算所述预构建文本视频转换模型中的模型损失；

所述模型参数调整模块107，用于在所述模型损失大于预设损失时，更新所述预构建文本视频转换模型的模型参数，并返回利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码的步骤；

所述数据场景转换模块108，用于在所述模型损失不大于所述预设损失时，得到训练好的文本视频转换模型，并利用所述训练好的文本视频转换模型对待转换场景数据进行场景转换，得到场景转换结果。

详细地，本发明实施例中所述基于视频与文本的智能转换装置100中的所述各模块在使用时采用与上述的图1中所述的基于视频与文本的智能转换方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图3所示，是本发明实现基于视频与文本的智能转换方法的电子设备1的结构示意图。

所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于视频与文本的智能转换程序。

其中，所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备1的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于视频与文本的智能转换程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如基于视频与文本的智能转换程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

所述通信接口13用于上述电子设备1与其他设备之间的通信，包括网络接口和员工接口。可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备1之间建立通信连接。所述员工接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，员工接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的员工界面。

图3仅示出了具有部件的电子设备1，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利发明范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于视频与文本的智能转换程序是多个计算机程序的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备1的处理器所执行时，可以实现：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于视频与文本的智能转换方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于视频与文本的智能转换方法，其特征在于，所述利用预构建文本视频转换模型中的图片编码器对所述训练图片进行特征向量编码，得到图片特征向量，包括：

3.如权利要求1所述的基于视频与文本的智能转换方法，其特征在于，所述将向量掩码后的所述图片特征向量和所述文本特征向量进行向量拼接，得到图片-文本拼接向量，包括：

4.如权利要求1所述的基于视频与文本的智能转换方法，其特征在于，所述利用所述预构建文本视频转换模型中的语义分析网络识别所述图片-文本拼接向量的预测图片和预测文本，包括：

5.如权利要求1所述的基于视频与文本的智能转换方法，其特征在于，所述利用所述预构建文本视频转换模型中的图片解码器对所述预测图片进行解码，得到预测视频，包括：

6.如权利要求1至5中任意一项所述的基于视频与文本的智能转换方法，其特征在于，所述根据所述预测视频和所述预测视频文本，及所述训练视频及所述视频文本，计算所述预构建文本视频转换模型中的模型损失，包括：

7.如权利要求6所述的基于视频与文本的智能转换方法，其特征在于，所述根据所述预测视频和所述训练视频，计算所述预构建文本视频转换模型中的视频损失，包括：

L1＝m_glogm_p+(1-m_g)log(1-m_p)

8.一种基于视频与文本的智能转换装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于视频与文本的智能转换方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于视频与文本的智能转换方法。