CN115309886A

CN115309886A - 基于多模态信息输入的人工智能文本创作方法

Info

Publication number: CN115309886A
Application number: CN202210932040.4A
Authority: CN
Inventors: 曹乾; 陈旭; 宋睿华
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-11-08

Abstract

本发明公开了基于多模态信息输入的人工智能文本创作方法，该方法包括多模态数据构造以及文本创作模型两部分。本发明能够同时处理多模态图文序列信息作为输入，在给定主题词的条件下进行文本生成，将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成，更加符合人类创作的过程。此外，在方法上本发明的模型结构和训练方式更加合理，实验结果可靠，同时也印证了本发明方法的有效性，该方法也更易于后续扩展、迁移和再创造。

Description

基于多模态信息输入的人工智能文本创作方法

技术领域

本发明涉及人工智能、深度学习、自然语言生成技术领域，尤其是涉及一种基于多模态信息输入的人工智能文本创作方法。

背景技术

歌词生成和诗歌写作是两个典型的AI创作任务，其中生成的文本需要遵循一些格式和韵律。早期的歌词生成工作大多基于约束或基于检索的方法，试图通过将最佳相关的后一句与前一句的匹配来生成。后来的研究使用长短期记忆(LSTM)或自动编码器等神经网络来处理此任务，或是在解码器中添加分层注意机制。最近，预训练语言模型可以提供更好的基于条件的结果并考虑更多的韵律和节奏。在诗歌生成的任务中，早期的模型主要关注关键词扩展和对诗人的意图进行建模，直到随着像GPT这样的大型预训练语言模型的出现成为里程碑。除了文本信息之外，其他工作还尝试用图像启发诗歌生成。这些研究采用视觉输入来模拟人类的场景感知过程。基本上，这些方法从单个图像输入生成诗歌。现有的Images2Poem通过从图像流中选择具有代表性的图像并采用自适应自注意力机制进行解码，从图像流中生成中国古典诗歌，这与本申请的工作类似。

另一个相关的领域是通过采用多模态数据生成文本摘要的多模态摘要技术。然而，生成的摘要高度依赖源文本，这与本申请的主题限制的多模态创作任务不同。其他相关的任务如视觉叙事，它以多个连续图像作为输入，旨在生成连贯的故事。为了解决这个问题，许多工作利用CNN对图像流进行编码，并利用RNN类的模块来生成故事句子，或者使用分层结构以及一些专门设计的注意力机制。还有其他一些作品赋予模型适应主题的能力或结合视频进行视觉叙事。

尽管以上这些AI创作相关的工作要么基于文本要么基于图像进行文本生成，但它们都没有同时将图像和文本的多模态信息并结合主题词作为输入或条件进行创作。尽管基于图像写诗的工作有许多有希望的结果，但它们中的大多数从图像中识别关键字，例如图片中的对象或情绪，并采用关键字作为输入来影响诗歌生成过程。同时，仅仅输入多张图片的Images2Poem方法与本申请的工作类似，但构建的图像(每首诗约20幅图像)主要是一首诗中提到的对象，与本申请试图从一系列图像和其各自对应的文本中捕获顺序语义的模型有很大不同。为了模拟人类在创作过程中的具身体验，同时并非所有体验(例如感觉)都可以很好地可视化和表示，本申请构造了一个特定的数据集来适应本申请的设定和任务。本申请的目标是在给定的主题下，通过模拟人类的具身体验，给定具有顺序关系的多组图文对，能够生成与输入图像和对应文本颇具关联的文本，以此来填补在人工智能创作领域适应各种多模态输入进行文本生成的空白。

对于多模态摘要生成和视觉叙事任务而言，尽管有工作基于多模态信息进行生成，但很少有工作像本申请的设置一样同时使用主题和成对的图像文本输入更自由的文本创作的研究，这是对人类过往经历和体验的更真实的模拟。

公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于多模态信息输入的人工智能文本创作方法，以解决现有技术中存在的问题。

为了实现上述目的，本发明采用以下技术方案：

本发明提供一种基于多模态信息输入的人工智能文本创作方法，所述文本创造方法包括多模态数据构造以及文本创作模型两部分；其中，

所述多模态数据构造的具体方法如下：首先从网络上爬取大量的歌词，并对其进行符合特定模式地拆分成不同的段落，这些段落由不同的分句构成；将歌名作为任务中需要用到的主题信息，在一个大规模的电影梗概的图文数据集GraphMovie上，采用CADM模型将每个分句作为查询的关键信息进行检索并得到多个图文对候选；对所述图文对候选中的一部分进行人工标注并用包含标注信息的这部分训练一个精排模型来提高图文对候选的质量；同时，不同相关性的排名信息将有助于构造不同质量的正负样本，用于后续模型的训练；由此，对于每个歌词段落，都能获取不同相关性质量的图文对候选序列来构成数据样本，进而形成特定任务下的数据集；

所述文本创作模型由四个部分组成；前三部分构成编码器，具体来说，原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入；然后，每一步的嵌入被分成不同的部分来影响最终的输出；最后，不同的模态与注意力网络融合在一起；最后一部分是解码器，旨在预测最终的输出句子。

作为一种进一步的技术方案，所述文本创作模型的第一部分具体为：原始图像和文本的格式和语义在不同的空间中呈现；为了适应它们，设计多通道序列处理器，首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间，然后输入到这些编码器神经网络中；这些编码器可以是循环神经网络或Transformer，最终可以通过权衡有效性和效率来选择具体采用的模块；输出则是一个隐式的嵌入序列；对于输入的图片和文本序列都经过这样的处理。

作为一种进一步的技术方案，所述文本创作模型的第二部分具体为：文本创作模型是一个序列到序列的架构；然而，与机器翻译类传统任务不同，每个输入词严格对应一个输出词，在本申请的问题中，图像或文本可能会影响输出序列的跨度；为了对这些限制特点进行建模，设计了一个定制的模块来捕捉输入对输出的影响；具体来说，让上一节中推导出的隐藏嵌入具体地影响输出序列；对于这些隐藏嵌入，在各个通道内设计了模态间的注意力机制，用来捕获不同时间步对于其他时间步的影响，以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入；为了将直觉编码到定制的模块中，进一步引入了一个正则化器来约束注意力权重的学习；形式上，最小化注意力权重和一个预定义的分布之间的距离，从而定义一个这两者之间的KL损失函数来进行优化和学习；通过最小化KL损失，使用先验规则化注意力权重，这编码了更大的输入-输出距离应该导致更低影响的直觉，从而让模型能够对输入的顺序有好的敏感性；用关于注意力权重分布的先验知识来缩小探索空间，以带来更好的收敛率和优化解决方案。

作为一种进一步的技术方案，所述文本创作模型的第三部分具体为：基于上面输出的部分隐藏嵌入，融合不同的模态来推导出编码器的输出；具体来说，编码器的输出由L个嵌入组成，每个嵌入对主题、视觉和文本信息进行综合性的编码；通过迭代来自不同步骤的隐藏嵌入对第k步骤的影响来计算总的输出嵌入；对于每一对步骤，不同的模态以一种特定的注意力方式加权组合在一起；直观地说，对于同一个输出句子，不同的模态可能扮演不同的角色；因此，在组合它们时采用模态间的注意力机制；如果比较上述两个注意力机制，可能会发现前者部署在同一模态的不同步骤中，而后者的目标是在同一步骤中捕捉不同模态的贡献；这样的设计实际上形成了一个2D注意力机制，从而以更细粒度的方式对不同位置和模态的影响进行建模。

作为一种进一步的技术方案，所述文本创作模型的第四部分具体为：对于基于上述模块输出的嵌入生成输出而言，合并不同的嵌入作为提示，直接归纳输出所有的生成语句；然而，这种策略对于保留输入的顺序语义可能不是最优的，因为有序信息可能会被合并操作削弱；为了解决上述问题，让每个经验嵌入分别影响输出句子；形式上，在每一步将输出的该步的嵌入和词嵌入相加，并将主题词作为提示，然后整体输入到解码器里面进行生成；这样的方式能够最大程度地保留不同时间步对生成句子不同部分的影响。

作为一种进一步的技术方案，为了最大化从正样本输入生成目标输出的概率，同时最小化从负样本输入生成目标输出的概率，通过课程学习的方式对文本创作模型进行训练，具体训练方法为：首先学习最负样本，以便更好地初始化模型优化；一旦模型学会了足够的模式来处理最负面的模式，就会逐渐在正负边界附近引入更难的样本；更具体地说，评估输入图像/文本与输出的相关性，并构建5个级别的样本；Level-5表示最相关的输入，Level-1表示输入和输出最不相关；在训练过程中，首先用Level-5和Level-1样本训练模型，然后将Level-4和Level-2分别纳入正负样本集，用由易到难的逐渐递增的方式引导模型的学习。

采用上述技术方案，本发明具有如下有益效果：

1、能够同时处理多模态图文序列信息作为输入，在给定主题词的条件下进行文本生成，将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成，更加符合人类创作的过程。

2、在方法上本发明的模型结构和训练方式更加合理，实验结果可靠，同时也印证了本发明方法的有效性，该方法也更易于后续扩展、迁移和再创造。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的模型示意图；

图2为本发明实施例提供的多模态数据构造的具体实例示意图；

图3为本发明实施例提供的文本创作模型生成文本的具体实例示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本实施例提供一种基于多模态信息输入的人工智能文本创作方法，本申请的方法首先包含对特定数据的构造。由于本申请的任务没有公开可用的数据集，本申请首先从网络上爬取了大量的歌词，并对其进行符合特定模式地拆分成不同的段落，这些段落由不同的分句构成。本申请将歌名作为本申请任务中需要用到的主题信息。本申请在一个大规模的电影梗概的图文数据集GraphMovie上，采用CADM模型，将每个分句作为查询的关键信息进行检索并得到多个图文对候选。本申请对这些图文对候选的一部分进行了人工标注并用包含标注信息的这部分训练了一个精排模型来提高图文对候选的质量。同时，不同相关性的排名信息将有助于本申请构造不同质量的正负样本，用于后续模型的训练。由此，对于每个歌词段落，本申请都能获取不同相关性质量的图文对候选序列来构成本申请的数据样本，进而形成本申请特定任务下的数据集。

本申请的模型架构如图1所示，具体来说，原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入。然后，每一步的嵌入被分成不同的部分来影响最终的输出。最后，不同的模态与注意力网络融合在一起。最后一部分是解码器，旨在预测最终的输出句子。下面，本申请将更详细地阐述本申请的模型。

模型部分一：原始图像和文本的格式和语义在不同的空间中呈现。为了适应它们，本申请设计了多通道序列处理器，首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间，然后输入到这些编码器神经网络中。这些编码器可以是循环神经网络或Transformer，本申请最终可以通过权衡有效性和效率来选择具体采用的模块。输出则是一个隐式的嵌入序列。对于输入的图片和文本序列都经过这样的处理。

模型部分二：粗略地说，本申请的模型是一个序列到序列的架构。然而，与机器翻译等传统任务不同，每个输入词通常严格对应一个输出词，在本申请的问题中，图像或文本可能会影响输出序列的跨度。为了对这些限制特点进行建模，本申请设计了一个定制的模块来捕捉输入对输出的影响。具体来说，本申请让上一节中推导出的隐藏嵌入具体地影响输出序列。对于这些隐藏嵌入，本申请在各个通道内设计了模态间的注意力机制，用来捕获不同时间步对于其他时间步的影响，以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入。然而，本申请认为输入对输出的影响也应该遵循一些直观的模式。例如，如果输入和输出的时间步之间的距离很大，那么影响应该很小。为了将这些直觉编码到本申请的模型中，本申请进一步引入了一个正则化器来约束注意力权重的学习。形式上，本申请最小化注意力权重和一个预定义的分布之间的距离，从而定义一个这两者之间的KL损失函数来进行优化和学习。通过最小化KL损失，本申请使用先验规则化注意力权重，这编码了更大的输入-输出距离应该导致更低影响的直觉，从而让模型能够对输入的顺序有较好的敏感性。用关于注意力权重分布的先验知识来缩小探索空间，这可以带来更好的收敛率和优化解决方案。

模型部分三：基于上面输出的部分隐藏嵌入，本申请融合不同的模态来推导出编码器的输出。具体来说，编码器的输出由L个嵌入组成，每个嵌入对主题、视觉和文本信息进行综合性的编码。通过迭代来自不同步骤的隐藏嵌入对第k步骤的影响来计算总的输出嵌入。对于每一对步骤，不同的模态以一种特定的注意力方式加权组合在一起。直观地说，对于同一个输出句子，不同的模态可能扮演不同的角色。因此，本申请在组合它们时采用了模态间的注意力机制。如果比较上述两个注意力机制，可能会发现前者部署在同一模态的不同步骤中，而后者的目标是在同一步骤中捕捉不同模态的贡献。这样的设计实际上形成了一个2D注意力机制，有望以更细粒度的方式对不同位置和模态的影响进行建模。

模型部分四：对于基于上述模块输出的嵌入生成输出而言，直截了当，可以合并不同的嵌入作为提示，直接归纳输出所有的生成语句。然而，这种策略对于保留输入的顺序语义可能不是最优的，因为有序信息可能会被合并操作削弱。为了解决上述问题，本申请让每个经验嵌入分别影响输出句子。形式上，本申请在每一步将输出的该步的嵌入和词嵌入相加，并将主题词作为提示，然后整体输入到解码器里面进行生成。这样的方式能够最大程度地保留不同时间步对生成句子不同部分的影响。

遵循此前一些工作的策略，本申请最大化从正样本输入生成目标输出的概率，同时最小化从负样本输入生成目标输出的概率。在本申请的任务中，输入是一个序列，随着序列变长，负样本空间呈指数级扩大，无法选择所有负样本。为了更好地学习本申请的模型，本申请以课程学习的方式选择负样本。本申请的总体思路是首先学习最负样本，以便更好地初始化模型优化。一旦模型学会了足够的模式来处理最负面的模式，本申请就会逐渐在正负边界附近引入更难的样本。更具体地说，本申请评估输入图像/文本与输出的相关性，并构建5个级别的样本。Level-5表示最相关的输入，Level-1表示输入和输出最不相关。在训练过程中，本申请首先用Level-5和Level-1样本训练模型，然后将Level-4和Level-2分别纳入正负样本集，用由易到难的逐渐递增的方式引导模型的学习。

为了更具体地对本发明做进一步说明，图2和图3分别提供了本发明的文本创作模型生成文本的流程以及文本创作模型生成文本的流程。由图2和图3能够看出，本发明能够同时处理多模态图文序列信息作为输入，在给定主题词的条件下进行文本生成，将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成，更加符合人类创作的过程。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创造方法包括多模态数据构造以及文本创作模型两部分；其中，

2.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第一部分具体为：原始图像和文本的格式和语义在不同的空间中呈现；为了适应它们，设计多通道序列处理器，首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间，然后输入到这些编码器神经网络中；这些编码器可以是循环神经网络或Transformer，最终可以通过权衡有效性和效率来选择具体采用的模块；输出则是一个隐式的嵌入序列；对于输入的图片和文本序列都经过这样的处理。

3.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第二部分具体为：文本创作模型是一个序列到序列的架构；然而，与机器翻译类传统任务不同，每个输入词严格对应一个输出词，在本申请的问题中，图像或文本可能会影响输出序列的跨度；为了对这些限制特点进行建模，设计了一个定制的模块来捕捉输入对输出的影响；具体来说，让上一节中推导出的隐藏嵌入具体地影响输出序列；对于这些隐藏嵌入，在各个通道内设计了模态间的注意力机制，用来捕获不同时间步对于其他时间步的影响，以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入；为了将直觉编码到定制的模块中，进一步引入了一个正则化器来约束注意力权重的学习；形式上，最小化注意力权重和一个预定义的分布之间的距离，从而定义一个这两者之间的KL损失函数来进行优化和学习；通过最小化KL损失，使用先验规则化注意力权重，这编码了更大的输入-输出距离应该导致更低影响的直觉，从而让模型能够对输入的顺序有好的敏感性；用关于注意力权重分布的先验知识来缩小探索空间，以带来更好的收敛率和优化解决方案。

4.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第三部分具体为：基于上面输出的部分隐藏嵌入，融合不同的模态来推导出编码器的输出；具体来说，编码器的输出由L个嵌入组成，每个嵌入对主题、视觉和文本信息进行综合性的编码；通过迭代来自不同步骤的隐藏嵌入对第k步骤的影响来计算总的输出嵌入；对于每一对步骤，不同的模态以一种特定的注意力方式加权组合在一起；直观地说，对于同一个输出句子，不同的模态可能扮演不同的角色；因此，在组合它们时采用模态间的注意力机制；如果比较上述两个注意力机制，可能会发现前者部署在同一模态的不同步骤中，而后者的目标是在同一步骤中捕捉不同模态的贡献；这样的设计实际上形成了一个2D注意力机制，从而以更细粒度的方式对不同位置和模态的影响进行建模。

5.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，所述文本创作模型的第四部分具体为：对于基于上述模块输出的嵌入生成输出而言，合并不同的嵌入作为提示，直接归纳输出所有的生成语句；然而，这种策略对于保留输入的顺序语义可能不是最优的，因为有序信息可能会被合并操作削弱；为了解决上述问题，让每个经验嵌入分别影响输出句子；形式上，在每一步将输出的该步的嵌入和词嵌入相加，并将主题词作为提示，然后整体输入到解码器里面进行生成；这样的方式能够最大程度地保留不同时间步对生成句子不同部分的影响。

6.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法，其特征在于，为了最大化从正样本输入生成目标输出的概率，同时最小化从负样本输入生成目标输出的概率，通过课程学习的方式对文本创作模型进行训练，具体训练方法为：首先学习最负样本，以便更好地初始化模型优化；一旦模型学会了足够的模式来处理最负面的模式，就会逐渐在正负边界附近引入更难的样本；更具体地说，评估输入图像/文本与输出的相关性，并构建5个级别的样本；Level-5表示最相关的输入，Level-1表示输入和输出最不相关；在训练过程中，首先用Level-5和Level-1样本训练模型，然后将Level-4和Level-2分别纳入正负样本集，用由易到难的逐渐递增的方式引导模型的学习。