CN115309886A - 基于多模态信息输入的人工智能文本创作方法 - Google Patents

基于多模态信息输入的人工智能文本创作方法 Download PDF

Info

Publication number
CN115309886A
CN115309886A CN202210932040.4A CN202210932040A CN115309886A CN 115309886 A CN115309886 A CN 115309886A CN 202210932040 A CN202210932040 A CN 202210932040A CN 115309886 A CN115309886 A CN 115309886A
Authority
CN
China
Prior art keywords
text
different
output
model
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210932040.4A
Other languages
English (en)
Inventor
曹乾
陈旭
宋睿华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202210932040.4A priority Critical patent/CN115309886A/zh
Publication of CN115309886A publication Critical patent/CN115309886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于多模态信息输入的人工智能文本创作方法,该方法包括多模态数据构造以及文本创作模型两部分。本发明能够同时处理多模态图文序列信息作为输入,在给定主题词的条件下进行文本生成,将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成,更加符合人类创作的过程。此外,在方法上本发明的模型结构和训练方式更加合理,实验结果可靠,同时也印证了本发明方法的有效性,该方法也更易于后续扩展、迁移和再创造。

Description

基于多模态信息输入的人工智能文本创作方法
技术领域
本发明涉及人工智能、深度学习、自然语言生成技术领域,尤其是涉及一种基于多模态信息输入的人工智能文本创作方法。
背景技术
歌词生成和诗歌写作是两个典型的AI创作任务,其中生成的文本需要遵循一些格式和韵律。早期的歌词生成工作大多基于约束或基于检索的方法,试图通过将最佳相关的后一句与前一句的匹配来生成。后来的研究使用长短期记忆(LSTM)或自动编码器等神经网络来处理此任务,或是在解码器中添加分层注意机制。最近,预训练语言模型可以提供更好的基于条件的结果并考虑更多的韵律和节奏。在诗歌生成的任务中,早期的模型主要关注关键词扩展和对诗人的意图进行建模,直到随着像GPT这样的大型预训练语言模型的出现成为里程碑。除了文本信息之外,其他工作还尝试用图像启发诗歌生成。这些研究采用视觉输入来模拟人类的场景感知过程。基本上,这些方法从单个图像输入生成诗歌。现有的Images2Poem通过从图像流中选择具有代表性的图像并采用自适应自注意力机制进行解码,从图像流中生成中国古典诗歌,这与本申请的工作类似。
另一个相关的领域是通过采用多模态数据生成文本摘要的多模态摘要技术。然而,生成的摘要高度依赖源文本,这与本申请的主题限制的多模态创作任务不同。其他相关的任务如视觉叙事,它以多个连续图像作为输入,旨在生成连贯的故事。为了解决这个问题,许多工作利用CNN对图像流进行编码,并利用RNN类的模块来生成故事句子,或者使用分层结构以及一些专门设计的注意力机制。还有其他一些作品赋予模型适应主题的能力或结合视频进行视觉叙事。
尽管以上这些AI创作相关的工作要么基于文本要么基于图像进行文本生成,但它们都没有同时将图像和文本的多模态信息并结合主题词作为输入或条件进行创作。尽管基于图像写诗的工作有许多有希望的结果,但它们中的大多数从图像中识别关键字,例如图片中的对象或情绪,并采用关键字作为输入来影响诗歌生成过程。同时,仅仅输入多张图片的Images2Poem方法与本申请的工作类似,但构建的图像(每首诗约20幅图像)主要是一首诗中提到的对象,与本申请试图从一系列图像和其各自对应的文本中捕获顺序语义的模型有很大不同。为了模拟人类在创作过程中的具身体验,同时并非所有体验(例如感觉)都可以很好地可视化和表示,本申请构造了一个特定的数据集来适应本申请的设定和任务。本申请的目标是在给定的主题下,通过模拟人类的具身体验,给定具有顺序关系的多组图文对,能够生成与输入图像和对应文本颇具关联的文本,以此来填补在人工智能创作领域适应各种多模态输入进行文本生成的空白。
对于多模态摘要生成和视觉叙事任务而言,尽管有工作基于多模态信息进行生成,但很少有工作像本申请的设置一样同时使用主题和成对的图像文本输入更自由的文本创作的研究,这是对人类过往经历和体验的更真实的模拟。
公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于多模态信息输入的人工智能文本创作方法,以解决现有技术中存在的问题。
为了实现上述目的,本发明采用以下技术方案:
本发明提供一种基于多模态信息输入的人工智能文本创作方法,所述文本创造方法包括多模态数据构造以及文本创作模型两部分;其中,
所述多模态数据构造的具体方法如下:首先从网络上爬取大量的歌词,并对其进行符合特定模式地拆分成不同的段落,这些段落由不同的分句构成;将歌名作为任务中需要用到的主题信息,在一个大规模的电影梗概的图文数据集GraphMovie上,采用CADM模型将每个分句作为查询的关键信息进行检索并得到多个图文对候选;对所述图文对候选中的一部分进行人工标注并用包含标注信息的这部分训练一个精排模型来提高图文对候选的质量;同时,不同相关性的排名信息将有助于构造不同质量的正负样本,用于后续模型的训练;由此,对于每个歌词段落,都能获取不同相关性质量的图文对候选序列来构成数据样本,进而形成特定任务下的数据集;
所述文本创作模型由四个部分组成;前三部分构成编码器,具体来说,原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入;然后,每一步的嵌入被分成不同的部分来影响最终的输出;最后,不同的模态与注意力网络融合在一起;最后一部分是解码器,旨在预测最终的输出句子。
作为一种进一步的技术方案,所述文本创作模型的第一部分具体为:原始图像和文本的格式和语义在不同的空间中呈现;为了适应它们,设计多通道序列处理器,首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间,然后输入到这些编码器神经网络中;这些编码器可以是循环神经网络或Transformer,最终可以通过权衡有效性和效率来选择具体采用的模块;输出则是一个隐式的嵌入序列;对于输入的图片和文本序列都经过这样的处理。
作为一种进一步的技术方案,所述文本创作模型的第二部分具体为:文本创作模型是一个序列到序列的架构;然而,与机器翻译类传统任务不同,每个输入词严格对应一个输出词,在本申请的问题中,图像或文本可能会影响输出序列的跨度;为了对这些限制特点进行建模,设计了一个定制的模块来捕捉输入对输出的影响;具体来说,让上一节中推导出的隐藏嵌入具体地影响输出序列;对于这些隐藏嵌入,在各个通道内设计了模态间的注意力机制,用来捕获不同时间步对于其他时间步的影响,以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入;为了将直觉编码到定制的模块中,进一步引入了一个正则化器来约束注意力权重的学习;形式上,最小化注意力权重和一个预定义的分布之间的距离,从而定义一个这两者之间的KL损失函数来进行优化和学习;通过最小化KL损失,使用先验规则化注意力权重,这编码了更大的输入-输出距离应该导致更低影响的直觉,从而让模型能够对输入的顺序有好的敏感性;用关于注意力权重分布的先验知识来缩小探索空间,以带来更好的收敛率和优化解决方案。
作为一种进一步的技术方案,所述文本创作模型的第三部分具体为:基于上面输出的部分隐藏嵌入,融合不同的模态来推导出编码器的输出;具体来说,编码器的输出由L个嵌入组成,每个嵌入对主题、视觉和文本信息进行综合性的编码;通过迭代来自不同步骤的隐藏嵌入对第k步骤的影响来计算总的输出嵌入;对于每一对步骤,不同的模态以一种特定的注意力方式加权组合在一起;直观地说,对于同一个输出句子,不同的模态可能扮演不同的角色;因此,在组合它们时采用模态间的注意力机制;如果比较上述两个注意力机制,可能会发现前者部署在同一模态的不同步骤中,而后者的目标是在同一步骤中捕捉不同模态的贡献;这样的设计实际上形成了一个2D注意力机制,从而以更细粒度的方式对不同位置和模态的影响进行建模。
作为一种进一步的技术方案,所述文本创作模型的第四部分具体为:对于基于上述模块输出的嵌入生成输出而言,合并不同的嵌入作为提示,直接归纳输出所有的生成语句;然而,这种策略对于保留输入的顺序语义可能不是最优的,因为有序信息可能会被合并操作削弱;为了解决上述问题,让每个经验嵌入分别影响输出句子;形式上,在每一步将输出的该步的嵌入和词嵌入相加,并将主题词作为提示,然后整体输入到解码器里面进行生成;这样的方式能够最大程度地保留不同时间步对生成句子不同部分的影响。
作为一种进一步的技术方案,为了最大化从正样本输入生成目标输出的概率,同时最小化从负样本输入生成目标输出的概率,通过课程学习的方式对文本创作模型进行训练,具体训练方法为:首先学习最负样本,以便更好地初始化模型优化;一旦模型学会了足够的模式来处理最负面的模式,就会逐渐在正负边界附近引入更难的样本;更具体地说,评估输入图像/文本与输出的相关性,并构建5个级别的样本;Level-5表示最相关的输入,Level-1表示输入和输出最不相关;在训练过程中,首先用Level-5和Level-1样本训练模型,然后将Level-4和Level-2分别纳入正负样本集,用由易到难的逐渐递增的方式引导模型的学习。
采用上述技术方案,本发明具有如下有益效果:
1、能够同时处理多模态图文序列信息作为输入,在给定主题词的条件下进行文本生成,将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成,更加符合人类创作的过程。
2、在方法上本发明的模型结构和训练方式更加合理,实验结果可靠,同时也印证了本发明方法的有效性,该方法也更易于后续扩展、迁移和再创造。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的模型示意图;
图2为本发明实施例提供的多模态数据构造的具体实例示意图;
图3为本发明实施例提供的文本创作模型生成文本的具体实例示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本实施例提供一种基于多模态信息输入的人工智能文本创作方法,本申请的方法首先包含对特定数据的构造。由于本申请的任务没有公开可用的数据集,本申请首先从网络上爬取了大量的歌词,并对其进行符合特定模式地拆分成不同的段落,这些段落由不同的分句构成。本申请将歌名作为本申请任务中需要用到的主题信息。本申请在一个大规模的电影梗概的图文数据集GraphMovie上,采用CADM模型,将每个分句作为查询的关键信息进行检索并得到多个图文对候选。本申请对这些图文对候选的一部分进行了人工标注并用包含标注信息的这部分训练了一个精排模型来提高图文对候选的质量。同时,不同相关性的排名信息将有助于本申请构造不同质量的正负样本,用于后续模型的训练。由此,对于每个歌词段落,本申请都能获取不同相关性质量的图文对候选序列来构成本申请的数据样本,进而形成本申请特定任务下的数据集。
本申请的模型架构如图1所示,具体来说,原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入。然后,每一步的嵌入被分成不同的部分来影响最终的输出。最后,不同的模态与注意力网络融合在一起。最后一部分是解码器,旨在预测最终的输出句子。下面,本申请将更详细地阐述本申请的模型。
模型部分一:原始图像和文本的格式和语义在不同的空间中呈现。为了适应它们,本申请设计了多通道序列处理器,首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间,然后输入到这些编码器神经网络中。这些编码器可以是循环神经网络或Transformer,本申请最终可以通过权衡有效性和效率来选择具体采用的模块。输出则是一个隐式的嵌入序列。对于输入的图片和文本序列都经过这样的处理。
模型部分二:粗略地说,本申请的模型是一个序列到序列的架构。然而,与机器翻译等传统任务不同,每个输入词通常严格对应一个输出词,在本申请的问题中,图像或文本可能会影响输出序列的跨度。为了对这些限制特点进行建模,本申请设计了一个定制的模块来捕捉输入对输出的影响。具体来说,本申请让上一节中推导出的隐藏嵌入具体地影响输出序列。对于这些隐藏嵌入,本申请在各个通道内设计了模态间的注意力机制,用来捕获不同时间步对于其他时间步的影响,以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入。然而,本申请认为输入对输出的影响也应该遵循一些直观的模式。例如,如果输入和输出的时间步之间的距离很大,那么影响应该很小。为了将这些直觉编码到本申请的模型中,本申请进一步引入了一个正则化器来约束注意力权重的学习。形式上,本申请最小化注意力权重和一个预定义的分布之间的距离,从而定义一个这两者之间的KL损失函数来进行优化和学习。通过最小化KL损失,本申请使用先验规则化注意力权重,这编码了更大的输入-输出距离应该导致更低影响的直觉,从而让模型能够对输入的顺序有较好的敏感性。用关于注意力权重分布的先验知识来缩小探索空间,这可以带来更好的收敛率和优化解决方案。
模型部分三:基于上面输出的部分隐藏嵌入,本申请融合不同的模态来推导出编码器的输出。具体来说,编码器的输出由L个嵌入组成,每个嵌入对主题、视觉和文本信息进行综合性的编码。通过迭代来自不同步骤的隐藏嵌入对第k步骤的影响来计算总的输出嵌入。对于每一对步骤,不同的模态以一种特定的注意力方式加权组合在一起。直观地说,对于同一个输出句子,不同的模态可能扮演不同的角色。因此,本申请在组合它们时采用了模态间的注意力机制。如果比较上述两个注意力机制,可能会发现前者部署在同一模态的不同步骤中,而后者的目标是在同一步骤中捕捉不同模态的贡献。这样的设计实际上形成了一个2D注意力机制,有望以更细粒度的方式对不同位置和模态的影响进行建模。
模型部分四:对于基于上述模块输出的嵌入生成输出而言,直截了当,可以合并不同的嵌入作为提示,直接归纳输出所有的生成语句。然而,这种策略对于保留输入的顺序语义可能不是最优的,因为有序信息可能会被合并操作削弱。为了解决上述问题,本申请让每个经验嵌入分别影响输出句子。形式上,本申请在每一步将输出的该步的嵌入和词嵌入相加,并将主题词作为提示,然后整体输入到解码器里面进行生成。这样的方式能够最大程度地保留不同时间步对生成句子不同部分的影响。
遵循此前一些工作的策略,本申请最大化从正样本输入生成目标输出的概率,同时最小化从负样本输入生成目标输出的概率。在本申请的任务中,输入是一个序列,随着序列变长,负样本空间呈指数级扩大,无法选择所有负样本。为了更好地学习本申请的模型,本申请以课程学习的方式选择负样本。本申请的总体思路是首先学习最负样本,以便更好地初始化模型优化。一旦模型学会了足够的模式来处理最负面的模式,本申请就会逐渐在正负边界附近引入更难的样本。更具体地说,本申请评估输入图像/文本与输出的相关性,并构建5个级别的样本。Level-5表示最相关的输入,Level-1表示输入和输出最不相关。在训练过程中,本申请首先用Level-5和Level-1样本训练模型,然后将Level-4和Level-2分别纳入正负样本集,用由易到难的逐渐递增的方式引导模型的学习。
为了更具体地对本发明做进一步说明,图2和图3分别提供了本发明的文本创作模型生成文本的流程以及文本创作模型生成文本的流程。由图2和图3能够看出,本发明能够同时处理多模态图文序列信息作为输入,在给定主题词的条件下进行文本生成,将AI创作领域由单个模态到文本生成的工作扩展到由多个模态到文本的生成,更加符合人类创作的过程。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.基于多模态信息输入的人工智能文本创作方法,其特征在于,所述文本创造方法包括多模态数据构造以及文本创作模型两部分;其中,
所述多模态数据构造的具体方法如下:首先从网络上爬取大量的歌词,并对其进行符合特定模式地拆分成不同的段落,这些段落由不同的分句构成;将歌名作为任务中需要用到的主题信息,在一个大规模的电影梗概的图文数据集GraphMovie上,采用CADM模型将每个分句作为查询的关键信息进行检索并得到多个图文对候选;对所述图文对候选中的一部分进行人工标注并用包含标注信息的这部分训练一个精排模型来提高图文对候选的质量;同时,不同相关性的排名信息将有助于构造不同质量的正负样本,用于后续模型的训练;由此,对于每个歌词段落,都能获取不同相关性质量的图文对候选序列来构成数据样本,进而形成特定任务下的数据集;
所述文本创作模型由四个部分组成;前三部分构成编码器,具体来说,原始图像和文本首先由多通道序列处理器处理以生成它们的语义嵌入;然后,每一步的嵌入被分成不同的部分来影响最终的输出;最后,不同的模态与注意力网络融合在一起;最后一部分是解码器,旨在预测最终的输出句子。
2.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法,其特征在于,所述文本创作模型的第一部分具体为:原始图像和文本的格式和语义在不同的空间中呈现;为了适应它们,设计多通道序列处理器,首先将不同的模态序列经过多模态预训练模型WenLan映射到相同的高维空间,然后输入到这些编码器神经网络中;这些编码器可以是循环神经网络或Transformer,最终可以通过权衡有效性和效率来选择具体采用的模块;输出则是一个隐式的嵌入序列;对于输入的图片和文本序列都经过这样的处理。
3.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法,其特征在于,所述文本创作模型的第二部分具体为:文本创作模型是一个序列到序列的架构;然而,与机器翻译类传统任务不同,每个输入词严格对应一个输出词,在本申请的问题中,图像或文本可能会影响输出序列的跨度;为了对这些限制特点进行建模,设计了一个定制的模块来捕捉输入对输出的影响;具体来说,让上一节中推导出的隐藏嵌入具体地影响输出序列;对于这些隐藏嵌入,在各个通道内设计了模态间的注意力机制,用来捕获不同时间步对于其他时间步的影响,以此来得到包含不同其他时间步信息的某个时间步的综合隐藏嵌入;为了将直觉编码到定制的模块中,进一步引入了一个正则化器来约束注意力权重的学习;形式上,最小化注意力权重和一个预定义的分布之间的距离,从而定义一个这两者之间的KL损失函数来进行优化和学习;通过最小化KL损失,使用先验规则化注意力权重,这编码了更大的输入-输出距离应该导致更低影响的直觉,从而让模型能够对输入的顺序有好的敏感性;用关于注意力权重分布的先验知识来缩小探索空间,以带来更好的收敛率和优化解决方案。
4.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法,其特征在于,所述文本创作模型的第三部分具体为:基于上面输出的部分隐藏嵌入,融合不同的模态来推导出编码器的输出;具体来说,编码器的输出由L个嵌入组成,每个嵌入对主题、视觉和文本信息进行综合性的编码;通过迭代来自不同步骤的隐藏嵌入对第k步骤的影响来计算总的输出嵌入;对于每一对步骤,不同的模态以一种特定的注意力方式加权组合在一起;直观地说,对于同一个输出句子,不同的模态可能扮演不同的角色;因此,在组合它们时采用模态间的注意力机制;如果比较上述两个注意力机制,可能会发现前者部署在同一模态的不同步骤中,而后者的目标是在同一步骤中捕捉不同模态的贡献;这样的设计实际上形成了一个2D注意力机制,从而以更细粒度的方式对不同位置和模态的影响进行建模。
5.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法,其特征在于,所述文本创作模型的第四部分具体为:对于基于上述模块输出的嵌入生成输出而言,合并不同的嵌入作为提示,直接归纳输出所有的生成语句;然而,这种策略对于保留输入的顺序语义可能不是最优的,因为有序信息可能会被合并操作削弱;为了解决上述问题,让每个经验嵌入分别影响输出句子;形式上,在每一步将输出的该步的嵌入和词嵌入相加,并将主题词作为提示,然后整体输入到解码器里面进行生成;这样的方式能够最大程度地保留不同时间步对生成句子不同部分的影响。
6.根据权利要求1所述的基于多模态信息输入的人工智能文本创作方法,其特征在于,为了最大化从正样本输入生成目标输出的概率,同时最小化从负样本输入生成目标输出的概率,通过课程学习的方式对文本创作模型进行训练,具体训练方法为:首先学习最负样本,以便更好地初始化模型优化;一旦模型学会了足够的模式来处理最负面的模式,就会逐渐在正负边界附近引入更难的样本;更具体地说,评估输入图像/文本与输出的相关性,并构建5个级别的样本;Level-5表示最相关的输入,Level-1表示输入和输出最不相关;在训练过程中,首先用Level-5和Level-1样本训练模型,然后将Level-4和Level-2分别纳入正负样本集,用由易到难的逐渐递增的方式引导模型的学习。
CN202210932040.4A 2022-08-04 2022-08-04 基于多模态信息输入的人工智能文本创作方法 Pending CN115309886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210932040.4A CN115309886A (zh) 2022-08-04 2022-08-04 基于多模态信息输入的人工智能文本创作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210932040.4A CN115309886A (zh) 2022-08-04 2022-08-04 基于多模态信息输入的人工智能文本创作方法

Publications (1)

Publication Number Publication Date
CN115309886A true CN115309886A (zh) 2022-11-08

Family

ID=83859375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210932040.4A Pending CN115309886A (zh) 2022-08-04 2022-08-04 基于多模态信息输入的人工智能文本创作方法

Country Status (1)

Country Link
CN (1) CN115309886A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468131A (zh) * 2023-06-19 2023-07-21 成都市奇点软件有限公司 一种基于阶段性再训练的ai驱动项目自动化方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468131A (zh) * 2023-06-19 2023-07-21 成都市奇点软件有限公司 一种基于阶段性再训练的ai驱动项目自动化方法及系统
CN116468131B (zh) * 2023-06-19 2023-09-01 成都市奇点软件有限公司 一种基于阶段性再训练的ai驱动项目自动化方法及系统

Similar Documents

Publication Publication Date Title
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN108829722A (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN110516244B (zh) 一种基于bert的句子自动填充方法
KR102654480B1 (ko) 언어학습을 위한 지식 기반 대화 시스템 및 방법
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN113609285B (zh) 一种基于依赖门控融合机制的多模态文本摘要系统
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN111428104A (zh) 基于观点型阅读理解的癫痫病辅助医疗智能问答方法
CN114925170B (zh) 文本校对模型训练方法及装置、计算设备
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN116432654A (zh) 一种基于内容上下文的自动续写生成方法
Wang et al. A text-guided generation and refinement model for image captioning
CN114781376A (zh) 一种基于深度学习的新闻文本摘要生成方法
CN115293168A (zh) 基于预训练模型语义理解的多语言缩写消歧义算法
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN115309886A (zh) 基于多模态信息输入的人工智能文本创作方法
CN115238691A (zh) 基于知识融合的嵌入的多意图识别与槽位填充模型
CN113392656A (zh) 一种融合推敲网络和字符编码的神经机器翻译方法
CN113360601A (zh) 一种融合主题的pgn-gan文本摘要模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination