CN110991175B

CN110991175B - 多模态下的文本生成方法、系统、设备及存储介质

Info

Publication number: CN110991175B
Application number: CN201911258797.4A
Authority: CN
Inventors: 王国锋; 张坤雷; 赵江杰
Original assignee: Aiways Automobile Co Ltd
Current assignee: Aiways Automobile Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2024-04-09
Anticipated expiration: 2039-12-10
Also published as: CN110991175A

Abstract

本发明提供了一种多模态下的文本生成方法、系统、设备及存储介质，该文本生成方法包括以下步骤：获取输入信息，所述输入信息包括文本信息、图片信息和视频信息中的一种或多种；从所述输入信息提取至少一个关键词；根据提取的所述关键词生成关键词列表；根据所述关键词列表生成文本。本发明的目的在于，针对目前的文本生成方法仅考虑文本信息或者图片信息，本发明的多模态下的文本生成方法可同时利用文本、图片和/或视频信息等方式增加了输入信息量，在运用多模态融合算法更好的理解所要表达的信息的基础上生成更契合心意的文本；同时还解决了目前文本生成结果可能不含有关键词对生成文本产生负面影响的问题。

Description

多模态下的文本生成方法、系统、设备及存储介质

技术领域

本发明涉及计算机及人工智能领域，具体地说，涉及一种多模态下的文本生成方法、系统、设备及存储介质。

背景技术

近年来，随着神经语言程序学(Neuro-Linguistic Programming)技术的发展，机器自动写诗写歌成为热点话题。在机器自动生成歌词诗词的过程中，用户只需要输入少量关键词，神经语言程序学技术通过对关键词的训练学习，就能够生成完整歌词或者诗词。

目前解决文本生成问题的思路是：首先，用户通过文本或者图片给出关键词信息，然后要进行关键词扩展，获取主题信息，接下来，通过采用了Attention(注意力)机制的Seq2Seq(端到端)模型或者循环神经网络去生成内容，最后对内容进行规则过滤处理，或者在模型训练中加入规则损失，让生成的内容有一定的语法规则。这种解决问题的思路存在以下几方面的问题：首先，用户只能输入文本或者图片，这样输入信息资源太过单一，忽略了实际生活中其他模态信息；其次，采用了Attention机制的Seq2Seq模型或者循环神经网络都可以以一定概率将主题关键词较自然的加入到生成的内容中，但是以上两种网络都不能完全保证关键词一定在生成的内容里，如果不在内容里，可能会出现生成的内容无法反应一定的主题，对生成的效果产生影响。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

针对现有技术中的问题，本发明的目的在于提供了一种多模态下的文本生成方法、系统、设备及存储介质，该文本生成方法可通过多模态的信息获得更多的输入信息量，从而使得生成的文本更契合心意。

本发明的实施例提供了一种多模态下的文本生成方法，包括以下步骤：

获取输入信息，所述输入信息包括文本信息、图片信息和视频信息中的一种或多种；

从所述输入信息提取至少一个关键词；

根据提取的所述关键词生成关键词列表；

根据所述关键词列表生成文本。

优选地，所述根据提取的所述关键词生成关键词列表包括如下步骤：

将提取的所述关键词输入训练好的词向量模型，获得各个所述关键词的多个相关词的以及与各个相关词的相似度；

将相似度大于第一阈值的各个相关词输出生成所述关键词列表。

优选地，所述将提取的所述关键词输入训练好的词向量模型步骤之前，还包括如下步骤：

判断从所述输入信息提取的关键词的数量是否大于等于第二阈值；

如是，则对提取的所述关键词进行筛选后执行所述根据提取的所述关键词生成关键词列表步骤；

如否，则直接执行所述根据提取的所述关键词生成关键词列表步骤。

优选地，所述关键词包括第一关键词、第二关键词和第三关键词的一种或多种；

所述第一关键词包括所述输入信息为文本信息时提取的至少一个关键词；

所述第二关键词包括所述输入信息为图片信息时提取的至少一个关键词；

所述第三关键词包括所述输入信息为视频信息时提取的至少一个关键词。

优选地，所述对提取的所述关键词进行筛选包括如下步骤：

分别设置所述第一关键词、所述第二关键词和所述第三关键词的权重；

根据提取的所述关键词的权重筛选关键词。

优选地，所述根据提取的所述关键词的权重筛选关键词包括如下步骤：

对提取的所述关键词进行语义识别，对于语义相冲突的两个关键词，删除其中权重低的关键词。

优选地，所述根据所述关键词列表生成文本包括以下步骤：

将所述关键词列表中各个关键词输入训练好的文本片段生成模型，生成各个关键词对应的文本片段；

根据所述文本片段生成文本。

优选地，所述文本片段生成模型为采用如下步骤训练得到的模型：

获取词料信息，所述词料信息包括训练用关键词和与训练用关键词所对应的训练用文本片段；

将训练用关键词输入预设的文本片段生成模型，获得预测文本片段，所述预测文本片段包括所述训练用关键词所对应的预设的替代符号词；

所述训练用文本片段的所述训练用关键词用所述替代符号词替代；

通过所述预测文本片段与替代后的所述训练用文本片段计算损失函数；

利用所述损失函数更新所述文本片段生成模型的模型参数；

循环执行上述步骤，直到所述文本片段生成模型在所述词料信息上收敛或达到预设的循环次数。

优选地，所述生成各个关键词对应的文本片段后，还包括：

根据规则语法筛选所述生成的各个文本片段。

本发明的实施例还提供了一种多模态下的文本生成系统，包括信息获取模块、关键词提取模块、转换模块和文本生成模块，其中：

所述信息获取模块用于获取输入信息，所述输入信息包括文本信息、图片信息和视频信息中的一种或多种；

所述关键词提取模块用于从所述输入信息提取关键词；

所述转换模块用于根据提取的所述关键词生成关键词列表；

所述文本生成模块用于根据所述关键词列表生成文本。

本发明的实施例还提供了一种多模态下的文本生成设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述多模态下的文本生成方法的步骤。

本发明的实施例还提供了一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现所述多模态下的文本生成方法的步骤。

本发明的多模态下的文本生成方法采用深度学习算法将用户输入的文本、图片、视频信息转化成关键词；同时，对采集到的多模态信息结果使用多模态融合算法，获取用户的主题信息和关键词信息；此外，设计了采用Attention机制的Seq2Seq附加Mask的模型，解决生成文本中关键词丢失的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的多模态下的文本生成方法的流程图；

图2为本发明一实施例的文本片段生成模型训练过程示意图；

图3为本发明一实施例的多模态下的文本生成系统的结构示意图；

图4为本发明一实施例的多模态下的文本生成设备的结构示意图；

图5为本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1为本发明一实施例的多模态下的文本生成方法的流程图，具体地，该方法包括以下步骤：

S100：获取输入信息，所述输入信息包括文本信息、图片信息和视频信息中的一种或多种；

S200：从所述输入信息提取至少一个关键词；

S300：根据提取的所述关键词生成关键词列表；

S400：根据所述关键词列表生成文本。

本发明中输入信息可以是文本信息、图片信息和视频信息中的一种或多种，相应的，S200步骤中提起的关键词可以包括第一关键词、第二关键词和第三关键词的一种或多种；此处，所述第一关键词包括所述输入信息为文本信息时提取的至少一个关键词；所述第二关键词包括所述输入信息为图片信息时提取的至少一个关键词；所述第三关键词包括所述输入信息为视频信息时提取的至少一个关键词。

输入信息为文本信息时，提取关键词主要采用TF-IDF(term frequency–inversedocument frequency，词频-逆文本频率)算法，举例来说，可以根据TF-IDF的得分提取排名前三的三个关键词。

输入信息为图片息时，提取关键词先可以通过OCR(Optical CharacterRecognition，光学字符识别)技术检测图片中是否含有字符，如包含，则提取字符作为一组关键词；无论是否有字符，图片可以再通过卷积神经网络算法对图片进行分类，通过分类的结果获得另一组关键词组，对于从图片信息中提取的关键词，同样可以按照得分提取一定数量的关键词。

输入信息为视频息时，可以先将视频分帧，定义视频包含M帧图片，设定一个连续视频的采样窗口长度N，将视频分为K段，每一段包含N张图片，即K＝M/N，如果不能整除，K舍弃小数取整，另外对M/N取余，如果余数大于N/2，则将这段保留，K进行加1，否则直接将这段舍弃。依次处理K段视频，将每一段中的N张图片分别放进视频解析模型中，得到n个分类结果，对分类结果中的噪声或者置信度很低的结果进行舍弃，仅保大于一定分类阈值(譬如0.4)的分类结果，定义为Q。统计Q个分类结果，其中某一类的比例大于置信阈值Q/2，则取这一类作为这段视频的输出，说明属于以上某类视频，将结果转化成关键词，同时保存关键词的得分。

每一段需要提取关键字的视频，可能有对应的视频解析模型进行分类，如表情解析模型、手势解析模型和头部姿势解析模型等。

对于表情解析模型，主要是对视频解析分帧，放入mini-Xception(训练情感分类)模型，对结果中输出大于阈值的转化成关键词。例如有一段用户微笑的视频，放入模型中预测，结果表情‘高兴’大于阈值，提取‘高兴’为关键词。这里的表情类别可以包括：‘高兴’、‘惊奇’、‘害怕’、‘害羞’、‘厌恶’、‘愤怒’、‘伤心’等。

对于手势解析模块，主要是对视频解析分帧，放入Resnet-50残差网络后，对结果中大于阈值的提取为关键词。例如，有一个用户大拇指向上的视频，模型输出中标签为‘肯定’的阈值大于预期，提取‘肯定’为关键词。作为示例，这里的手势类别关键词可以包括：‘肯定’、‘否定’、‘失望’、‘爱心’、‘告别’等。

对于头部姿势解析模块，主要是对视频解析分帧，将每一帧的图片转化成头部动作坐标，判断前一帧和后一帧的坐标变化，计算变化量是否大于阈值，如果大于阈值，就是某一个头部动作，将结果提取为关键词，作为示例，这里头部姿态的类别可以包括：‘肯定’、‘否定’等。

进一步地，S300步骤根据提取的所述关键词生成关键词列表可以包括如下步骤：

S310：将提取的所述关键词输入训练好的词向量模型，获得各个所述关键词的多个相关词的以及与各个相关词的相似度；

S320：将相似度大于第一阈值的各个相关词输出生成所述关键词列表。

需要说明的是，所述步骤S310：将提取的所述关键词输入训练好的词向量模型之前，还包括如下步骤：

S301：判断从所述输入信息提取的关键词的数量是否大于等于第二阈值；

如是，则S302：对提取的所述关键词进行筛选后执行S310所述根据提取的所述关键词生成关键词列表步骤；

如否，则直接执行S310所述根据提取的所述关键词生成关键词列表步骤。

S310和S320步骤可看成是对提取的关键词转换的过程。

提取的关键词转换需要转换过程的原因在于，从图片信息或者从视频信息提取的关键词主要是作为分类的标签，标签的语义本身是比较单一的，不能直接作为文本生成的关键词，需要将他们转换为语义信息更丰富的关键词，从而用于文本生成。

当提取的关键词的数量不大于等于第二阈值时，S310和S320步骤可看成是对提取的关键词转换和扩展的过程。这里关键词扩展可以用word2vec预训练一个所需文体的向量，现代文或/和古文，古文和现代文是根据实际文本生成场景制定的，然后根据已有的关键词结合词向量相似度大于阈值获取当前关键词的相似词。举例来说，如果关键词类别为‘肯定’，‘肯定’的现代文可以是‘厉害’、‘漂亮’、‘优雅’、‘赞’，进行关键词扩展可以为‘好强’、‘优秀’、‘赞扬’、‘真棒’，最后从以上的8个关键词中随机挑选一个作为最终的表示‘肯定’的关键词。

优选地，S302步骤对提取的所述关键词进行筛选还可以包括如下步骤：

根据提取的所述关键词的权重筛选关键词，举例来说，上述根据提取的所述关键词的权重筛选关键词可以包括如下步骤：

同样地，上述S400步骤根据所述关键词列表生成文本主要采用了Attention机制的Seq2Seq模型，可以包括以下步骤：

S410：将所述关键词列表中各个关键词输入训练好的文本片段生成模型，生成各个关键词对应的文本片段；

S420：根据所述文本片段生成文本。

所不同的是，本发明的文本片段生成模型为采用如下步骤训练得到的模型：

S401：获取词料信息，所述词料信息包括训练用关键词和与训练用关键词所对应的训练用文本片段；

S402：将训练用关键词输入预设的文本片段生成模型，获得预测文本片段，所述预测文本片段包括所述训练用关键词所对应的预设的替代符号词；

S403：所述训练用文本片段的所述训练用关键词用所述替代符号词替代；

S404：通过所述预测文本片段与替代后的所述训练用文本片段计算损失函数；

S405：利用所述损失函数更新所述文本片段生成模型的模型参数；

举例来说，如图2所示，获取与主题此有关的词料信息后，图2示例中，关键词为秋桂，训练用文本片段为秋桂飘香丰收忙。因此，本发明中的文本生成可以说是采用了Attention机制的Seq2Seq附加Mask的模型，此模型可解决文本生成中的关键词可能丢失问题，通过在训练文本片段生成模型时加入一个替代符号词，称之为‘mask’，使得，Seq2Seq的编码器特征提取时考虑‘mask’的信息，最终获得含有‘mask’的解码器输出。这样既让关键词比较自然的加入到生成文本中，还让生成的文本一定含有关键词，保证了生成的文本符合主题。

本发明的一实施例中，上述S410步骤中的生成各个关键词对应的文本片段后，还包括根据规则语法筛选所述生成的各个文本片段。以古诗生成为例，首先对生成的古诗进行押韵和平仄过滤，再对叠字和重复字进行过滤，然后输出最终的结果。对于押韵，可以设定律诗是二四六八句押韵，绝句是二四句押韵，无论律诗还是绝句，首句放宽不做压韵。参照押韵词典，将每句诗的句尾进行拼音标注，并提取韵母来检测是否符合押韵，以此构建自动检测脚本，通过脚本过滤掉不符合押韵规则的诗句。随后对于符合押韵规则的诗进行字级别的数量统计，设定每首诗的初始分值为100，分别对律诗和绝句进行叠字扣减分，每个字的统计数为N，减分值为(N-1)，每个字都进行减分值计算，用100依次减去减分值，得分越高的诗就是叠字出现少的诗。每次在生成时会调用多次生成模型生成K首诗，通过押韵规则和重叠规则过滤，返回最优的结果。

如图3所示，本发明的实施例还提供了一种多模态下的文本生成系统，包括信息获取模块M100、关键词提取模块M200、转换模块M300和文本生成模块M400，其中：

所述信息获取模块M100用于获取输入信息，所述输入信息包括文本信息、图片信息和视频信息中的一种或多种；

所述关键词提取模块M200用于从所述输入信息提取关键词；

所述转换模块M300用于根据提取的所述关键词生成关键词列表；

所述文本生成模块M400用于根据所述关键词列表生成文本。

其中，该文本生成系统中的各个功能模块的功能实现方式均可以采用上述文本生成方法中各个步骤的具体实施方式来实现。例如，信息获取模块M100、关键词提取模块M200、转换模块M300和文本生成模块M400可以分别采用上述步骤S100、S200、S300和S400的具体实施方式实现其功能，此处不予赘述。

下面参照图4来描述根据本发明的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行实现分拣多模态下的文本生成方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明提供了一种多模态下的文本生成方法、系统、设备及存储介质，该文本生成方法采用深度学习算法将用户输入的文本、图片、视频信息转化成关键词；同时，对采集到的多模态信息结果使用多模态融合算法，获取用户的主题信息和关键词信息；此外，设计了采用了Attention机制的Seq2Seq附加Mask的模型，解决生成文本中关键词丢失的问题。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种多模态下的文本生成方法，其特征在于，包括以下步骤：

获取输入信息，所述输入信息包括文本信息、图片信息和视频信息；

从所述输入信息提取至少一个关键词；

根据提取的所述关键词生成关键词列表；

根据所述关键词列表生成文本；

其中，所述根据提取的所述关键词生成关键词列表包括如下步骤：

将相似度大于第一阈值的各个相关词输出生成所述关键词列表；

所述根据所述关键词列表生成文本，包括以下步骤：

将所述关键词列表中各个关键词输入训练好的文本片段生成模型，生成各个关键词对应的文本片段；所述文本片段生成模型为采用Attention机制的Seq2Seq模型；

根据所述文本片段生成文本。

2.根据权利要求1所述的多模态下的文本生成方法，其特征在于，所述将提取的所述关键词输入训练好的词向量模型步骤之前，还包括如下步骤：

3.根据权利要求2所述的多模态下的文本生成方法，其特征在于，所述关键词包括第一关键词、第二关键词和第三关键词的至少一种；

4.根据权利要求3所述的多模态下的文本生成方法，其特征在于，所述对提取的所述关键词进行筛选包括如下步骤：

根据提取的所述关键词的权重筛选关键词。

5.根据权利要求4所述的多模态下的文本生成方法，其特征在于，所述根据提取的所述关键词的权重筛选关键词包括如下步骤：

6.根据权利要求1所述的多模态下的文本生成方法，其特征在于，所述文本片段生成模型为采用如下步骤训练得到的模型：

利用所述损失函数更新所述文本片段生成模型的模型参数；

7.根据权利要求1所述的多模态下的文本生成方法，其特征在于，所述生成各个关键词对应的文本片段后，还包括：

根据规则语法筛选所述生成的各个文本片段。

8.一种多模态下的文本生成系统，其特征在于，包括信息获取模块、关键词提取模块、转换模块和文本生成模块，其中：

所述信息获取模块用于获取输入信息，所述输入信息包括文本信息、图片信息和视频信息；

所述关键词提取模块用于从所述输入信息提取关键词；

所述转换模块用于根据提取的所述关键词生成关键词列表；

所述文本生成模块用于根据所述关键词列表生成文本；

所述转换模块还用于将提取的所述关键词输入训练好的词向量模型，获得各个所述关键词的多个相关词的以及与各个相关词的相似度；将相似度大于第一阈值的各个相关词输出生成所述关键词列表；

所述文本生成模块具体用于将所述关键词列表中各个关键词输入训练好的文本片段生成模型，生成各个关键词对应的文本片段；所述文本片段生成模型为采用Attention机制的Seq2Seq模型；根据所述文本片段生成文本。

9.一种多模态下的文本生成设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任意一项所述多模态下的文本生成方法的步骤。

10.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至7任意一项所述多模态下的文本生成方法的步骤。