CN114118041A

CN114118041A - 一种文本生成方法及装置、存储介质

Info

Publication number: CN114118041A
Application number: CN202111284961.6A
Authority: CN
Inventors: 王昕远; 郑少杰; 范增虎
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-03-01
Also published as: WO2023071242A1

Abstract

本申请实施例公开了一种文本生成方法及装置、存储介质，包括在接收到文本生成指令的情况下，从文本生成指令中获取文本关键词，并确定文本关键词对应的目标文本类型；在模板库中存在包含目标文本类型的目标模板的情况下，从模板库中获取目标模板；模板库中的模板为设置有文本类型的文本模板；在目标模板中查找目标文本类型的位置，并在位置处利用文本关键词的字段信息替换目标文本类型对应的字段信息，得到包含文本关键词的目标文本。

Description

一种文本生成方法及装置、存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本生成方法及装置、存储介质。

背景技术

随着互联网技术的发展，网络每天都会向用户推送很多对象对应的文本信息，以供用户可以根据该文本信息深入了解对象，以实现对该对象的处理过程。

现有技术中，是在得到与该对象相关的描述信息的情况下，人工查找对应的描述模板，人工以将该描述模板和描述信息进行关联，得到对应的文本信息，如此降低了生成文本信息时的智能性。

发明内容

为解决上述技术问题，本申请实施例期望提供一种文本生成方法及装置、存储介质，能够提高文本生成装置生成文本信息时的智能性。

本申请的技术方案是这样实现的：

本申请实施例提供一种文本生成方法，包括：

在接收到文本生成指令的情况下，从所述文本生成指令中获取文本关键词，并确定所述文本关键词对应的目标文本类型；

在模板库中存在包含所述目标文本类型的目标模板的情况下，从所述模板库中获取所述目标模板；所述模板库中的模板为设置有文本类型的文本模板；

在所述目标模板中查找所述目标文本类型的位置，并在所述位置处利用所述文本关键词的字段信息替换所述目标文本类型对应的字段信息，得到包含所述文本关键词的目标文本。

本申请实施例提供了一种文本生成装置，所述装置包括：

获取单元，用于在接收到文本生成指令的情况下，从所述文本生成指令中获取文本关键词；在模板库中存在包含所述目标文本类型的目标模板的情况下，从所述模板库中获取所述目标模板；所述模板库中的模板为设置有文本类型的文本模板；

确定单元，用于确定所述文本关键词对应的目标文本类型；

替换单元，用于在所述位置处利用所述文本关键词的字段信息替换所述目标文本类型对应的字段信息，得到包含所述文本关键词的目标文本。

本申请实施例提供了一种文本生成装置，所述装置包括：

存储器、处理器和通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的文本生成的程序，当所述文本生成的程序被执行时，通过所述处理器执行上述所述的文本生成方法。

本申请实施例提供了一种存储介质，其上存储有计算机程序，应用于文本生成装置，其特征在于，该计算机程序被处理器执行时实现上述所述的文本生成方法。

本申请实施例提供了一种文本生成方法及装置、存储介质，文本生成方法包括：在接收到文本生成指令的情况下，从文本生成指令中获取文本关键词，并确定文本关键词对应的目标文本类型；在模板库中存在包含目标文本类型的目标模板的情况下，从模板库中获取目标模板；模板库中的模板为设置有文本类型的文本模板；在目标模板中查找目标文本类型的位置，并在位置处利用文本关键词的字段信息替换目标文本类型对应的字段信息，得到包含文本关键词的目标文本。采用上述方法实现方案，文本生成装置在接收到文本生成指令的情况下，从文本生成指令中获取文本关键词，通过在模板库中查找包括文本关键词对应的目标文本类型的目标模板，并在目标模板中查找目标文本类型的位置，以在该位置处利用文本关键词的字段信息替换目标文本类型对应的字段信息，从而得到包含文本关键词的目标文本，不需要再通过人工的方式来得到文本信息，提高了文本生成装置生成文本信息时的智能性。

附图说明

图1为本申请实施例提供的一种文本生成方法流程图；

图2为本申请实施例提供的一种示例性的BERT的结构示意图；

图3为本申请实施例提供的一种示例性的监督训练BERT模型的示意图；

图4为本申请实施例提供的一种示例性的训练BERT模型的流程图；

图5为本申请实施例提供的一种示例性的文本模板持久化流程图；

图6为本申请实施例提供的一种示例性的文本生成方法流程图；

图7为本申请实施例提供的一种示例性的文本生成方法的种子阶段和自动训练阶段示意图；

图8为本申请实施例提供的一种文本生成装置的组成结构示意图一；

图9为本申请实施例提供的一种文本生成装置的组成结构示意图二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例一

本申请实施例提供了一种文本生成方法，图1为本申请实施例提供的一种文本生成方法流程图一，如图1所示，文本生成方法可以包括：

S101、在接收到文本生成指令的情况下，从文本生成指令中获取文本关键词，并确定文本关键词对应的目标文本类型。

本申请实施例提供的一种文本生成方法适用于根据文本生成指令中携带的文本关键词生成目标文本的场景下。

在本申请实施例中，文本生成装置可以以各种形式来实施。例如，本申请中描述的文本生成装置可以包括诸如手机、照相机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等装置，以及诸如数字TV、台式计算机等装置。

在本申请实施例中，文本生成指令可以为生成营销文本的指令；文本生成指令也可以为生成广告文本的指令；文本生成指令可以为生成其他文本的指令；具体的文本生成指令可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置可以包括显示屏，文本生成装置可以从显示屏上接收到文本生成指令；文本生成装置也可以从其他设备处接收文本生成指令，文本生成指令还可以通过其他的方式来接收文本生成指令；具体的文本生成装置接收文本生成指令的方式，可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本关键词可以为用于生成文本生成指令对应的目标文本的信息。

在本申请实施例中，文本关键词的数量可以为一个，文本关键词的数量也可以为两个，文本关键词的数量还可以为多个，具体的文本关键词的数量可以根据实际情况进行确定，本申请实施例对此不作限定。

示例性的，文本关键词包括银行、优惠券、10元、1月1日到1月30日、观影、绑卡等。

在本申请实施例中，目标文本类型的数量可以为一个，目标文本类型的数量也可以为两个，目标文本类型的数量还可以为多个，具体的目标文本类型的数量可以根据实际情况进行确定，本申请实施例对此不作限定。

示例性的，目标文本类型可以为公司名称；目标文本类型也可以为产品名称；目标文本类型还也可以为发放物品；目标文本类型也可以为数值金额；目标文本类型也可以为活动时间或者活动描述；具体的目标文本类型可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，文本关键词与目标文本类型可以是一一对应的，即一个文本关键词对应一个目标文本类型；也可以是两个文本关键词对应一个目标文本类型；还以是多个文本关键词对应一个目标文本类型；具体的文本关键词与目标文本类型之间的对应关系可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置确定文本关键词对应的目标文本类型的过程，包括：在文本生成指令中未携带目标文本类型的情况下，文本生成装置将文本关键词输入类型识别模型，得到目标文本类型；在文本生成指令中携带目标文本类型的情况下，文本生成装置从文本生成指令中获取目标文本类型。

需要说明的是，类型识别模型可以为文本生成装置中配置的模型；类型识别模型也可以为文本生成装置将文本关键词输入类型识别模型之前，类型识别模型从其他设备处获取到的模型；类型识别模型还可以为文本生成装置以其他的方式得到的模型；具体的文本生成装置获取到类型识别模型的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，类型识别模型可以为文本分类(FastText)模型；类型识别模型也可以为其他的能够根据文本关键词确定出文本类型的模型；具体的类型识别模型可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置将文本关键词输入类型识别模型，得到目标文本类型之前，文本生成装置还会获取第二样本关键词和第二样本文本类型；文本生成装置利用第二样本关键词和第二样本文本类型训练初始类型识别模型，得到类型识别模型。

在本申请实施例中，第二样本关键词可以为预设的关键词；第二样本关键词也可以为其他设备传输至文本生成装置中的关键词；第二样本关键词还可以为文本生成装置接收到的通过人工标注的方式得到的关键词；具体的文本生成装置得到第二样本关键词的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，第二样本文本类型为与第二样本关键词对应的文本类型。第二样本文本类型可以为预设的文本类型；第二样本文本类型也可以为其他设备传输至文本生成装置中的文本类型；第二样本文本类型还可以为文本生成装置接收到的通过人工标注的方式得到的文本类型；具体的文本生成装置得到第二样本文本类型的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置可以只获取一次第二样本关键词和第二样本文本类型。

示例性的，第二样本关键词包括银行、优惠券、10元、1月1日到1月30日、观影、绑卡等。

示例性的，第二样本文本类型包括：公司名称、产品名称、发放物品、数值金额、活动时间或者活动描述等；具体的第二样本文本类型可以根据实际情况进行确定，本申请实施例对此不作限定。

S102、在模板库中存在包含目标文本类型的目标模板的情况下，从模板库中获取目标模板；模板库中的模板为设置有文本类型的文本模板。

在本申请实施例中，文本生成装置确定文本关键词对应的目标文本类型之后，文本生成装置在模板库中存在包含目标文本类型的目标模板的情况下，文本生成装置就从模板库中获取目标模板。

需要说明的是，模板库中的模板为设置有文本类型的文本模板。

在本申请实施例中，文本模板的数量可以为一个，文本模板的数量也可以为两个；文本模板的数量还可以为多个，具体的文本模板的数量可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置从模板库中获取目标模板之前，文本生成装置还会获取第一样本文本；并将第一样本文本输入关键词识别模型，得到第一样本文本对应的第一样本关键词、第一样本类型和第一样本关键词在第一样本文本中的第一位置；文本生成装置将第一样本关键词输入文本生成模型，得到第一输出文本；根据第一输出文本、第一样本文本、第一样本关键词、第一样本类型和第一位置，得到文本模板，并将文本模板添加至模板库。

在本申请实施例中，文本生成装置可以每隔预设时间段获取第一样本文本；文本生成装置也可以为在接收到样本文本获取指令的情况下，文本生成装置就获取第一样本文本；文本生成装置还可以以其他的方式获取第一样本文本；具体的文本生成装置获取第一样本文本的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

需要说明的是，预设时间段可以为文本生成装置中配置的时间段；预设时间段也可以为文本生成装置获取第一样本文本之前，文本生成装置接收到的时间段；预设时间段还可以为文本生成装置以其他的方式获取到的时间段，具体的文本生成装置获取到预设时间段的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

还需要说明的是，预设时间段可以为一周；预设时间段也可以为一个月；预设时间段还可以为一天；具体的预设时间段可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，关键词识别模型可以为文本生成装置中配置的模型；关键词识别模型也可以为文本生成装置接收到的其他设备传输的模型；关键词识别模型还可以为文本生成装置以其他的方式获取到的模型；具体的文本生成装置获取到关键词识别模型的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，关键词识别模型可以为语言表示模型(BidirectionalEncoder Representation from Transformers，BERT)和条件随机场的模型得到的模型；关键词识别模型也可以为其他的可以根据样本文本得到该样本文本对应的样本关键词、样本类型和样本关键词在样本文本中的位置的模型；具体的关键词识别模型可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成模型可以为文本生成装置中配置的模型；文本生成模型也可以为文本生成装置接收到的其他设备传输的模型；文本生成模型还可以为文本生成装置以其他的方式获取到的模型；具体的文本生成装置获取到文本生成模型的方式可以根据实际情况进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成模型可以为Fixed-Keywords BERT模型；文本生成模型也可以为其他的可以根据文本关键词生成输出文本的模型；具体的文本生成模型可以根据实际进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置根据第一输出文本、第一样本文本、第一样本关键词、第一样本类型和第一位置，得到文本模板的过程，包括：文本生成装置利用关键词识别模型确定第一样本关键词在第一输出文本中的第二位置；文本生成装置在第一输出文本中的第二位置处，利用第一样本类型替换第一样本关键词，得到第一模板；文本生成装置在第一样本文本中的第一位置处，利用第一样本类型替换第一样本关键词，得到第二模板；文本生成装置将第一模板和第二模板作为文本模板。

在本申请实施例中，文本生成装置利用关键词识别模型确定第一样本关键词在第一输出文本中的第二位置的方式，可以为文本生成装置将第一输出文本输入关键词识别模型，利用关键词识别模型确定出第一样本关键词在第一输出文本中的第二位置。

在本申请实施例中，第一模板和第二模板可以相同；第一模板和第二模板也可以不同；若第一模板的数量和第二模板的数量都为多个，则第一模板和第二模板还可以存在部分相同模板，部分不同模板；具体的可以根据实际进行确定，本申请实施例对此不作限定。

需要说明的是，第一位置和第二位置可以相同；第一位置和第二位置也可以不同；具体的可以根据实际进行确定，本申请实施例对此不作限定。

在本申请实施例中，文本生成装置将第一样本文本输入关键词识别模型，得到第一样本文本对应的第一样本关键词、第一样本类型和第一样本关键词在第一样本文本中的第一位置之前，文本生成装置还会获取第二样本文本和第二样本文本对应的第二样本关键词、第二样本文本对应的第二样本类型和第二样本关键词在第二样本文本中的第三位置；文本生成装置利用第二样本关键词、第二样本类型、第三位置和第二样本文本训练初始关键词识别模型，得到关键词识别模型。

在本申请实施例中，文本生成装置中配置有{营销词}与{产品/公司名}组合的正则表达式，文本生成装置可以利用该正则表达式从互联网全量数据中获取到第二样本文本，并通过人工的标注的方式，从第二样本文本中标注出对应的第二样本关键词、第二样本类型和第二样本关键词在第二样本文本中的第三位置。然后将第二样本关键词、第二样本类型和第三位置传输至文本生成装置，此时文本生成装置就获取到了第二样本关键词、第二样本类型和第三位置。

在本申请实施例中，营销词为与金融营销相关的词，配置于文本生成装置中的词语，营销词包括：领取、福利、优惠、红包、限时、特价、包邮、充值、券、会员、代金、重磅、好消息、专享、专供、超值、特惠、礼、回馈、兑换、激活、送、补贴、11.11、12.12、双十一、双十二、抽奖、双11、双12、贴心、省钱、折、精品、包邮、暖冬、精美、等你来拿、秒杀、免、券、折、送、礼、赠、店庆、仅限、优惠、兑换、好消息、惊喜、狂欢、惊爆、推出、活动、特价、特别、特惠、来袭、羊毛、直降、省钱、补贴、立减、红包、限时、积分、上线、震撼、手慢无、[低少下让减降].*[息率利费价]、[息率利费价].*[低少下减降]、满.*减、专属、无抵押、来抢、速来、速速、必备、充值、返利、开业、最新。

在本申请实施例中，产品/公司名为与金融相关的产品以及公司名称或简称，以“{产品/公司名}”表示。

示例性的，将{营销词}与{产品/公司名}进行组合的正则表达式可以为：{营销词}.*{产品/公司名}；将{营销词}与{产品/公司名}进行组合的正则表达式也可以为{产品/公司名}.*{营销词}。

需要说明的是，第一样本文本也可以利用该正则表达式每隔预设时间段从互联网全量数据中获取到的样本文本信息。

在本申请实施例中，若第二样本关键词为银行，则对应的第二样本类型为公司名称；若第二样本关键词为优惠券，则对应的第二样本类型为发放物品；若第二样本关键词为10元，则对应的第二样本类型为金额数值；若第二样本关键词为1月1日到1月30日，则对应的第二样本类型为活动时间。

示例性的，若第二样本文本为“公司发福利啦！50元红包，快来领取喔”，则对应的第一个第二样本关键词为公司，对应的第一个第二样本类型为公司名称，对应的第一个第三位置为(0，2)；对应的第二个第二样本关键词为50元，对应的第二个第二样本类型为金额数值，对应的第二个第三位置为(7，10)；对应的第三个第二样本关键词为红包，对应的第三个第二样本类型为发放物品，对应的第三个第三位置为(10，12)。

需要说明的是，第三位置可以为第二样本关键词在第二样本文本中出现的起始和终止位置对。

在本申请实施例中，文本生成装置确定文本关键词对应的目标文本类型之后，文本生成装置在模板库中不包含目标文本类型的目标模板的情况下，确定根据文本关键词形成的至少两个空位置以及至少两个空位置对应的至少两组字符量；文本生成装置按照至少两组字符量对至少两个空位置和关键字进行拼接，得到拼接信息；文本生成装置将拼接信息输入文本生成模型，得到与至少两个空位置对应的至少两组目标字符信息；文本生成装置在拼接信息中的至少两个空位置处添加至少两组目标字符信息，得到目标文本。

需要说明的是，至少两个空位置与至少两组字符量一一对应，即至少一个空位置对应一组字符量。

需要说明的是，在文本关键词的数量为一个的情况下，该文本关键词的左边将存在一个空位置，该文本关键词的右边将存在第二个空位置；在文本关键词的数量为两个的情况下，第一个文本关键词的左边将存在一个空位置，第一个文本关键词和第二个文本关键词之间将存在第二个空位置；第二个文本关键词的右边将存在第三个空位置；….；在文本关键词的数量为N个的情况下，第一个文本关键词的左边将存在一个空位置，第一个文本关键词和第二个文本关键词之间将存在第二个空位置；…；第N-1个文本关键词与第N个文本关键词之间将存在第N个空位置；第N个文本关键词的右边将存在第N+1个空位置。即在文本关键词的数量为N个的情况下，则对应的空位置数量为N+1。

在本申请实施例中，文本生成装置将拼接信息输入文本生成模型，得到与至少两个空位置对应的至少两组目标字符信息的方式，包括文本生成装置将拼接信息输入文本生成模型，利用文本生成模型通过采样的方式得到至少两个空位置中每组空位置上的第一个字，即，得到至少两组第一个字；然后再将至少两组第一个字和拼接信息输入文本生成模型，利用文本生成模型通过采样的方式得到至少两个空位置中的至少两组第二个字，直至利用文本生成模型通过采样的方式得到至少两个空位置中的每一个字，即得到至少两组目标字符信息。

需要说明的是，BERT的结构图2所示：BERT可以分为三个部分：字向量转化部分，编码部分以及监督部分。其中，在接收到输入文本的情况下，先利用字向量转化部分对输入文本进行字向量转化，得到字向量序列(CLS、字1、字2、字3、…、字N)，然后利用BERT的编码部分对字向量序列进行编码，最后利用监督部分确定出编码后的输入文本的文本类别。编码部分是BERT的主体，主要功能是对输入的N+1个字向量进行编码，让所有输入向量之间产生信息交互。编码部分由若干层编码块组成，编码部分中的第一个编码块对字向量序列编码后可以得到第一编码序列(E_CLS、E₁、E₂、E₃、…、E_n)(第一编码序列为图3中距离字向量序列最近的一个编码序列)，编码部分中的最后一个编码块对字向量序列编码后可以得到编码输出序列(E_CLS、E₁、E₂、E₃、…、E_n)(编码输出序列为图3中距离监督部分最近的一个编码序列)。最后，监督部分包括为了完成对BERT的有监督训练所需要的对应于输入文本的标签。图3中展示的是对输入文本进行多类别分类。此时只需要取编码部分输出的编码输出序列,将编码输出序列映射到目标类别(文本类别)，即可以开始有监督训练。监督部分可以根据任务目标进行调整，如进行命名实体识别，问题回答等。

在本申请实施例中，若文本生成模型为Fixed-Keywords BERT模型，文本生成模型的作用为根据给定的模板关键词，生成出包含这些模板关键词的营销文案(即目标文本)。

在本申请实施例中，图3展示了以“银行”、“红包”作为样本关键词进行输入，生成营销文案(输出文本)“快来领银行红包啦！”的有监督训练过程。先对“银行”、“红包”和掩码部分进行字向量转化，得到字向量序列；利用编码部分中的第一个编码块对字向量序列进行编码，得到第一编码序列(E_CLS、E_M、E_M、E_M、E_银、E_行、E_M、E_M、E_M、E_红、E_包、E_M、E_M、E_M)，直至利用编码部分中的最后一个编码块对进行编码得到编码输出序列，利用监督部分对编码输出部分进行监督，从而得到预测结果(快来领、---、啦！-)。

具体的：由于输入仅有“银行”、“红包”两个词，不能构成一条完整的营销文案，但这两个词按顺序所构成的空位(“银行”的左侧，“银行”与“红包”之间，“红包”右侧)都有可能出现构成这条营销文案的字。此时，需要先设置这些空位出现的字的个数的最大值L_M。L_M设置的方法有两种：

第一种为：根据样本文本与样本关键词，确定样本关键词在样本文本中所构成的空位值对应的字个数。例如，对于营销文案“快来领银行红包啦！”，以及其包含的样本关键词：

样本类型：<公司名称>，样本关键词：银行，关键词位置：(3，5)

样本类型：<发放物品>，样本关键词：红包，关键词位置：(5，7)

可以确定出三个空位所包含的字的个数分别为：3，0，2。

第二种为：对所有空位值对应的字个数，取最大值，可以为L_M。然后，使用L_M个掩码向量(记为M)插入所有样本关键词之间构成的空位中。例如，对于输入“银行”、“红包”，可以在“银行”之前，“银行”、“红包”之间，“红包”之后各插入L_M个掩码向量。如图3所示，假设L_M为3，字向量转化部分展示的即为最终包含掩码的结果。

可以理解的是，以最大值为空位值对应的字个数，将会有充足的位置(最足够多的掩码部分)对空位置处的目标字符进行预测，提高了预测目标字符信息时的准确性。

在本申请实施例中，在监督部分，对掩码部分进行字的监督。若样本文案中对应位置的字数小于L_M，则从掩码部分的最左侧开始监督，剩下的位置的监督对象为“-”，如图3中“---”所示，表示此处不存在字。在预测得到掩码部分对应的预测目标字符的情况下，根据去除预测目标字符中的“-”后和样本关键词，即可得到最终的营销文案。

示例性的，文本生成模型训练的过程如图4所示：

S41、文本生成装置获取第二样本文本和第二样本文本对应的第二样本关键词。

S42、文本生成装置利用第二样本关键词构造字向量序列。

示例性的，对于营销文案(第二样本文本)“快来领银行红包啦！”，以及其包含的第二样本关键词：

第二样本类型：<公司名称>，第二样本关键词：银行，第三位置：(3，5)

第二样本类型：<发放物品>，第二样本关键词：红包，第三位置：(5，7)

先按照第二样本关键词在营销文案中的位置从左到右依次转化为字向量，直接将每个字转化为一个200维的向量。两个词的所有字向量都拼接在一起可以构造出长度为4的200维字向量序列。然后，对两个第二样本关键词所构成的所有空位进行掩码向量的填充。

示例性的，若每一个掩码部分的字符数量L_M为3，则对于每个空位，都插入3个200维的掩码向量，全部初始化为全0向量。插入后，可以得到长度为：3(掩码向量序列长度)+2(“银行”向量序列长度)+3(掩码向量序列长度)+2(“红包”向量序列长度)+3(掩码向量序列长度)的200维向量序列，此时，完成了Fixed-Keywords BERT模型的字向量转化部分，也即得到了字向量序列。

S43、文本生成装置根据第二样本文本构建训练标签。

在本申请实施例中，训练标签表示的是期望将数据输入模型之后想获得的结果，即为真实的营销文案。构造字向量序列时对每个空位都插入了掩码，需要保证训练标签与字向量序列在每一个字位上都是对应的。

示例性的，可以构造出向量序列：【M,M,M,银，行，M,M,M，红，包，M,M,M】，那么，其对应的训练标签构造如下：【快，来，领，银，行，-,-,-，红，包，啦,！,-】。其中“-”表示对应位置无字符。

S44、文本生成装置将字向量序列输入初始文本生成模型的编码部分，得到编码输出序列。

S45、文本生成装置将根据编码输出序列和训练标签训练初始文本生成模型，得到了文本生成模型。

需要说明的是，文本生成装置得到编码输出序列之后，文本生成装置就将编码输出序列中的每个向量(除CLS向量外)都映射到字表集合(包括“-”)。

示例性的，将字向量序列【M,M,M,银，行，M,M,M，红，包，M,M,M】输入初始文本生成模型的编码部分后得到的编码输出序列长度为13的200维向量序列。对于每一个向量，乘上一个可训练的矩阵(矩阵形状为：200×(字表大小+1)，1表示“-”)从而把向量映射到目标字表(包括“-”)。之后，就可以确定映射后的向量序列与训练标签：【快，来，领，银，行，-,-,-，红，包，啦,！,-】之间的交叉熵，采用梯度下降等方式即可以对初始文本生成模型参数进行微调更新。在初始文本生成模型收敛(即初始文本生成模型参数无法得到更新)或达到最大的训练步数的情况下，即可以认为初始文本生成模型已经训练完毕，从而得到了文本生成模型。

在本申请实施例中，经过模型训练，Fixed-Keywords BERT模型将会获得以下能力：输入“银行”、“红包”两词，输出“银行”左侧的“快来领”，“银行”、“红包”之间的“---”，“红包”右侧的“啦！-”。其中，“-”表示此处无字符，去掉“-”后的掩码部分与“银行”、“红包”按顺序拼接在一起，即可得到完整的营销文案：“快来领银行红包啦！”。由于“银行”、“红包”作为样本关键词，各自有其对应的样本类型，因此，此处可以进一步将生成好的营销文案中的样本关键词替换为对应的样本类型，即以“<公司名称>”替换“银行”，“<发放物品>”替换“红包”，可得到模板：“快来领<公司名称><发放物品>啦！”。即完成对模板的持久化。具体地，持久化为文本模板的流程图如图5所示：

S51、文本生成装置获取第一样本关键词。

在本申请实施例中，文本生成装置在获取第一样本关键词的同时，还会获取第一样本关键词对应的第一样本类型。具体的，文本生成装置可以将第一样本文本输入关键词识别模型，得到第一样本文本对应的第一样本关键词、第一样本类型。

在本申请实施例中，文本生成装置还需要第一样本关键词序列。示例性的，输入的第一样本关键词形式可以为：

第一样本类型：<公司名称>，第一样本关键词：银行；

第一样本类型：<发放物品>，第一样本关键词：免息券

需要说明的是，输入的第一样本关键词序列是顺序敏感的，即输入的第一样本关键词序列的顺序与其在最终生成的营销文案中出现的顺序是一致的。为了后续生成文本模板，故需要获取第一样本类型。

S52、文本生成装置将第一样本关键词输入文本生成模型，得到第一输出文本。

在本申请实施例中，银行和免息券这两个词按顺序所构成的空位(“银行”的左侧，“银行”与“免息券”之间，“免息券”右侧)出现的字的个数的最大值L_M。若L_M为3，可以构造的字向量序列为：【M,M,M,银，行，M,M,M，免，息，券，M,M,M】。将构造的字向量序列输入Fixed-Keywords BERT模型的编码部分，可以得到最后一个编码层(最后一个编码块)输出的编码输出序列。将编码输出序列中的每一个向量(除E_CLS以及第一样本关键词所在的部分)映射到字表(包括“-”)，并且选择映射后得到的概率值最大的一个字作为对当前位置的预测结果。

示例性的，对应于字向量序列：【M,M,M,银，行，M,M,M，免，息，券，M,M,M】，将位置处于(0，3)，(5，8)，(11，14)的九个向量分别映射到所有字表(包括“-”)上。映射完之后，对于每个字符位置，都有一个表示字表(包括“-”)中各个字可能性的数值(概率)向量，此时概率值最大的那个字即可以当作此处位置预测出来的字。当九个位置都预测出来字之后，再与第一样本关键词组合得到：【-,-,-,银，行，大,额,-，免，息，券，享,不,停】。

需要说明的是，此处去掉表示不存在字符的“-”，即可以得到预测出来的营销文案(第一输出文本为)：“银行大额免息券享不停”。

S53、文本生成装置利用关键词识别模型确定第一样本关键词在第一输出文本中的第二位置。

S54、文本生成装置在第一输出文本中的第二位置处，利用第一样本类型替换第一样本关键词，得到第一模板；并将第一模板作为文本模板。

在本申请实施例中，将预测出来的营销文案：“银行大额免息券享不停”中的第一样本关键词替换为对应的第一样本类型，即“银行”替换为第一样本类型“<公司名称>”，“免息券”替换为第一样本类型“<发放物品>”，可以得到最终的第一模板：“<公司名称>大额<发放物品>享不停”，将第一模板存储起来，即完成对营销文案模板的持久化。

S103、在目标模板中查找目标文本类型的位置，并在位置处利用文本关键词的字段信息替换目标文本类型对应的字段信息，得到包含文本关键词的目标文本。

在本申请实施例中，文本生成装置在模板库中查找包含目标文本类型的目标模板之后，文本生成装置就可以在目标模板中查找目标文本类型的位置，并在位置处利用文本关键词的字段信息替换目标文本类型对应的字段信息，得到包含文本关键词的目标文本。

需要说明的是，目标文本即为与文本生成指令对应的文本。

示例性的，一种示例性的文本生成方法示意图如图6所示：

S61、在接收到文本生成指令的情况下，文本生成装置从文本生成指令中获取文本关键词。

S62、在文本生成指令中未携带目标文本类型的情况下，文本生成装置将文本关键词输入类型识别模型，得到目标文本类型。

S63、在文本生成指令中携带目标文本类型的情况下，文本生成装置从文本生成指令中获取目标文本类型。

S64、在模板库中存在包含目标文本类型的目标模板的情况下，文本生成装置从模板库中获取目标模板。

S65、文本生成装置在目标模板中查找目标文本类型的位置，并在位置处利用文本关键词的字段信息替换目标文本类型对应的字段信息，得到包含文本关键词的目标文本。

S66、在模板库中不包含目标文本类型的目标模板的情况下，文本生成装置确定根据文本关键词形成的至少两个空位置以及至少两个空位置对应的至少两组字符量。

S67、文本生成装置按照至少两组字符量对至少两个空位置和关键字进行拼接，得到拼接信息。

S68、文本生成装置将拼接信息输入文本生成模型，得到与至少两个空位置对应的至少两组目标字符信息。

S69、文本生成装置在拼接信息中的至少两个空位置处添加至少两组目标字符信息，得到目标文本。

示例性的，一种示例性的文本生成方法包括种子阶段和自动训练阶段，如图7所示。其中，种子阶段的是先获取第二样本文本，并对第二样本文本进行人工标注，得到第二样本文本对应的第二样本关键词、第二样本文本对应的第二样本类型和第二样本关键词在第二样本文本中的第三位置；利用第二样本关键词、第二样本类型、第三位置和第二样本文本训练初始关键词识别模型，得到关键词识别模型(训练关键词识别模型)。利用第二样本关键词和第二样本文本类型训练初始类型识别模型，得到类型识别模型(训练类型识别模型)。自动训练阶段是获取第一样本文本，并将第一样本文本输入关键词识别模型，得到第一样本文本对应的第一样本关键词、第一样本类型和第一样本关键词在第一样本文本中的第一位置(利用关键词识别模型对第一样本文本进行标注)；将第一样本关键词输入文本生成模型，得到第一输出文本；利用关键词识别模型确定第一样本关键词在第一输出文本中的第二位置；在第一输出文本中的第二位置处，利用第一样本类型替换第一样本关键词，得到第一模板；在第一样本文本中的第一位置处，利用第一样本类型替换第一样本关键词，得到第二模板；将第一模板和第二模板作为文本模板(得到文本模板)，并将文本模板添加至模板库，以在接收到文本生成指令的情况下，根据文本生成指令中的文本关键词和模板库中目标模板，得到包含文本关键词的目标文本。

可以理解的是，文本生成装置在接收到文本生成指令的情况下，从文本生成指令中获取文本关键词，通过在模板库中查找包括文本关键词对应的目标文本类型的目标模板，并在目标模板中查找目标文本类型的位置，以在该位置处利用文本关键词的字段信息替换目标文本类型对应的字段信息，从而得到包含文本关键词的目标文本，不需要再通过人工的方式来得到文本信息，提高了文本生成装置生成文本信息时的智能性。

实施例二

基于实施例一同一发明构思，本申请实施例提供了一种文本生成装置1，对应于一种文本生成方法；图8为本申请实施例提供的一种文本生成装置的组成结构示意图一，该文本生成装置1可以包括：

获取单元11，用于在接收到文本生成指令的情况下，从所述文本生成指令中获取文本关键词；在模板库中存在包含所述目标文本类型的目标模板的情况下，从所述模板库中获取所述目标模板；所述模板库中的模板为设置有文本类型的文本模板；

确定单元12，用于确定所述文本关键词对应的目标文本类型；

替换单元13，用于在所述位置处利用所述文本关键词的字段信息替换所述目标文本类型对应的字段信息，得到包含所述文本关键词的目标文本。

在本申请的一些实施例中，所述装置还包括输入单元和添加单元；

所述获取单元11，用于获取第一样本文本；

所述输入单元，用于将所述第一样本文本输入关键词识别模型，得到所述第一样本文本对应的第一样本关键词、第一样本类型和所述第一样本关键词在所述第一样本文本中的第一位置；将所述第一样本关键词输入文本生成模型，得到第一输出文本；根据所述第一输出文本、所述第一样本文本、所述第一样本关键词、所述第一样本类型和所述第一位置，得到所述文本模板；

所述添加单元，用于将所述文本模板添加至所述模板库。

在本申请的一些实施例中，所述确定单元12，用于利用关键词识别模型确定所述第一样本关键词在所述第一输出文本中的第二位置；

所述替换单元13，用于在所述第一输出文本中的所述第二位置处，利用所述第一样本类型替换所述第一样本关键词，得到第一模板；在所述第一样本文本中的所述第一位置处，利用所述第一样本类型替换所述第一样本关键词，得到第二模板；将所述第一模板和所述第二模板作为所述文本模板。

在本申请的一些实施例中，所述装置还包括训练单元；

所述获取单元11，用于获取第二样本文本和所述第二样本文本对应的第二样本关键词、所述第二样本文本对应的第二样本类型和第二样本关键词在所述第二样本文本中的第三位置；

所述训练单元，用于利用所述第二样本关键词、所述第二样本类型、所述第三位置和所述第二样本文本训练初始关键词识别模型，得到所述关键词识别模型。

在本申请的一些实施例中，所述装置还包括拼接单元；

所述确定单元12，用于在所述模板库中不包含所述目标文本类型的所述目标模板的情况下，确定根据所述文本关键词形成的至少两个空位置以及所述至少两个空位置对应的至少两组字符量；所述至少两个空位置与所述至少两组字符量一一对应；

所述拼接单元，用于按照所述至少两组字符量对所述至少两个空位置和所述关键字进行拼接，得到拼接信息；

所述输入单元，用于将所述拼接信息输入文本生成模型，得到与所述至少两个空位置对应的至少两组目标字符信息；

所述添加单元，用于在所述拼接信息中的所述至少两个空位置处添加所述至少两组目标字符信息，得到所述目标文本。

在本申请的一些实施例中，所述输入单元，用于在所述文本生成指令中未携带所述目标文本类型的情况下，将所述文本关键词输入类型识别模型，得到所述目标文本类型；

所述获取单元11，用于在所述文本生成指令中携带所述目标文本类型的情况下，从所述文本生成指令中获取所述目标文本类型。

在本申请的一些实施例中，所述获取单元11，用于获取第二样本关键词和第二样本文本类型；

所述训练单元，用于利用所述第二样本关键词和所述第二样本文本类型训练初始类型识别模型，得到所述类型识别模型。

需要说明的是，在实际应用中，上述获取单元11、确定单元12和替换单元13可由文本生成装置1上的处理器14实现，具体为CPU(Central Processing Unit，中央处理器)、MPU(Microprocessor Unit，微处理器)、DSP(Digital Signal Processing，数字信号处理器)或现场可编程门阵列(FPGA，Field Programmable Gate Array)等实现；上述数据存储可由文本生成装置1上的存储器15实现。

本申请实施例还提供了一种文本生成装置1，如图9所示，所述文本生成装置1包括：处理器14、存储器15和通信总线16，所述存储器15通过所述通信总线16与所述处理器14进行通信，所述存储器15存储所述处理器14可执行的程序，当所述程序被执行时，通过所述处理器14执行如上述所述的文本生成方法。

在实际应用中，上述存储器15可以是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard DiskDrive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器14提供指令和数据。

本申请实施例提供了一种计算机可读存储介质，其上有计算机程序，所述程序被处理器14执行时实现如上述所述的文本生成方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述模板库中获取所述目标模板之前，所述方法还包括：

获取第一样本文本；并将所述第一样本文本输入关键词识别模型，得到所述第一样本文本对应的第一样本关键词、第一样本类型和所述第一样本关键词在所述第一样本文本中的第一位置；

将所述第一样本关键词输入文本生成模型，得到第一输出文本；

根据所述第一输出文本、所述第一样本文本、所述第一样本关键词、所述第一样本类型和所述第一位置，得到所述文本模板，并将所述文本模板添加至所述模板库。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一输出文本、所述第一样本文本、所述第一样本关键词、所述第一样本类型和所述第一位置，得到所述文本模板，包括：

利用关键词识别模型确定所述第一样本关键词在所述第一输出文本中的第二位置；

在所述第一输出文本中的所述第二位置处，利用所述第一样本类型替换所述第一样本关键词，得到第一模板；

在所述第一样本文本中的所述第一位置处，利用所述第一样本类型替换所述第一样本关键词，得到第二模板；

将所述第一模板和所述第二模板作为所述文本模板。

4.根据权利要求2所述的方法，其特征在于，所述将所述第一样本文本输入关键词识别模型，得到所述第一样本文本对应的第一样本关键词、第一样本类型和所述第一样本关键词在所述第一样本文本中的第一位置之前，所述方法还包括：

获取第二样本文本和所述第二样本文本对应的第二样本关键词、所述第二样本文本对应的第二样本类型和第二样本关键词在所述第二样本文本中的第三位置；

利用所述第二样本关键词、所述第二样本类型、所述第三位置和所述第二样本文本训练初始关键词识别模型，得到所述关键词识别模型。

5.根据权利要求1所述的方法，其特征在于，所述确定所述文本关键词对应的目标文本类型之后，所述方法还包括：

在所述模板库中不包含所述目标文本类型的所述目标模板的情况下，确定根据所述文本关键词形成的至少两个空位置以及所述至少两个空位置对应的至少两组字符量；所述至少两个空位置与所述至少两组字符量一一对应；

按照所述至少两组字符量对所述至少两个空位置和所述关键字进行拼接，得到拼接信息；

将所述拼接信息输入文本生成模型，得到与所述至少两个空位置对应的至少两组目标字符信息；

在所述拼接信息中的所述至少两个空位置处添加所述至少两组目标字符信息，得到所述目标文本。

6.根据权利要求1所述的方法，其特征在于，所述确定所述文本关键词对应的目标文本类型，包括：

在所述文本生成指令中未携带所述目标文本类型的情况下，将所述文本关键词输入类型识别模型，得到所述目标文本类型；

在所述文本生成指令中携带所述目标文本类型的情况下，从所述文本生成指令中获取所述目标文本类型。

7.根据权利要求6所述的方法，其特征在于，所述将所述文本关键词输入类型识别模型，得到所述目标文本类型之前，所述方法还包括：

获取第二样本关键词和第二样本文本类型；

利用所述第二样本关键词和所述第二样本文本类型训练初始类型识别模型，得到所述类型识别模型。

8.一种文本生成装置，其特征在于，所述装置包括：

确定单元，用于确定所述文本关键词对应的目标文本类型；

9.一种文本生成装置，其特征在于，所述装置包括：

存储器、处理器和通信总线，所述存储器通过所述通信总线与所述处理器进行通信，所述存储器存储所述处理器可执行的文本生成的程序，当所述文本生成的程序被执行时，通过所述处理器执行如权利要求1至7任一项所述的方法。

10.一种存储介质，其上存储有计算机程序，应用于文本生成装置，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。