CN112836519A

CN112836519A - 文本生成模型的训练方法、文本生成方法及装置

Info

Publication number: CN112836519A
Application number: CN202110183523.4A
Authority: CN
Inventors: 张林箭; 张聪; 王丽; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-05-25

Abstract

本发明提供了一种文本生成模型的训练方法、文本生成方法及装置，涉及自然语言处理技术领域，包括：根据预设语料库构建文本数据集；对所述文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合；根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型。本发明可以有效改善现有技术中词造句功能多样化受限的问题，从而提高用户体验。

Description

文本生成模型的训练方法、文本生成方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种文本生成模型的训练方法、文本生成方法及装置。

背景技术

随着人机交互技术的飞速发展，在KBQA(Question Answering over KnowledgeBase，基于知识库的问答)领域，可以利用词造句功能基于用户问题向用户提供完整回答，其中，词造句功能是指基于给定的关键词生成通顺完整的语句。目前，相关技术中提出两种词造句功能的可行思路，其一是将关键词添加至预先配置的固定模板中，即可得到包含有关键词的完整语句，但是存在人工标注成本较大、不利于表述多样化等问题；其一是根据三元组从历史文本中查找到包含有关键词的语句，并基于查找到的语句总结模板，然而这种方案也将导致表述多样化受限。综上所述，现有技术中的词造句功能无法较好地生成多样化的文本，导致用户体验较差。

发明内容

有鉴于此，本发明的目的在于提供一种文本生成模型的训练方法、文本生成方法及装置，可以有效改善现有技术中词造句功能多样化受限的问题，从而提高用户体验。

第一方面，本发明实施例提供了一种文本生成模型的训练方法，包括：根据预设语料库构建文本数据集；对所述文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合；根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型。

在一种实施方式中，所述根据预设语料库构建文本数据集的步骤，包括：利用指定符号对预设语料库中包含的语料进行切句处理，得到多个候选文本数据；基于预设文本长度从各个所述候选文本数据中筛选出目标文本数据，并基于所述目标文本数据构建文本数据集。

在一种实施方式中，所述对所述文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合的步骤，包括：对所述文本数据集中的每个目标文本数据进行关键词提取处理，得到多个关键词；其中，所述关键词提取处理包括分词处理和筛选处理，所述筛选处理包括长度筛选处理和/ 或指定词筛选处理；对各个所述关键词进行关键词乱序处理，得到乱序结果；其中，所述乱序结果与各个关键词的词频-逆文档频率相关；基于所述乱序结果从各个所述关键词中选择随机数量的目标关键词，得到训练关键词集合。

在一种实施方式中，所述对各个所述关键词进行关键词乱序处理，得到乱序结果的步骤，包括：针对每个所述关键词，统计该关键词的词频和逆文档频率，并计算该关键词的词频与该关键词的逆文档频率的乘积，得到该关键词的词频-逆文档频率；将各个所述关键词的词频-逆文档频率作为乱序结果。

在一种实施方式中，所述基于所述乱序结果从各个所述关键词中选择随机数量的目标关键词，得到训练关键词集合的步骤，包括：按照所述乱序结果中词频-逆文档频率由高到低的顺序，从各个所述关键词中选择随机数量的目标关键词，得到训练关键词集合。

在一种实施方式中，所述基于多头注意力机制的深度模型包括第一 GPT-2语言模型，所述第一GPT-2语言模型包括多个GPT-2单元，每个所述GPT-2单元均包括第一多头注意力网络、第一归一化层、第一前馈神经网络和第二归一化层。

在一种实施方式中，所述根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤，包括：对于文本数据集中的每个目标文本数据，按照第一预设格式对该目标文本数据和该目标文本数据所包含的关键词进行拼接，得到该目标文本数据对应的第一输入数据；通过第一GPT-2语言模型基于该目标文本数据对应的第一输入数据，生成该目标文本数据对应的预测文本数据；基于该目标文本数据和该目标文本数据对应的预测文本数据修改第一GPT-2语言模型的参数，得到文本生成模型。

在一种实施方式中，所述基于多头注意力机制的深度模型包括seq2seq 生成模型，所述seq2seq生成模型包括多个编码单元和多个译码单元；每个所述编码单元均包括第二多头注意力网络、第三归一化层、第二前馈神经网络和第四归一化层；每个所述译码单元均包括第三多头注意力网络、第四多头注意力网络、第五归一化层、第三前馈网络和第六归一化层。

在一种实施方式中，所述根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤，包括：对于文本数据集中的每个目标文本数据，按照第二预设格式对该目标文本数据所包含的关键词进行拼接，得到该目标文本数据对应的第二输入数据；通过各个所述编码单元对该目标文本数据对应的第二输入数据进行编码，得到该目标文本数据对应的编码关键词；通过各个所述译码单元基于该目标文本数据和该目标文本数据对应的编码关键词，生成该目标文本数据对应的预测文本数据；基于该目标文本数据和该目标文本数据对应的预测文本数据修改seq2seq生成模型的参数，得到文本生成模型。

在一种实施方式中，在所述根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤之前，所述方法还包括：获取预训练得到的第二GPT-2语言模型，并基于所述第二GPT-2语言模型对基于多头注意力机制的深度模型进行初始化。

第二方面，本发明实施例还提供一种文本生成方法，包括：接收用户输入的待处理关键词集合；通过文本生成模型针对所述待处理关键词集合生成预测文本数据；其中，所述文本生成模型是采用如第一方面提供的任一项所述的文本生成模型的训练方法训练得到的。

第三方面，本发明实施例还提供一种文本生成模型的训练装置，包括：数据集构建模块，用于根据预设语料库构建文本数据集；关键词提取模块，用于对所述文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合；训练模块，用于根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型。

第四方面，本发明实施例还提供一种文本生成装置，包括：关键词接收模块，用于接收用户输入的待处理关键词集合；文本生成模块，用于通过文本生成模型针对所述待处理关键词集合生成预测文本数据；其中，所述文本生成模型是采用如第一方面提供的任一项所述的文本生成模型的训练方法训练得到的。

第五方面，本发明实施例还提供一种智能终端，包括处理器和存储器；所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面提供的任一项所述的方法，或执行如第二方面提供的方法。

第六方面，本发明实施例还提供一种计算机存储介质，用于储存为第一方面提供的任一项所述方法所用的计算机软件指令，或储存为第二方面提供的所述方法所用的计算机软件指令。

本发明实施例提供的一种文本生成模型的训练方法及装置，首先根据预设语料库构建文本数据集，然后对文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合，并根据训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型。上述方法采用基于多头注意力机制的深度模型，通过利用训练关键词集合对基于多头注意力机制的深度模型进行训练，得到的文本生成模型可以预测出多样化的语句，从而有效改善了现有技术中词造句功能多样化受限的问题。

本发明实施例提供的一种文本生成方法及装置，首先接收用户输入的待处理关键词集合，然后通过文本生成模型针对待处理关键词集合生成预测文本数据。上述方法采用可生成多样化语句的文本生成模型对待处理关键词集合进行处理，可以有效提升预测文本数据的多样化，从而有效改善用户体验。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本生成模型的训练方法的流程示意图；

图2为本发明实施例提供的一种关键词与文本之间的关系示意图；

图3为本发明实施例提供的一种第一GPT-2语言模型结构示意图；

图4为本发明实施例提供的一种seq2seq生成模型的结构示意图；

图5为本发明实施例提供的一种文本生成方法的流程示意图；

图6a为本发明实施例提供的一种第一GPT-2语言模型的应用示例图；

图6b为本发明实施例提供的一种Seq2seq生成模型的应用示例图；

图7a为本发明实施例提供的另一种第一GPT-2语言模型的应用示例图；

图7b为本发明实施例提供的另一种Seq2seq生成模型的应用示例图；

图8为本发明实施例提供的一种文本生成模型的训练装置的结构示意图；

图9为本发明实施例提供的一种文本生成装置的结构示意图；

图10为本发明实施例提供的一种智能终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在KBQA领域可以利用词造句功能基于用户问题向用户提供完整回答，例如，预先配置初始三元组<头实体，关系，尾实体>，若用户提出问题“你知道姚XX的女儿是谁吗”，知识库中将存在三元组<姚XX，女儿，姚YY>，此时可以向用户反馈“姚XX的女儿是姚YY。”、“姚XX女儿的名字是姚YY。”或者“姚YY是姚XX的女儿。”等合理通顺的句子。另外，在AI(Artificial Intelligence，人工智能)引擎中也存在基于动作序列的关键词生成合理描述的需求，例如，对于“攻击，水晶塔，掉血”，可以输出“敌人攻击水晶塔，水晶塔掉血”等语句，从而有助于根据关键词辅助生成游戏解说。

一种相关技术中提出，可以将关键词添加至预先配置的固定模板中，以得到包含有关键词的完整语句，例如对于“女儿”这个关系，可以预先配置固定模板“<头实体>的女儿是<尾实体>”或者“<尾实体>是<头实体> 的女儿”等，但是，直接设计固定模板的缺陷在于需要大量的人工标注，由于知识图谱中的关系非常多，而且随着时代的发展可能会出现一些新关系，因此这种方式将消耗较多的成本用于人工标注，同时这种方式也不利于表述的多样化。另外这种方式通常适用于格式标准的三元组，若三元组乱序或者关键词不是三元组形式则不适用，例如当关键词为两个名词或者动词，由于该关键词不属于一个三元组关系，此时将无法生成相应语句。

另一种相关技术中提出，可以根据三元组从历史文本中查找到包含有关键词的语句，并基于查找到的语句总结模板。比如百科中一般包含有对于每个实体的文本描述，以关系“女儿”为例，百科中可能包含有“姚XX 公布了女儿的名字为姚YY”、“田MM公布了女儿的名字为田NN”等，此时可将将出现次数较多的语句总结为模板，即为“<头实体>公布了女儿的名字为<尾实体>”。这种方法虽然无需人工标注，但是在实际应用中很难刚好查找到包含关键词的语句，即便可以查找到包含关键词的语句，查找的语句中可能还包含有额外信息，导致无法较好地提取出一个通用模板。比如“2013年田XX携女儿田NN参加亲子户外真人秀”和“2011年4月21 日，姚XX在上海梅陇基地召开了回国后的首次媒体见面会，公布了女儿的名字：姚YY。”这两个语句确实满足了包含关键词的要求，但是还包含很多额外的信息，导致这两个语句虽然描述的是一个关系“女儿”，但是无法直接抽象出模板。另外，对于非三元组的关键词，这种方法只能将匹配上关键词的语句直接返回给用户，不仅多样性受限，而且极大可能搜索不到对应语句或者搜索到的语句不合适。

基于此，本发明实施提供了一种文本生成模型的训练方法、文本生成方法及装置，可以有效改善现有技术中词造句功能多样化受限的问题，从而提高用户体验。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种文本生成模型的训练方法进行详细介绍，参见图1所示的一种文本生成模型的训练方法的流程示意图，该方法主要包括以下步骤S102至步骤S106：

步骤S102，根据预设语料库构建文本数据集。其中，预设语料库中可以包含有大量语料，诸如维基中文语料等，文本数据集可以包括多个目标文本数据。在一些实施方式中，可以对预设语料库中所包含的语料进行切句处理，将切句处理得到的语句作为目标文本数据，从而利用目标文本数据构建文本数据集；也可以对切句处理得到的语句进行长度限制，并将满足预设文本长度的语句作为目标文本数据，从而利用目标文本数据构建文本数据集。

步骤S104，对文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合。为了模拟在真实应用场景中用户给定的关键词数量不确定的情况，本发明实施例提取关键词的数量可以随意指定。在一种可选的实施方式中，TFIDF(Term Frequency–InverseDocument Frequency，词频-逆文档频率)抽取算法对文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合。

步骤S106，根据训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型。在一种实施方式中，可以将训练关键词集合中的关键词作为输入，将文本数据集中包含有该关键词的目标文本数据作为标签，从而使基于多头注意力机制的深度模型学习关键词与目标文本数据之间的映射关系，完成深度模型的训练。

本发明实施例提供的上述文本生成模型的训练方法，采用基于多头注意力机制的深度模型，通过利用训练关键词集合对基于多头注意力机制的深度模型进行训练，得到的文本生成模型可以预测出多样化的语句，从而有效改善了现有技术中词造句功能多样化受限的问题。

考虑到现有技术中在直接使用固定模板时需要大量人工标注，导致人工成本较大，本发明实施例提供了一种根据预设语料库构建文本数据集的实施方式，可以采用自动化流程构建文本数据集，从而避免了大量的人工标注成本。在一种具体的实施方式中，可以利用指定符号对预设语料库中包含的语料进行切句处理，得到多个候选文本数据，然后基于预设文本长度从各个候选文本数据中筛选出目标文本数据，并基于目标文本数据构建文本数据集。可选的，上述指定符号也即指定的标点符号，指定符号可以为句号和/或分号，例如，对于语料“数学是利用符号语言研究数量、结构、变化以及空间等概念的一门学科，从某种角度看属于形式科学的一种。数学透过抽象化和逻辑推理的使用，由计数、计算、量度和对物体形状及运动的观察而产生”，按照指定符号对上述语料进行切句处理，假设切句处理后可以得到11978461个候选文本数据。另外，由于候选文本数据过短时，将导致生成的文本实质为一个短语而非语句，例如给定关键词“落叶，小船”时生成“落叶的小船”，以及由于候选文本数据过长时，将导致增加深度模型学习和生成文本的难度，且候选文本数据过长可能引入较多无关信息，因此，本发明实施例还可以基于预设文本长度从各个候选文本数据中筛选出目标文本数据，并基于目标文本数据构建文本数据集，在一种可选的实施方式中，可以将语句长度小于第一预设文本长度的候选文本数据删除，和/或，将语句长度大于预设文本长度的候选文本数据删除，例如，将语句长度小于10的候选文本数据和语句长度大于40的候选文本数据均删除，得到最终的文本数据集。

为了避免基于模板匹配的方法无法覆盖非三元组或三元组乱序的情况，本发明实施例可以采用关键词提取处理和关键词乱序处理等处理方式获取训练关键词集合，在一种实施方式中，可以参照如下步骤1至步骤3 执行对文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合的步骤：

步骤1，对文本数据集中的每个目标文本数据进行关键词提取处理，得到多个关键词。其中，关键词提取处理包括分词处理和筛选处理，筛选处理包括长度筛选处理和/或指定词筛选处理，长度筛选处理可以理解为将不满足预设词汇长度的词汇删除，指定词筛选处理可以理解为将指定词汇删除。例如，对于每个目标文本数据，采用jieba的TFIDF关键词提取算法从目标文本数据中抽取出3个关键词，之后这些关键词保留0到3个。在一种实施方式中，可以获取jieba工具包中提供的词IDF(Inverse Document Frequency，逆文档频率)表和停用词表，其中，停用词表中包含有不需要的词汇(诸如“的”)，对于文本数据集中的每个目标文本数据，对该目标文本数据进行分词处理得到多个词汇，然后将词汇长度不满足预设词汇长度的词汇删除和/或将指定词汇删除，例如，将词汇长度小于2的词汇和停用词均删除，从而得到多个关键词。

步骤2，对各个关键词进行关键词乱序处理，得到乱序结果。其中，关键词乱序处理也即打乱各个关键词的顺序，乱序结果与各个关键词的词频- 逆文档频率相关。在一些实施方式中，计算每个关键词的词频-逆文档频率，此时可以将各个关键词的词频-逆文档频率作为乱序结果，也可以按照各个关键词的词频-逆文档频率的大小对各个关键词进行排序，从而将排序结果作为乱序结果。由于乱序结果与各个关键词的词频-逆文档频率相关，而各个关键词的词频-逆文档频率可能相同或不同，若在确定目标关键词时可以按照词频-逆文档频率由高到低的顺序进行选择，则相当于是对关键词进行了关键词乱序处理。

为便于对上述步骤2进行理解，本发明实施例提供了一种对各个关键词进行关键词乱序处理，得到乱序结果的实施方式，可以针对每个关键词，统计该关键词的词频和逆文档频率，并计算该关键词的词频与该关键词的逆文档频率的乘积，得到该关键词的词频-逆文档频率，然后将各个关键词的词频-逆文档频率作为乱序结果。在一种实施方式中，本发明实施例提供了一种统计关键词的词频的步骤，可以按照如下公式统计关键词的词频TF：

其中，count(w)就是关键词w在目标文本数据Di 中出现的次数，分母就是该目标文本数据中所有关键词的数量。

其中，逆文档频率体现了关键词的区分度，若关键词在大量的语料中频繁出现，那么该关键词无区分性，此时IDF值偏低。在一种实施方式中，本发明实施例提供了一种统计关键词的逆文档频率的步骤，可以按照如下公式统计关键词的逆文档频率IDF：

其中，N指预设语料库中语料的数量，I(w,Di) 指关键词w是否出现在目标文本数据Di中，如果出现则I(w,Di)＝1，如果为出现则I(w,Di)＝0，因此分母代表关键词w出现在多少个语料中。若某关键词未出现在IDF表中，则直接默认该关键词的IDF值为IDF表的中位数，例如IDF表中有5个关键词，每个关键词对应一个IDF值：(布达，8)、(渡船，6)、(交通，3)、(非常，0.5)、(的，0.1)。此时关键词“佩斯”没有出现在IDF表中，则取中位数(交通，3)的IDF值3作为关键词“佩斯”的IDF值。

在实际应用中，关键词的词频-逆文档频率(TFIDF)体现关键词的重要程度，例如，当某关键词在当前语料中出现次数较多，在其余语料中出现次数较少，则该关键词更能体现当前语料的特征，因此该关键词的词频- 逆文档频率值较高。

步骤3，基于乱序结果从各个关键词中选择随机数量的目标关键词，得到训练关键词集合。在一种实施方式中，如果乱序结果为各个关键词的词频-逆文档频率，则可以按照乱序结果中词频-逆文档频率由高到低的顺序，从各个关键词中选择随机数量的目标关键词，得到训练关键词集合，例如，根据TFIDF值由高到低输出对应的关键词，并选择前K个关键词作为目标关键词。本发明实施例在构建训练关键词集合时，对提取到的关键词进行关键词乱序处理，同时使最终确定的关键词数量不固定，可以较好地应对实际应用中关键词数量变化的情况。

在一种实施方式中，为充分利用大料语料的先验信息，在根据训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤之前，还可以获取预训练得到的第二GPT-2语言模型，并基于第二 GPT-2语言模型对基于多头注意力机制的深度模型进行初始化。可选的，利用预训练的第二GPT-2语言模型来初始化第一GPT-2语言模型和seq2seq 生成模型的参数，相较于直接随机初始化，本发明实施例能够利用上大量语料的先验信息，从而较好地学习到通顺语句的表述。

在深度模型的训练阶段，需要基于上述训练关键词集合中包含的关键词生成文本，示例性的，参见图2所示的一种关键词与文本之间的关系示意图，首先从文本“佩斯与布达之间的渡船交通非常繁忙”中抽取关键词“布达，佩斯，渡船”，然后基于关键词“布达，佩斯，渡船”生成文本“佩斯与布达之间的渡船交通非常繁忙”。在一种实施方式中，上述基于多头注意力机制的深度模型可以包括第一GPT-2语言模型或seq2seq(Sequence toSequence，序列到序列)生成模型，在此基础上，本发明实施例针对第一 GPT-2语言模型或seq2seq生成模型分别提供了一种根据训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的实施方式，如下所示：

方式一：如果基于多头注意力机制的深度模型包括第一GPT-2语言模型，参见图3所示的一种第一GPT-2语言模型结构示意图，图3中示意出了第一GPT-2语言模型包括多个GPT-2单元，每个GPT-2单元均包括第一多头注意力网络(Masked Multi-Head Attention)、第一归一化层(Layer normalization)、第一前馈神经网络(Feed Forward)和第二归一化层，另外，图3中还示意出第一GPT-2语言模型还包括第一线性(Linear)层和第一Softmax层。

其中，第一多头注意力网络的输入为第一输入数据，多头注意力机制由多个Head并行来得到每个关键词的新表示，具体的，对于一个Head(头)，根据关键词的上下文对该关键词的重要性程度给予不同的权重，之后对该关键词的上下文进行加权求和得到该关键词的新表示；第一归一化层的输入为上述第一输入数据和第一多头注意力网络输出的特征的按位相加结果，归一化层的作用为对每个关键词的表示进行归一化，具体的，对于该关键词的第i维值来说，就是减去该关键词所有维数的均值，并除以方差，从而实现对该关键词的表示进行归一化；第一前馈神经网络的输入为第一归一化层输出的特征，前馈神经网络的作用为对输入的特征进行两次非线性转换；第二归一化层的输入为第一归一化层输出的特征和第一前馈神经网络输出的特征的按位相加结果，第一线性层的输入为第二归一化层输出的特征，第一Softmax层的输入为第一线性层输出的特征。

在图3的基础上，在执行根据训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤时，可参照如下步骤a1至步骤a3：

步骤a1，对于文本数据集中的每个目标文本数据，按照第一预设格式对该目标文本数据和该目标文本数据所包含的关键词进行拼接，得到该目标文本数据对应的第一输入数据。可选的，第一预设格式可以为将该目标文本数据所包含的各个关键词用逗号连接，并用“【】”符号包裹关键词，同时在“【】”后连接该目标文本数据，例如，拼接得到的第一输入数据为“<s> 【布达，佩斯，渡船】佩斯与布达之间的渡船交通非常繁忙”，其中“<s>”表示目标文本数据的开头，“</s>”表示目标文本数据的结尾。

步骤a2，通过第一GPT-2语言模型基于该目标文本数据对应的第一输入数据，生成该目标文本数据对应的预测文本数据。在一种实施方式中，可以对第一输入数据进行分割处理，可选的，可以按照空格对第一输入数据进行分割处理，例如，将上述第一输入数据中每个字符之间添加空格，得到“<s>【布达，佩斯，渡船】佩斯与布达之间的渡船交通非常繁忙”，此时按照空格对其进行分割处理，即可得到多个词向量，其中，每个字符或字均对应一个词向量，然后将各个词向量依次输入至第一GPT-2语言模型，此时第一GPT-2语言模型可以根据给定的前 t个时间步的词向量，预测下一个时间步的词向量的概率，假设词汇表共有“【，佩，非，之，交”5个词向量，第一GPT-2语言模型将根据给定的词向量“<s>”计算生成词向量“【”的概率、生成词向量“佩”的概率、生成词向量“非”的概率、生成词向量“之”的概率、生成词向量“交”的概率，应当注意的事，词汇表中所包含的各个词向量的概率和为1。另外，对于根据给定的前t个时间步的词向量，可以基于各个词向量的概率从中选择下一个时间步的词向量，以此类推，直至生成预测文本数据。

步骤a3，基于该目标文本数据和该目标文本数据对应的预测文本数据修改第一GPT-2语言模型的参数，得到文本生成模型。在一种实施方式中，可以计算该目标文本数据和预测文本数据之间的损失函数，从而基于反向传播算法修改第一GPT-2语言模型的参数，得到文本生成模型。

方式二，如果基于多头注意力机制的深度模型包括seq2seq生成模型，参见图4所示的一种seq2seq生成模型的结构示意图，图4中示意出了 seq2seq生成模型包括多个编码单元(Encoder)和多个译码单元(Decoder)，编码单元用于对关键词进行编码得到编码关键词，译码单元用于对编码关键词进行解码。每个编码单元均包括第二多头注意力网络、第三归一化层、第二前馈神经网络和第四归一化层，每个译码单元均包括第三多头注意力网络(Masked Multi-Head Attention)、第四多头注意力网络(Multi-Head Attention)、第五归一化层、第三前馈网络和第六归一化层，另外，图4中还示意出seq2seq生成模型还包括第二线性层和第二Softmax层。

其中，第二多头注意力网络的输入为第二输入数据；第三归一化层的输入为上述第二输入数据和第二多头注意力网络输出的特征的按位相加结果；第二前馈神经网络的输入为第三归一化层输出的特征；第四归一化层的输入为第三归一化层输出的特征和第二前馈神经网络输出的特征的按位相加结果；第四多头注意力网络的输入为该目标文本数据；第三多头注意力网络的输入为该目标文本数据和第四归一化层输出的编码关键词；第五归一化层的输入为第三多头注意力网络输出的特征和第四多头注意力网络输出的特征的按位相加结果；第三前馈网络的输入为第五归一化层输出的特征；第六归一化层的输入为第三前馈网络输出的特征和第五归一化层输出的特征的按位相加结果；第二线性层的输入为第六归一化层输出的特征，第二Softmax层的输入为第二线性层输出的特征。

在图4的基础上，在执行根据训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤时，可参照如下步骤b1至步骤b4：

步骤b1，对于文本数据集中的每个目标文本数据，按照第二预设格式对该目标文本数据所包含的关键词进行拼接，得到该目标文本数据对应的第二输入数据。可选的，第二预设格式可以为将该目标文本数据所包含的各个关键词用逗号连接，例如，拼接得到的第二输入数据keywords为“<s> 布达，佩斯，渡船</s>”。

步骤b2，通过各个编码单元对该目标文本数据对应的第二输入数据进行编码，得到该目标文本数据对应的编码关键词。可选的，可以按照空格对第二输入数据进行分割处理，具体可参见前述步骤a2，本发明实施例在此不再赘述。在一种实施方式中，编码单元先用多头注意力机制编码关键词，之后进行层归一化操作，再之后经过前馈神经网络和层归一化，得到关键词的表示(也即，上述编码关键词)。

步骤b3，通过各个译码单元基于该目标文本数据和该目标文本数据对应的编码关键词，生成该目标文本数据对应的预测文本数据。其中，该目标文本数据Sentence可以表示为““<s>佩斯与布达之间的渡船交通非常繁忙”。在一种实施方式中，译码单元的输入为关键词的表示和该目标文本数据，之后的操作和编码单元类似，具体可参见前述步骤b2，最后经过线性层将向量的维数变为词汇表的大小，也即得到词汇表中每个字的分数，再经过Softmax层对各个字的分数进行归一化操作，使得各个字的概率之和为 1，从而得到词汇表中每个字的概率，进而可以得到预测文本数据。

步骤b4，基于该目标文本数据和该目标文本数据对应的预测文本数据修改seq2seq生成模型的参数，得到文本生成模型。在一种实施方式中，可以计算该目标文本数据和预测文本数据之间的损失函数，从而基于反向传播算法修改seq2seq生成模型的参数，得到文本生成模型。

在一种可选的实施方式中，上述训练任务的目标均是深度模型的损失最小化，以期待深度模型能够较好地学习文本的生成过程。

在前述实施例提供的文本生成模型的训练方法的基础上，本发明实施例还提供了一种文本生成方法，参见图5所示的一种文本生成方法的流程示意图，该方法主要包括以下步骤S502至步骤S504：

步骤S502，接收用户输入的待处理关键词集合。在一种实施方式中，可以为用户提供用户交互界面，从而通过该用户交互界面接收待处理关键词集合。

步骤S504，通过文本生成模型针对待处理关键词集合生成预测文本数据。其中，文本生成模型是采用前述实施例提供的文本生成模型的训练方法训练得到的。如果文本生成模型包括第一GPT-2语言模型，则对于待处理关键词集合，第一GPT-2语言模型每次生成一个字，之后基于已经生成的所有字继续生成下一个字。如果文本生成模型包括Seq2seq生成模型，则对于待处理关键词集合，Seq2seq生成模型对关键词进行编码，并在预测下一个字时分别关注关键词和已经生成的字。

本发明实施例提供的上述文本生成方法，采用可生成多样化语句的文本生成模型对待处理关键词集合进行处理，可以有效提升预测文本数据的多样化，从而有效改善用户体验。

为便于理解，本发明实施例示例性提供了一种文本生成模型的应用实例，参见图6a所示的一种第一GPT-2语言模型的应用示例图，图6a中示意出当关键词包括“大海”和“扁舟”时，响应用户针对generate(生成)控件的点击操作将利用第一GPT-2语言模型生成文本“扁舟载我去千山，望大海”；参见图6b所示的一种Seq2seq生成模型的应用示例图，图6b中示意出当关键词包括“大海”和“扁舟”时，响应用户针对generate(生成)控件的点击操作将利用Seq2seq生成模型生成文本“扁舟过大海，不止所终”。参见图7a所示的另一种第一GPT-2语言模型的应用示例图，图7a中示意出当关键词包括“姚XX”、“女儿”和“姚YY”时，响应用户针对generate(生成) 控件的点击操作将利用第一GPT-2语言模型生成文本“姚YY是姚XX的女儿”；参见图7b所示的另一种Seq2seq生成模型的应用示例图，图7b中示意出当关键词包括“姚XX”、“女儿”和“姚YY”时，响应用户针对generate (生成)控件的点击操作将利用Seq2seq生成模型生成文本“姚XX已婚，有一个女儿姚YY”。

综上所述，本发明实施例至少具有以下特点：

(1)本发明实施例可以自动化构建数据集，避免了大量的人工标注成本，而且维基百科的文本质量相对较高，有利于学习文本的描述。

(2)本发明实施例在构建训练关键词集合时进行打乱操作，且关键词数量不固定，以较好地应对实际应用中关键词数量变化的情况。同时避免了直接基于模板匹配的方法无法覆盖非三元组或三元组乱序的情况。而且先从文本抽取关键词，再通过关键词生成文本，可以有效避免从文本构建模板时找到的语句过于具体、语句包含冗余信息或找不到合适语句等情况。

(3)本发明实施例提供的深度模型均采用了多头注意力机制来进行编码语义信息，能够更好的捕获长距离语义信息。另外，用户交互方式更加的人性化。再者，本发明实施例用预训练的第二GPT-2语言模型来初始化深度模型的参数，能够利用上大量语料的先验信息，从而学习到通顺语句的表述。

对于前述实施例提供的文本生成模型的训练方法，本发明实施例提供了一种文本生成模型的训练装置，参见图8所示的一种文本生成模型的训练装置的结构示意图，该装置主要包括以下部分：

数据集构建模块802，用于根据预设语料库构建文本数据集。

关键词提取模块804，用于对文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合。

训练模块806，用于根据训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型。

本发明实施例提供的上述文本生成模型的训练装置，采用基于多头注意力机制的深度模型，通过利用训练关键词集合对基于多头注意力机制的深度模型进行训练，得到的文本生成模型可以预测出多样化的语句，从而有效改善了现有技术中词造句功能多样化受限的问题。

在一种实施方式中，数据集构建模块802还用于：利用指定符号对预设语料库中包含的语料进行切句处理，得到多个候选文本数据；基于预设文本长度从各个候选文本数据中筛选出目标文本数据，并基于目标文本数据构建文本数据集。

在一种实施方式中，关键词提取模块804还用于：对文本数据集中的每个目标文本数据进行关键词提取处理，得到多个关键词；其中，关键词提取处理包括分词处理和筛选处理，筛选处理包括长度筛选处理和/或指定词筛选处理；对各个关键词进行关键词乱序处理，得到乱序结果；其中，乱序结果与各个关键词的词频-逆文档频率相关；基于乱序结果从各个关键词中选择随机数量的目标关键词，得到训练关键词集合。

在一种实施方式中，关键词提取模块804还用于：针对每个关键词，统计该关键词的词频和逆文档频率，并计算该关键词的词频与该关键词的逆文档频率的乘积，得到该关键词的词频-逆文档频率；将各个关键词的词频-逆文档频率作为乱序结果。

在一种实施方式中，关键词提取模块804还用于：按照乱序结果中词频-逆文档频率由高到低的顺序，从各个关键词中选择随机数量的目标关键词，得到训练关键词集合。

在一种实施方式中，基于多头注意力机制的深度模型包括第一GPT-2 语言模型，第一GPT-2语言模型包括多个GPT-2单元，每个GPT-2单元均包括第一多头注意力网络、第一归一化层、第一前馈神经网络和第二归一化层。

在一种实施方式中，训练模块806还用于：对于文本数据集中的每个目标文本数据，按照第一预设格式对该目标文本数据和该目标文本数据所包含的关键词进行拼接，得到该目标文本数据对应的第一输入数据；通过第一GPT-2语言模型基于该目标文本数据对应的第一输入数据，生成该目标文本数据对应的预测文本数据；基于该目标文本数据和该目标文本数据对应的预测文本数据修改第一GPT-2语言模型的参数，得到文本生成模型。

在一种实施方式中，基于多头注意力机制的深度模型包括seq2seq生成模型，seq2seq生成模型包括多个编码单元和多个译码单元；每个编码单元均包括第二多头注意力网络、第三归一化层、第二前馈神经网络和第四归一化层；每个译码单元均包括第三多头注意力网络、第四多头注意力网络、第五归一化层、第三前馈网络和第六归一化层。

在一种实施方式中，训练模块806还用于：对于文本数据集中的每个目标文本数据，按照第二预设格式对该目标文本数据所包含的关键词进行拼接，得到该目标文本数据对应的第二输入数据；通过各个编码单元对该目标文本数据对应的第二输入数据进行编码，得到该目标文本数据对应的编码关键词；通过各个译码单元基于该目标文本数据和该目标文本数据对应的编码关键词，生成该目标文本数据对应的预测文本数据；基于该目标文本数据和该目标文本数据对应的预测文本数据修改seq2seq生成模型的参数，得到文本生成模型。

在一种实施方式中，上述装置还包括初始化模块，用于：获取预训练得到的第二GPT-2语言模型，并基于第二GPT-2语言模型对基于多头注意力机制的深度模型进行初始化。

对于前述实施例提供的文本生成方法，本发明实施例提供了一种文本生成装置，参见图9所示的一种文本生成装置的结构示意图，该装置主要包括以下部分：

关键词接收模块902，用于接收用户输入的待处理关键词集合。

文本生成模块904，用于通过文本生成模型针对待处理关键词集合生成预测文本数据；其中，文本生成模型是采用如前述实施例提供的文本生成模型的训练方法训练得到的。

本发明实施例提供的上述文本生成装置，采用可生成多样化语句的文本生成模型对待处理关键词集合进行处理，可以有效提升预测文本数据的多样化，从而有效改善用户体验。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供了一种智能终端，具体的，该智能终端包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图10为本发明实施例提供的一种智能终端的结构示意图，该智能终端 200包括：处理器100，存储器101，总线102和通信接口103，所述处理器100、通信接口103和存储器101通过总线102连接；处理器100用于执行存储器101中存储的可执行模块，例如计算机程序。

其中，存储器101可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器101用于存储程序，所述处理器100在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器100中，或者由处理器100实现。

处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器 (Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本生成模型的训练方法，其特征在于，包括：

根据预设语料库构建文本数据集；

对所述文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合；

根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型。

2.根据权利要求1所述的方法，其特征在于，所述根据预设语料库构建文本数据集的步骤，包括：

利用指定符号对预设语料库中包含的语料进行切句处理，得到多个候选文本数据；

基于预设文本长度从各个所述候选文本数据中筛选出目标文本数据，并基于所述目标文本数据构建文本数据集。

3.根据权利要求1所述的方法，其特征在于，所述对所述文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合的步骤，包括：

对所述文本数据集中的每个目标文本数据进行关键词提取处理，得到多个关键词；其中，所述关键词提取处理包括分词处理和筛选处理，所述筛选处理包括长度筛选处理和/或指定词筛选处理；

对各个所述关键词进行关键词乱序处理，得到乱序结果；其中，所述乱序结果与各个关键词的词频-逆文档频率相关；

基于所述乱序结果从各个所述关键词中选择随机数量的目标关键词，得到训练关键词集合。

4.根据权利要求3所述的方法，其特征在于，所述对各个所述关键词进行关键词乱序处理，得到乱序结果的步骤，包括：

针对每个所述关键词，统计该关键词的词频和逆文档频率，并计算该关键词的词频与该关键词的逆文档频率的乘积，得到该关键词的词频-逆文档频率；

将各个所述关键词的词频-逆文档频率作为乱序结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述乱序结果从各个所述关键词中选择随机数量的目标关键词，得到训练关键词集合的步骤，包括：

按照所述乱序结果中词频-逆文档频率由高到低的顺序，从各个所述关键词中选择随机数量的目标关键词，得到训练关键词集合。

6.根据权利要求1所述的方法，其特征在于，所述基于多头注意力机制的深度模型包括第一GPT-2语言模型，所述第一GPT-2语言模型包括多个GPT-2单元，每个所述GPT-2单元均包括第一多头注意力网络、第一归一化层、第一前馈神经网络和第二归一化层。

7.根据权利要求6所述的方法，其特征在于，所述根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤，包括：

对于文本数据集中的每个目标文本数据，按照第一预设格式对该目标文本数据和该目标文本数据所包含的关键词进行拼接，得到该目标文本数据对应的第一输入数据；

通过第一GPT-2语言模型基于该目标文本数据对应的第一输入数据，生成该目标文本数据对应的预测文本数据；

基于该目标文本数据和该目标文本数据对应的预测文本数据修改第一GPT-2语言模型的参数，得到文本生成模型。

8.根据权利要求1所述的方法，其特征在于，所述基于多头注意力机制的深度模型包括seq2seq生成模型，所述seq2seq生成模型包括多个编码单元和多个译码单元；

每个所述编码单元均包括第二多头注意力网络、第三归一化层、第二前馈神经网络和第四归一化层；每个所述译码单元均包括第三多头注意力网络、第四多头注意力网络、第五归一化层、第三前馈网络和第六归一化层。

9.根据权利要求8所述的方法，其特征在于，所述根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤，包括：

对于文本数据集中的每个目标文本数据，按照第二预设格式对该目标文本数据所包含的关键词进行拼接，得到该目标文本数据对应的第二输入数据；

通过各个所述编码单元对该目标文本数据对应的第二输入数据进行编码，得到该目标文本数据对应的编码关键词；

通过各个所述译码单元基于该目标文本数据和该目标文本数据对应的编码关键词，生成该目标文本数据对应的预测文本数据；

基于该目标文本数据和该目标文数据对应的预测文本数据修改seq2seq生成模型的参数，得到文本生成模型。

10.根据权利要求1所述的方法，其特征在于，在所述根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型的步骤之前，所述方法还包括：

获取预训练得到的第二GPT-2语言模型，并基于所述第二GPT-2语言模型对基于多头注意力机制的深度模型进行初始化。

11.一种文本生成方法，其特征在于，包括：

接收用户输入的待处理关键词集合；

通过文本生成模型针对所述待处理关键词集合生成预测文本数据；其中，所述文本生成模型是采用如权利要求1-10任一项所述的文本生成模型的训练方法训练得到的。

12.一种文本生成模型的训练装置，其特征在于，包括：

数据集构建模块，用于根据预设语料库构建文本数据集；

关键词提取模块，用于对所述文本数据集中的每个目标文本数据提取关键词，得到训练关键词集合；

训练模块，用于根据所述训练关键词集合对基于多头注意力机制的深度模型进行训练，得到文本生成模型。

13.一种文本生成装置，其特征在于，包括：

关键词接收模块，用于接收用户输入的待处理关键词集合；

文本生成模块，用于通过文本生成模型针对所述待处理关键词集合生成预测文本数据；其中，所述文本生成模型是采用如权利要求1-10任一项所述的文本生成模型的训练方法训练得到的。

14.一种智能终端，其特征在于，包括处理器和存储器；

所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至10任一项所述的方法，或执行如权利要求11所述的方法。

15.一种计算机存储介质，其特征在于，用于储存为权利要求1至10任一项所述方法所用的计算机软件指令，或储存为权利要求11所述方法所用的计算机软件指令。