CN114942986B

CN114942986B - 文本生成方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN114942986B
Application number: CN202210702193.XA
Authority: CN
Inventors: 谯轶轩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2024-03-19
Anticipated expiration: 2042-06-21
Also published as: CN114942986A

Abstract

本申请公开了一种文本生成方法、装置、计算机设备及计算机可读存储介质，涉及人工智能技术领域，利用上下文信息的关联，通过融合近邻词的概率，辅助输出质量高的文本。所述方法包括：获取待识别信息，确定多个样本上文向量；读取每个样本上文向量关联的样本下文信息，计算每个样本上文向量关联的样本下文信息的生成概率；获取语言生成模型，基于语言生成模型对待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率；确定文本内容一致的样本下文信息和预测下文信息，对生成概率和预测输出概率进行融合计算，得到融合概率；提取融合概率最大的目标样本下文信息作为待识别信息的下文生成结果进行输出。

Description

文本生成方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本生成方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着人工智能技术的飞速发展，自然语言处理技术也不断创新，基于自然语言处理技术的人工智能被广泛应用于各种场景，比如语音识别、机器翻译、智能问答等场景。其中，基于自然语言处理技术的人工智能应用的核心在于语言生成模型，将需要识别的文本内容输入到语言生成模型后，语言生成模型便会对文本内容进行识别处理，生成相应的文本并输出。

相关技术中，语言生成模型通常基于Transformer(变换器)的架构设计，但是申请人认识到，Transformer模型所能处理的最大文本长度有限，使得在生成较长文本时，不得不将模型的输入进行截断，导致部分上下文信息丢失，影响文本生成的准确性，而且随着输入文本长度的增加，语言生成模型记住所有信息的难度也成指数级增长，在很多情况下，语言生成模型生成的新文本会大概率出现与之前重复甚至违背的情况，生成的文本质量较差。

发明内容

有鉴于此，本申请提供了一种文本生成方法、装置、计算机设备及计算机可读存储介质，主要目的在于解决目前影响文本生成的准确性，而且随着输入文本长度的增加，语言生成模型记住所有信息的难度也成指数级增长，在很多情况下，语言生成模型生成的新文本会大概率出现与之前重复甚至违背的情况，生成的文本质量较差的问题。

依据本申请第一方面，提供了一种文本生成方法，该方法包括：

获取待识别信息，确定多个样本上文向量，所述多个样本上文向量中每个样本上文向量与所述待识别信息的文本向量之间的距离满足预设距离条件；

读取所述每个样本上文向量关联的样本下文信息，计算所述每个样本上文向量关联的样本下文信息的生成概率；

获取语言生成模型，基于所述语言生成模型对所述待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率；

确定文本内容一致的样本下文信息和预测下文信息，对所述样本下文信息的生成概率和所述预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为所述样本下文信息的融合概率；

在所述多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将所述目标样本下文信息作为所述待识别信息的下文生成结果进行输出。

可选地，所述获取待识别信息，确定多个样本上文向量，包括：

获取多个候选文本向量，所述多个候选文本向量中每个候选文本向量关联有样本下文信息；

按照所述预设维度对所述待识别信息进行向量转换，得到所述待识别信息的文本向量；

分别计算所述多个候选文本向量中每个候选文本向量与所述待识别信息的文本向量之间的余弦相似性，以及将所述余弦相似性命中的距离作为向量距离，得到多个向量距离；

按照从小到大的顺序对所述多个向量距离进行排序，得到排序结果；

获取所述预设距离条件，在所述排序结果中提取排在队首且满足所述预设距离条件的多个目标向量距离，将所述多个目标向量距离对应的多个候选文本向量作为所述多个样本上文向量。

可选地，所述获取多个候选文本向量，包括：

采集多个样本文本，对所述多个样本文本中每个样本文本进行分句处理，得到多个样本语句；

对所述多个样本语句中每个样本语句执行以下处理：对所述样本语句进行分词处理，得到构成所述样本语句的多个词语，在所述多个词语中确定除位于末位的词语外的其他词语作为多个待处理词语，按照预设维度对所述多个待处理词语中每个待处理词语进行向量转换，得到多个待处理词语的多个词语向量，对所述多个词语向量进行聚合计算，将计算得到的向量作为所述样本语句的候选文本向量，将所述位于末位的词语作为所述样本语句的样本下文信息，以及将所述候选文本向量和所述样本下文信息进行关联存储；

获取基于所述多个样本语句生成的所述多个候选文本向量。

可选地，所述将所述候选文本向量和所述样本下文信息进行关联存储，包括：

将所述候选文本向量作为被索引的键，将所述样本下文信息作为值，生成将所述候选文本向量和所述样本下文信息关联的键值对，以及将所述键值对进行存储；

相应地，所述读取所述每个样本上文向量关联的样本下文信息，包括：

将所述每个样本上文向量作为用于索引的键进行键值对查询，得到多个键值对，以及分别读取所述多个键值对中每个键值对的值作为所述每个样本上文向量关联的样本下文信息。

可选地，所述计算所述每个样本上文向量关联的样本下文信息的生成概率，包括：

获取所述多个样本上文向量的多个样本下文信息，分别统计所述多个样本下文信息中每个样本下文信息的文本得分，得到多个文本得分；

计算所述多个文本得分的总和，分别计算所述每个样本下文信息的文本得分与所述总和的比值作为所述每个样本下文信息的生成概率。

可选地，所述方法还包括：

当所述多个样本下文信息中存在文本内容一致的至少两个样本下文信息时，分别计算所述至少两个样本下文信息中每个样本下文信息的文本得分与所述总和的比值，得到至少两个比值；

计算所述至少两个比值的和值，将所述和值作为文本内容一致的至少两个样本下文信息的生成概率。

可选地，所述对所述样本下文信息的生成概率和所述预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为所述样本下文信息的融合概率，包括：

获取预设调节参数，计算1与所述预设调节参数的差值；

计算所述预设调节参数与所述生成概率的第一乘积，计算所述差值与所述预测输出概率的第二乘积；

计算所述第一乘积与所述第二乘积的和值，将所述和值作为所述生成概率和所述预测输出概率进行融合计算的结果，以及将所述结果作为所述融合概率。

依据本申请第二方面，提供了一种文本生成装置，该装置包括：

获取模块，用于获取待识别信息，确定多个样本上文向量，所述多个样本上文向量中每个样本上文向量与所述待识别信息的文本向量之间的距离满足预设距离条件；

计算模块，用于读取所述每个样本上文向量关联的样本下文信息，计算所述每个样本上文向量关联的样本下文信息的生成概率；

预测模块，用于获取语言生成模型，基于所述语言生成模型对所述待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率；

所述计算模块，还用于确定文本内容一致的样本下文信息和预测下文信息，对所述样本下文信息的生成概率和所述预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为所述样本下文信息的融合概率；

输出模块，用于在所述多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将所述目标样本下文信息作为所述待识别信息的下文生成结果进行输出。

可选地，所述获取模块，用于获取多个候选文本向量，所述多个候选文本向量中每个候选文本向量关联有样本下文信息；按照所述预设维度对所述待识别信息进行向量转换，得到所述待识别信息的文本向量；分别计算所述多个候选文本向量中每个候选文本向量与所述待识别信息的文本向量之间的余弦相似性，以及将所述余弦相似性命中的距离作为向量距离，得到多个向量距离；按照从小到大的顺序对所述多个向量距离进行排序，得到排序结果；获取所述预设距离条件，在所述排序结果中提取排在队首且满足所述预设距离条件的多个目标向量距离，将所述多个目标向量距离对应的多个候选文本向量作为所述多个样本上文向量。

可选地，所述获取模块，用于采集多个样本文本，对所述多个样本文本中每个样本文本进行分句处理，得到多个样本语句；对所述多个样本语句中每个样本语句执行以下处理：对所述样本语句进行分词处理，得到构成所述样本语句的多个词语，在所述多个词语中确定除位于末位的词语外的其他词语作为多个待处理词语，按照预设维度对所述多个待处理词语中每个待处理词语进行向量转换，得到多个待处理词语的多个词语向量，对所述多个词语向量进行聚合计算，将计算得到的向量作为所述样本语句的候选文本向量，将所述位于末位的词语作为所述样本语句的样本下文信息，以及将所述候选文本向量和所述样本下文信息进行关联存储；获取基于所述多个样本语句生成的所述多个候选文本向量。

可选地，所述获取模块，用于将所述候选文本向量作为被索引的键，将所述样本下文信息作为值，生成将所述候选文本向量和所述样本下文信息关联的键值对，以及将所述键值对进行存储；

相应地，所述计算模块，用于将所述每个样本上文向量作为用于索引的键进行键值对查询，得到多个键值对，以及分别读取所述多个键值对中每个键值对的值作为所述每个样本上文向量关联的样本下文信息。

可选地，所述计算模块，用于获取所述多个样本上文向量的多个样本下文信息，分别统计所述多个样本下文信息中每个样本下文信息的文本得分，得到多个文本得分；计算所述多个文本得分的总和，分别计算所述每个样本下文信息的文本得分与所述总和的比值作为所述每个样本下文信息的生成概率。

可选地，所述计算模块，还用于当所述多个样本下文信息中存在文本内容一致的至少两个样本下文信息时，分别计算所述至少两个样本下文信息中每个样本下文信息的文本得分与所述总和的比值，得到至少两个比值；计算所述至少两个比值的和值，将所述和值作为文本内容一致的至少两个样本下文信息的生成概率。

可选地，所述计算模块，还用于获取预设调节参数，计算1与所述预设调节参数的差值；计算所述预设调节参数与所述生成概率的第一乘积，计算所述差值与所述预测输出概率的第二乘积；计算所述第一乘积与所述第二乘积的和值，将所述和值作为所述生成概率和所述预测输出概率进行融合计算的结果，以及将所述结果作为所述融合概率。

依据本申请第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

依据本申请第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

借由上述技术方案，本申请提供的一种文本生成方法、装置、计算机设备及计算机可读存储介质，本申请获取待识别信息，确定与待识别信息的文本向量之间的距离满足预设距离条件的多个样本上文向量，读取每个样本上文向量关联的样本下文信息，计算每个样本上文向量关联的样本下文信息的生成概率，并获取语言生成模型，基于语言生成模型对待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率，进而确定文本内容一致的样本下文信息和预测下文信息，对样本下文信息的生成概率和预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为样本下文信息的融合概率，以及在多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将目标样本下文信息作为待识别信息的下文生成结果进行输出。本申请利用上下文信息的关联，达到近乎无损的保留当前句子的所有上文信息的目的，且通过融合近邻词的概率，避免了原始的语言生成模型由于长度过长而导致的后续生成过程遗忘或者生成与先前信息违背的情况，辅助语言生成模型输出质量更高的文本。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种文本生成方法流程示意图；

图2A示出了本申请实施例提供的另一种文本生成方法流程示意图；

图2B示出了本申请实施例提供的一种文本生成操作的过程总览示意图；

图3示出了本申请实施例提供的一种文本生成装置的结构示意图；

图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种文本生成方法，如图1所示，该方法包括：

101、获取待识别信息，确定多个样本上文向量。

待识别信息是需要预测其下文内容的上文信息，比如一条上文信息X，希望预测其下文的词语Y，则该X便可以作为待识别信息；多个样本上文向量中每个样本上文向量与待识别信息的文本向量之间的距离满足预设距离条件，具体可以先收集一些样本文本，分别将这些样本文本的上文信息进行向量的转换，并分别计算转换得到的每个向量与待识别信息的文本向量之间的距离，从而确定满足预设距离条件的多个向量作为多个样本上文向量。其中，预设距离条件可以指示挑选与文本向量最近的多少个向量作为样本上文向量，比如指示挑选4个与文本向量的距离最小的向量作为样本上文向量；或者也可以指示挑选距离低于多少的向量作为样本上文向量，比如指示挑选与文本向量的距离低于5的向量作为样本上文向量，本申请对预设距离条件指示的具体内容不进行限定。

102、读取每个样本上文向量关联的样本下文信息，计算每个样本上文向量关联的样本下文信息的生成概率。

在本申请实施例中，每个样本上文向量均是基于样本文本生成的，具体需要将样本文本拆分为两部分，一部分是前面的上文信息，另一部分是位于末位的词语作为下文信息，而样本上文向量便是基于前面的上文信息进行向量转换得到的，因此，对于每一个样本上文向量，实际上均关联有一个样本下文信息，该样本下文信息也即是样本上文向量对应的文字内容所属的样本文本中位于末位的词语。例如，假设样本文本一共有5个词，分别为C1、C2、C3、C4和C5，那么对于该样本文本来说需要基于C1、C2、C3、C4这4个符合条件的上文信息生成样本上文向量，C5作为生成的样本上文向量关联的样本下文信息。

所以，为了实现对待识别信息的下文内容的预测，需要读取每个样本上文向量关联的样本下文信息，计算每个样本上文向量关联的样本下文信息的生成概率，从而确定哪个词最容易在待识别信息的下文出现。

103、获取语言生成模型，基于语言生成模型对待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率。

在本申请实施例中，预测待识别信息的下文信息时，并不是仅由上面计算得到的每个样本上文向量关联的样本下文信息的生成概率决定的，还需要参考语言生成模型的结果。其中，语言生成模型可以为基于Transformer的架构设计的模型，可以是已经训练好的现有的语言生成模型，这样，可以获取语言生成模型后，将待识别信息输入到语言生成模型中，基于语言生成模型对待识别信息进行下文预测。其中，语言生成模型会输出一些针对待识别信息预测的下文内容，也即多个预测下文信息，并针对每个预测下文信息输出一个预测输出概率，使得后续可以综合上面计算的生成概率和预测输出概率进行待识别信息的下文预测，提升预测的准确性。

104、确定文本内容一致的样本下文信息和预测下文信息，对样本下文信息的生成概率和预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为样本下文信息的融合概率。

在本申请实施例中，进行概率的融合时，需要将文本内容一致的样本下文信息和预测下文信息的概率进行融合，因此，需要确定文本内容一致的样本下文信息和预测下文信息，对样本下文信息的生成概率和预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为样本下文信息的融合概率。具体地，可以采用插值的方式进行概率的融合。

105、在多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将目标样本下文信息作为待识别信息的下文生成结果进行输出。

在本申请实施例中，完成两部分概率的融合后，便可以在多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将目标样本下文信息作为待识别信息的下文生成结果进行输出，也即选择概率最大的词作为最终的输出。

本申请实施例提供的方法，获取待识别信息，确定与待识别信息的文本向量之间的距离满足预设距离条件的多个样本上文向量，读取每个样本上文向量关联的样本下文信息，计算每个样本上文向量关联的样本下文信息的生成概率，并获取语言生成模型，基于语言生成模型对待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率，进而确定文本内容一致的样本下文信息和预测下文信息，对样本下文信息的生成概率和预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为样本下文信息的融合概率，以及在多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将目标样本下文信息作为待识别信息的下文生成结果进行输出。本申请利用上下文信息的关联，达到近乎无损的保留当前句子的所有上文信息的目的，且通过融合近邻词的概率，避免了原始的语言生成模型由于长度过长而导致的后续生成过程遗忘或者生成与先前信息违背的情况，辅助语言生成模型输出质量更高的文本。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，本申请实施例提供了另一种文本生成方法，如图2A所示，该方法包括：

201、获取多个候选文本向量。

为了实现本申请的技术方案，需要事先准备一些作为样本的向量，实现后续对待识别信息的下文预测。其中，事先准备的作为样本的向量也即本申请实施例中的多个候选文本向量，由于本申请是对下文信息的预测，因此，多个候选文本向量中每个候选文本向量关联有样本下文信息，在一个可选地实施方案中，生成多个候选文本向量的过程如下：

首先，采集多个样本文本，对多个样本文本中每个样本文本进行分句处理，得到多个样本语句。其中，多个样本文本可以为诸如开源的Wikipedia(维基百科)和Bookcorpus(大型数据文本)等，前者为高质量的科普数据，后者为类型多样的小说数据，适合用于作为样本，也适合用于训练语言生成模型，前者保证了生成的质量，后者保证了生成的多样性，具体可以将采集到的多个样本文本记为样本数据集D。实际应用的过程中，分句处理需要针对样本数据集D中的每一篇文章进行，具体可以采用NLTK(Natural Language Toolkit，自然语言工具包)工具包对每个样本文本进行分句处理，得到多个样本语句。

随后，对多个样本语句中每个样本语句执行以下处理：对样本语句进行分词处理，得到构成样本语句的多个词语，在多个词语中确定除位于末位的词语外的其他词语作为多个待处理词语，按照预设维度对多个待处理词语中每个待处理词语进行向量转换，得到多个待处理词语的多个词语向量，对多个词语向量进行聚合计算，将计算得到的向量作为样本语句的候选文本向量，将位于末位的词语作为样本语句的样本下文信息，以及将候选文本向量和样本下文信息进行关联存储。

其中，对每个样本语句的分词处理也可以采用NLTK工具包实现，假设某个样本语句包括t个词语，记第1个词为w₁，则该样本语句的上文信息也即w₁至w_t-1，w₁至w_t-1也即待处理词语，w_t为位于末位的词语。这样，在生成候选文本向量时，需要分别将w₁至w_t-1进行向量转换，得到多个词语向量，具体地，预设维度可为768，可以通过在样本数据集D上训练好的Word2vec(用来产生词向量的相关模型)模型或者FastText(一种快速文本分类器)模型来得到w₁至w_t-1的预设维度的词语向量表示；接着，对w₁至w_t-1的多个词语向量进行聚合计算，具体可以通过计算w₁至w_t-1中所有词语向量的平均值或者和值实现聚合计算，将计算得到的向量作为样本语句的候选文本向量。

在实际应用的过程中，候选文本向量和样本下文信息的关联存储可以采用键值对的方式实现，将候选文本向量作为被索引的键，将样本下文信息作为值，生成将候选文本向量和样本下文信息关联的键值对，以及将键值对进行存储。也即将候选文本向量作为未来可以被索引的键(key，简记为k)，将样本下文信息作为值(value，简记为v)，所有这样的键值对记作(k，v)存储在数据库中，方便后续查询候选文本向量关联的样本下文信息。

202、按照预设维度对待识别信息进行向量转换，得到待识别信息的文本向量，分别计算多个候选文本向量中每个候选文本向量与待识别信息的文本向量之间的余弦相似性，以及将余弦相似性命中的距离作为向量距离，得到多个向量距离。

在本申请实施例中，与处理样本文本的方式相同，对于待识别信息，也需要按照预设维度对待识别信息进行向量转换，得到待识别信息的文本向量。接着，分别计算多个候选文本向量中每个候选文本向量与待识别信息的文本向量之间的余弦相似性，以及将余弦相似性命中的距离作为向量距离，得到多个向量距离。

其中，余弦相似性是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，两个向量之间的余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，因此，通过计算向量之间的余弦相似性，可以确定哪些候选文本向量与待识别信息的文本向量更相似，进而后续对这些更加相似的候选文本向量进行分析，减轻数据分析的工作量。考虑到向量有方向之分，方向不同会采用诸如-1等方式进行表示，且计算得到的余弦值有很多并非整数，处理起来较为麻烦，因此，在本申请实施例中，计算得到余弦相似性后，会确定余弦相似性命中的距离作为向量距离，实现余弦相似性的化整处理，便于后续排序以及挑选。具体地，由于余弦值越接近1两个向量越相似，因此，可以余弦相似度越接近1，确定的向量距离的数值越小，用向量距离表示出两个向量之间实际的相似情况。

203、按照从小到大的顺序对多个向量距离进行排序，得到排序结果，获取预设距离条件，在排序结果中提取排在队首且满足预设距离条件的多个目标向量距离，将多个目标向量距离对应的多个候选文本向量作为多个样本上文向量。

其中，步骤202中描述两个向量之间的向量距离越小，表示两个向量越相似，因此，在本申请实施例中，需要按照从小到大的顺序对多个向量距离进行排序，得到排序结果，使与待识别信息的文本向量更加相似的向量距离排在前面。接着，获取所述预设距离条件，在所述排序结果中提取排在队首且满足所述预设距离条件的多个目标向量距离，将所述多个目标向量距离对应的多个候选文本向量作为所述多个样本上文向量。其中，预设距离条件可以指示挑选与文本向量最近的多少个向量作为样本上文向量，比如指示挑选4个与文本向量的距离最小的向量作为样本上文向量，则将排序结果中排在前面4位的向量距离指示的候选文本向量作为样本上文向量；或者也可以指示挑选距离低于多少的向量作为样本上文向量，比如指示挑选与文本向量的距离低于5的向量作为样本上文向量，则将排序结果中排在前面的向量距离低于5的全部的候选文本向量作为样本上文向量，本申请对预设距离条件指示的具体内容不进行限定。实际应用的过程中，可以采用k近邻的方法实现对多个样本上文向量的选取。

这样，通过上述步骤，便获取待识别信息，确定多个与待识别信息的文本向量之间的距离满足预设距离条件的样本上文向量，后续基于这些样本上文向量执行文本的生成过程。

204、读取每个样本上文向量关联的样本下文信息，计算每个样本上文向量关联的样本下文信息的生成概率。

在本申请实施例中，由于本申请是对待识别文本信息进行下文内容的预测，因此，确定了多个样本上文向量后，需要读取每个样本上文向量关联的样本下文信息，计算每个样本上文向量关联的样本下文信息的生成概率。其中，由上述步骤201中内容可知，将候选上文向量和样本下文信息进行关联存储时可以采用键值对的方式存储，因此，实际上在读取每个样本上文向量关联的样本下文信息时，可以将每个样本上文向量作为用于索引的键进行键值对查询，得到多个键值对，以及分别读取多个键值对中每个键值对的值作为每个样本上文向量关联的样本下文信息。

随后，获取到多个样本上文向量的多个样本下文信息后，需要分别统计多个样本下文信息中每个样本下文信息的文本得分，得到多个文本得分。接着，计算多个文本得分的总和，分别计算每个样本下文信息的文本得分与总和的比值作为每个样本下文信息的生成概率，实现对所有文本得分进行的归一化处理，从而得到了通过k近邻方法挑选的每个样本下文信息的生成概率。

需要说明的是，挑选的多个样本下文信息中可能会重复，因此，实际应用的过程中，当多个样本下文信息中存在文本内容一致的至少两个样本下文信息时，分别计算至少两个样本下文信息中每个样本下文信息的文本得分与总和的比值，得到至少两个比值，计算至少两个比值的和值，将和值作为文本内容一致的至少两个样本下文信息的生成概率。也即对文本内容相同的样本下文信息计算得到的生成概率进行相加，相加得到的总和作为该样本下文信息最终对应的生成概率。比如，多个样本下文信息中包括两个“Hawaii”，其中一个“Hawaii”对应的生成概率为0.7，另一个“Hawaii”对应的生成概率为0.1，则计算0.7+0.1＝0.8，将0.8作为“Hawaii”对应的生成概率。

205、获取语言生成模型，基于语言生成模型对待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率。

在本申请实施例中，生成概率实际上是作为语言生成模型的一种辅助方法的，因此，需要获取语言生成模型，基于语言生成模型对待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率。其中，语言生成模型可以为基于Transformer的架构设计的模型，可以是已经训练好的现有的语言生成模型，使语言生成模型对其词表中所有词被作为待识别信息的下文的可能性进行预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率。

206、确定文本内容一致的样本下文信息和预测下文信息，对样本下文信息的生成概率和预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为样本下文信息的融合概率。

在本申请实施例中，确定了生成概率和预测输出概率后，需要进行概率的融合，通过融合两部分概率，使得最终选择概率最大的词作为最终的输出。具体地，需要确定文本内容一致的样本下文信息和预测下文信息，对样本下文信息的生成概率和预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为样本下文信息的融合概率。在一个可选地实施方案中，可以采用插值的方式将生成概率和预测输出概率进行融合，具体过程如下：

首先，获取预设调节参数，计算1与预设调节参数的差值。随后，计算预设调节参数与生成概率的第一乘积，计算差值与预测输出概率的第二乘积。最后，计算第一乘积与第二乘积的和值，将和值作为生成概率和预测输出概率进行融合计算的结果，以及将结果作为融合概率。其中，预设调节参数可以设置为0.6，这样，通过预设调节参数，便可以综合考虑两部分概率。

207、在多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将目标样本下文信息作为待识别信息的下文生成结果进行输出。

在本申请实施例中，为每个样本下文信息计算得到对应的融合概率后，在多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将目标样本下文信息作为待识别信息的下文生成结果进行输出即可。

实际应用的过程中，本申请提出的文本生成方法可以基于文本生成系统实现，文本生成系统通过搭载的服务器的计算能力，实现本申请中完整的文本生成过程，其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。其中，文本生成系统执行文本生成操作的过程总览可如图2B所示，事先采集多个样本文本，对所述多个样本文本中每个样本文本进行分句处理，得到多个样本语句，将每个样本语句划分为上文信息c和下文信息w，对上文信息c进行向量转换，得到候选文本向量k，将下文信息w作为样本下文信息，以及将候选文本向量k和样本下文信息进行关联。选取一待识别信息x，对x进行向量转换，得到x的文本向量q。接着，一方面，分别计算q与每个候选文本向量之间的距离d，将与q最近的候选文本向量A、B、C作为样本上文向量，以及获取A的样本下文信息A`，获取B的样本下文信息B`，获取C的样本下文信息C`，计算A`的生成概率为0.7，计算B`的生成概率为0.2，计算C`的生成概率为0.1。由于A`的文本内容与C`一致，因此，将A`的生成概率与C`的生成概率聚合，得到0.8作为A`的生成概率；另一方面，获取语言生成模型，基于语言生成模型对x进行下文预测，得到A`的预测输出概率为0.2，B`的预测输出概率为0.2。最后，将A`、B`的生成概率和预测输出概率进行插值处理，得到A`的融合概率0.6，B`的融合概率0.2，选取融合概率较大的A`作为x的下文生成结果进行输出。

这样，通过本申请中的技术方案，能够辅助现有主流的语言生成模型框架生成质量更高、多样性更强的句子，无需重新训练现有的语言生成模型，实际应用的过程中，可以针对文本生成系统构建一个插件，在运行语言生成模型的同时运行该插件，从而实现本申请的技术方案，使得在语言生成过程中利用了具有相似上文的其他样本信息，隐式地扩展了原始样本的上文视野，极大地丰富了生成样例的多样性；而且本申请中的技术方案可以进一步通过将样本文本的所有上文信息依次添加进键值对数据库，达到近乎无损的保留当前句子的所有上文信息的目的，且通过融合近邻词的概率，避免了原始的语言生成模型由于长度过长而导致的后续生成过程遗忘或者生成与先前信息违背的情况，显著提高了生成质量；另外，本申请中的技术方案多样性的配置更为灵活，最终选择使用概率最大的样本下文信息作为最终的输出，实际应用的过程中，也可以采用诸如Sampling(抽样)的基于概率的抽样方法，增加对近邻方法挑选的不常见的词的采样概率，进一步增强生成多样性。

本申请实施例提供的方法，利用上下文信息的关联，达到近乎无损的保留当前句子的所有上文信息的目的，且通过融合近邻词的概率，避免了原始的语言生成模型由于长度过长而导致的后续生成过程遗忘或者生成与先前信息违背的情况，辅助语言生成模型输出质量更高的文本。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种文本生成装置，如图3所示，所述装置包括：获取模块301，计算模块302，预测模块303和输出模块304。

该获取模块301，用于获取待识别信息，确定多个样本上文向量，所述多个样本上文向量中每个样本上文向量与所述待识别信息的文本向量之间的距离满足预设距离条件；

该计算模块302，用于读取所述每个样本上文向量关联的样本下文信息，计算所述每个样本上文向量关联的样本下文信息的生成概率；

该预测模块303，用于获取语言生成模型，基于所述语言生成模型对所述待识别信息进行下文预测，得到多个预测下文信息以及每个预测下文信息的预测输出概率；

该计算模块302，还用于确定文本内容一致的样本下文信息和预测下文信息，对所述样本下文信息的生成概率和所述预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为所述样本下文信息的融合概率；

该输出模块304，用于在所述多个样本上文向量关联的多个样本下文信息中提取融合概率最大的目标样本下文信息，将所述目标样本下文信息作为所述待识别信息的下文生成结果进行输出。

在具体的应用场景中，该获取模块301，用于获取多个候选文本向量，所述多个候选文本向量中每个候选文本向量关联有样本下文信息；按照所述预设维度对所述待识别信息进行向量转换，得到所述待识别信息的文本向量；分别计算所述多个候选文本向量中每个候选文本向量与所述待识别信息的文本向量之间的余弦相似性，以及将所述余弦相似性命中的距离作为向量距离，得到多个向量距离；按照从小到大的顺序对所述多个向量距离进行排序，得到排序结果；获取所述预设距离条件，在所述排序结果中提取排在队首且满足所述预设距离条件的多个目标向量距离，将所述多个目标向量距离对应的多个候选文本向量作为所述多个样本上文向量。

在具体的应用场景中，该获取模块301，用于采集多个样本文本，对所述多个样本文本中每个样本文本进行分句处理，得到多个样本语句；对所述多个样本语句中每个样本语句执行以下处理：对所述样本语句进行分词处理，得到构成所述样本语句的多个词语，在所述多个词语中确定除位于末位的词语外的其他词语作为多个待处理词语，按照预设维度对所述多个待处理词语中每个待处理词语进行向量转换，得到多个待处理词语的多个词语向量，对所述多个词语向量进行聚合计算，将计算得到的向量作为所述样本语句的候选文本向量，将所述位于末位的词语作为所述样本语句的样本下文信息，以及将所述候选文本向量和所述样本下文信息进行关联存储；获取基于所述多个样本语句生成的所述多个候选文本向量。

在具体的应用场景中，该获取模块301，用于将所述候选文本向量作为被索引的键，将所述样本下文信息作为值，生成将所述候选文本向量和所述样本下文信息关联的键值对，以及将所述键值对进行存储；

相应地，该计算模块302，用于将所述每个样本上文向量作为用于索引的键进行键值对查询，得到多个键值对，以及分别读取所述多个键值对中每个键值对的值作为所述每个样本上文向量关联的样本下文信息。

在具体的应用场景中，该计算模块302，用于获取所述多个样本上文向量的多个样本下文信息，分别统计所述多个样本下文信息中每个样本下文信息的文本得分，得到多个文本得分；计算所述多个文本得分的总和，分别计算所述每个样本下文信息的文本得分与所述总和的比值作为所述每个样本下文信息的生成概率。

在具体的应用场景中，该计算模块302，还用于当所述多个样本下文信息中存在文本内容一致的至少两个样本下文信息时，分别计算所述至少两个样本下文信息中每个样本下文信息的文本得分与所述总和的比值，得到至少两个比值；计算所述至少两个比值的和值，将所述和值作为文本内容一致的至少两个样本下文信息的生成概率。

在具体的应用场景中，该计算模块302，还用于获取预设调节参数，计算1与所述预设调节参数的差值；计算所述预设调节参数与所述生成概率的第一乘积，计算所述差值与所述预测输出概率的第二乘积；计算所述第一乘积与所述第二乘积的和值，将所述和值作为所述生成概率和所述预测输出概率进行融合计算的结果，以及将所述结果作为所述融合概率。

本申请实施例提供的装置，利用上下文信息的关联，达到近乎无损的保留当前句子的所有上文信息的目的，且通过融合近邻词的概率，避免了原始的语言生成模型由于长度过长而导致的后续生成过程遗忘或者生成与先前信息违背的情况，辅助语言生成模型输出质量更高的文本。

需要说明的是，本申请实施例提供的一种文本生成装置所涉及各功能单元的其他相应描述，可以参考图1和图2A至图2B中的对应描述，在此不再赘述。

在示例性实施例中，参见图4，还提供了一种计算机设备，该计算机设备包括总线、处理器、存储器和通信接口，还可以包括输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的文本生成方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的文本生成方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种文本生成方法，其特征在于，包括：

获取待识别信息，确定多个样本上文向量，所述多个样本上文向量中每个样本上文向量与所述待识别信息的文本向量之间的距离满足预设距离条件，其中，所述获取待识别信息，确定多个样本上文向量，包括：获取多个候选文本向量，所述多个候选文本向量中每个候选文本向量关联有样本下文信息；按照预设维度对所述待识别信息进行向量转换，得到所述待识别信息的文本向量；分别计算所述多个候选文本向量中每个候选文本向量与所述待识别信息的文本向量之间的余弦相似性，以及将所述余弦相似性命中的距离作为向量距离，得到多个向量距离；按照从小到大的顺序对所述多个向量距离进行排序，得到排序结果；获取所述预设距离条件，在所述排序结果中提取排在队首且满足所述预设距离条件的多个目标向量距离，将所述多个目标向量距离对应的多个候选文本向量作为所述多个样本上文向量；其中，所述获取多个候选文本向量，包括：采集多个样本文本，对所述多个样本文本中每个样本文本进行分句处理，得到多个样本语句；对所述多个样本语句中每个样本语句执行以下处理：对所述样本语句进行分词处理，得到构成所述样本语句的多个词语，在所述多个词语中确定除位于末位的词语外的其他词语作为多个待处理词语，按照预设维度对所述多个待处理词语中每个待处理词语进行向量转换，得到多个待处理词语的多个词语向量，对所述多个词语向量进行聚合计算，将计算得到的向量作为所述样本语句的候选文本向量，将所述位于末位的词语作为所述样本语句的样本下文信息，以及将所述候选文本向量和所述样本下文信息进行关联存储；获取基于所述多个样本语句生成的所述多个候选文本向量

2.根据权利要求1所述的方法，其特征在于，所述将所述候选文本向量和所述样本下文信息进行关联存储，包括：

3.根据权利要求1所述的方法，其特征在于，所述计算所述每个样本上文向量关联的样本下文信息的生成概率，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述样本下文信息的生成概率和所述预测下文信息的预测输出概率进行融合计算，将计算得到的结果作为所述样本下文信息的融合概率，包括：

获取预设调节参数，计算1与所述预设调节参数的差值；

6.一种文本生成装置，其特征在于，包括：

获取模块，用于获取待识别信息，确定多个样本上文向量，所述多个样本上文向量中每个样本上文向量与所述待识别信息的文本向量之间的距离满足预设距离条件，所述获取模块，用于获取多个候选文本向量，所述多个候选文本向量中每个候选文本向量关联有样本下文信息；按照预设维度对所述待识别信息进行向量转换，得到所述待识别信息的文本向量；分别计算所述多个候选文本向量中每个候选文本向量与所述待识别信息的文本向量之间的余弦相似性，以及将所述余弦相似性命中的距离作为向量距离，得到多个向量距离；按照从小到大的顺序对所述多个向量距离进行排序，得到排序结果；获取所述预设距离条件，在所述排序结果中提取排在队首且满足所述预设距离条件的多个目标向量距离，将所述多个目标向量距离对应的多个候选文本向量作为所述多个样本上文向量；其中，所述获取模块，用于采集多个样本文本，对所述多个样本文本中每个样本文本进行分句处理，得到多个样本语句；对所述多个样本语句中每个样本语句执行以下处理：对所述样本语句进行分词处理，得到构成所述样本语句的多个词语，在所述多个词语中确定除位于末位的词语外的其他词语作为多个待处理词语，按照预设维度对所述多个待处理词语中每个待处理词语进行向量转换，得到多个待处理词语的多个词语向量，对所述多个词语向量进行聚合计算，将计算得到的向量作为所述样本语句的候选文本向量，将所述位于末位的词语作为所述样本语句的样本下文信息，以及将所述候选文本向量和所述样本下文信息进行关联存储；获取基于所述多个样本语句生成的所述多个候选文本向量；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。