CN117171299A - 一种文本生成方法和装置 - Google Patents
一种文本生成方法和装置 Download PDFInfo
- Publication number
- CN117171299A CN117171299A CN202311034228.8A CN202311034228A CN117171299A CN 117171299 A CN117171299 A CN 117171299A CN 202311034228 A CN202311034228 A CN 202311034228A CN 117171299 A CN117171299 A CN 117171299A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- probability distribution
- supplementary
- supplemental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000009826 distribution Methods 0.000 claims abstract description 145
- 230000000153 supplemental effect Effects 0.000 claims abstract description 101
- 239000012634 fragment Substances 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 33
- 230000005284 excitation Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000013461 design Methods 0.000 description 22
- 230000011218 segmentation Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供了一种文本生成方法和装置,能够在不改变大模型的结构以及重新训练大模型的情况下,有效提高大模型的知识扩展能力和新词组产生能力。方法包括:获取包括s个文本片段的补充语料库;使用补充模型根据包含补充词组的输入文本与s个文本片段的相似度,确定相似度最高的k个文本片段;使用补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,第一概率分布由大模型预测,第二概率分布由补充模型根据k个文本片段预测;根据输出文本的真实序列和预测序列,确定目标函数,根据目标函数训练补充模型;根据训练后的补充模型和大模型,确定混合大模型;向混合大模型输入待处理输入文本,生成目标输出文本。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本生成方法和装置。
背景技术
自然语言生成模型用于根据用户的输入文本(例如问题),生成相匹配的输出文本(例如答案)。参数规模较大的自然语言生成模型被称为大模型,大模型能够对大规模文本进行复杂的处理和任务处理。
在使用训练集训练大模型的过程中,大模型通常使用预定义词表对训练集中的文本进行切分,生成各个分词,以便于后续对各个分词进行编码。由于词表和训练集的规模有限,在大模型的测试阶段或应用阶段,输入文本中可能会出现词表中未包括的部分低频词组、罕见词组、新产生的词组等,这些词组被称为补充词组(或者被称为补充词组(out ofvocabulary,OOV))。
目前的大模型统一使用预设符号对这些补充词组进行替换后再生成输出文本,而该替换过程可能导致原本的语义信息丢失,使得大模型针对包括补充词组的输入文本生成的输出文本不准确。且由于大模型的参数规模较大,若每遇到补充词组便重新训练大模型,以使大模型不断学习新的知识,那么会导致成本巨大的问题。
如何使得大模型根据包括补充词组的输入文本,准确地生成输出文本成为亟待解决的问题。
发明内容
本申请提供了一种文本生成方法和装置,能够在不改变大模型的结构以及重新训练大模型的情况下,有效提高大模型的知识扩展能力和新词组的产生能力。
第一方面,提供了一种文本生成方法,包括:
获取补充语料库,补充语料库包括s个文本片段;
使用补充模型根据包含补充词组的输入文本与s个文本片段的相似度,确定相似度最高的k个文本片段,k小于或等于s,补充词组与补充语料库相匹配;
使用补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,其中,第一概率分布是使用大模型根据输入文本预测的,第二概率分布是使用补充模型根据k个文本片段预测的;
根据输出文本的真实序列和预测序列,确定目标函数;
使用目标函数训练补充模型;
根据训练后的补充模型和大模型,确定混合大模型;
向混合大模型输入待处理的输入文本,生成目标输出文本。
在一种可行的设计中,使用补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,包括:
使用大模型根据输入文本和预定义词表,计算输出文本在预定义词表中的第一概率分布;
使用补充模型根据k个文本片段和补充词表,计算输出文本在补充词表中的第二概率分布;
根据第一概率分布和第二概率分布,确定预测概率分布;
使用补充模型根据预测概率分布、预定义词表和补充词表,确定输出文本的预测序列。
在一种可行的设计中,使用补充模型根据k个文本片段和补充词表,计算输出文本在补充词表中的第二概率分布,包括:
从k个文本片段中确定相似度最高的第一文本片段;
通过解码器获取第一文本片段的第一向量表示;
通过输出层根据补充词表和第一向量表示,获取输出文本在补充词表中的第二概率分布,输出层包括全连接层和激励层。
在一种可行的设计中,使用补充模型根据k个文本片段和补充词表,计算输出文本在补充词表中的第二概率分布,包括:
将k个文本片段分别向k个解码器中相应的解码器输入,获取k个第二向量表示;
将k个第二向量表示分别向k个输出层中相应的输出层输入,获取k个输出文本在补充词表中的预选概率分布,输出层包括全连接层和激励层;
将k个预选概率分布中置信度最高的预选概率分布,作为输出文本在补充词表中的第二概率分布。
在一种可行的设计中,补充模型包括第一编码器和第二编码器,使用补充模型根据包含补充词组的输入文本与s个文本片段的相似度,确定相似度最高的k个文本片段,包括:
使用第一编码器,获取包含补充词组的输入文本的输入向量表示;
使用第二编码器,分别获取s个文本片段的s个片段向量表示;
将输入向量表示分别与s个片段向量表示进行点积运算,获取s个相似度;
从s个相似度中确定相似度最高的k个相似度对应的k个文本片段。
在一种可行的设计中,使用补充模型根据预测概率分布、预定义词表和补充词表,确定输出文本的预测序列,包括:
对第一概率分布和第二概率分布进行加权求和,获取预测概率分布;
根据预测概率分布,从预定义词表和补充词表中确定输出文本的预测序列。
在一种可行的设计中,根据输出文本的真实序列和预测序列,确定目标函数,包括:
通过最大化输出文本的真实序列与预测序列的对数似然估计,确定目标函数。
在一种可行的设计中,解码器采用注意力机制。
在一种可行的设计中,第一编码器和/或第二编码器,是基于注意力机制的采用双向编码方式的预训练语言模型。
第二方面,提供了一种文本生成装置,包括:
语料库获取模块,用于获取补充语料库,补充语料库包括s个文本片段;
文本片段检索模块,用于使用补充模型根据包含补充词组的输入文本与s个文本片段的相似度,确定相似度最高的k个文本片段,k小于或等于s,补充词组与补充语料库相匹配;
预测序列确定模块,用于使用补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,其中,第一概率分布是使用大模型根据输入文本预测的,第二概率分布是使用补充模型根据k个文本片段预测的;
目标函数确定模块,用于根据输出文本的真实序列和预测序列,确定目标函数;
模型训练模块,用于使用目标函数训练补充模型;
混合大模型确定模块,用于根据训练后的补充模型和大模型,确定混合大模型;
文本生成模块,用于向混合大模型输入待处理的输入文本,生成目标输出文本。
由于大模型的参数规模较大,目前通过使用包括补充词组的输入文本和输出文本重新训练大模型,以使大模型不断学习新知识的方案花费成本较大。本申请上述实施例中,首先获取补充语料库和包括补充词组的输入文本,其中,补充词组与补充语料库相匹配。然后确定补充语料库中与输入文本相似度最高的k个文本片段。由于k个文本片段与输入文本的相似度较高,因此,使用补充模型根据k个文本片段能够准确高效地预测输出文本的第二概率分布,提升了补充模型的新词组的产生能力。进一步地,通过将原本的大模型根据输入文本预测的输出文本的第一概率分布和第二概率分布进行概率融合,从而确定的输出文本的预测序列,并以该预测序列确定的目标函数训练补充模型,使得补充模型学习补充词表和补充语料库的知识的同时,还能学习原本的大模型已经学到的知识,提升了补充模型学习的知识的广度,提高了补充模型的性能。最后根据训练后的补充模型和原本的大模型,确定的混合大模型(应理解,混合大模型也是大模型)在输入文本包括补充词组时,仍能够生成准确的输出文本,且同时包括原本的大模型的结构和参数,具备原本的大模型的能力。因此,上述实施例中无需改变原本的大模型的结构以及重新训练原本的大模型,便能有效提高混合大模型的知识扩展能力,节省了成本和时间。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一示例性实施例提供的一例文本生成方法的示意性流程图;
图2是本申请一示例性实施例提供的一例生成预测概率分布的示意性流程图;
图3是本申请一示例性实施例提供的再一例生成预测概率分布的示意性流程图;
图4是本申请一示例性实施例提供的一例生成预测序列的示意性流程图;
图5是本申请一示例性实施例提供的一例文本生成装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了提升大模型生成文本的准确性,如图1所示,本申请提供了一种文本生成方法,该方法应用于电子设备上(例如智能问答机器人、聊天机器人应用(application,APP)等),方法包括如下步骤:
S110,获取补充语料库。
补充语料库包括s个文本片段,其中,s为正整数。
示例性地,文本片段以文档的形式存储文本,补充语料库以数据库的形式存储s个文档。
S120,使用补充模型根据包含补充词组的输入文本与s个文本片段的相似度,确定相似度最高的k个文本片段。
其中,k小于或等于s,补充词组与补充语料库相匹配。
示例性地,包括补充词组的输入文本是根据补充语料库确定的。
需要说明的是,本申请中的输入文本可以是各个分词(token)组成的序列的形式,混合大模型的输出文本同样是各个分词组成的序列的形式。下面以输入文本为文本序列x,对应的输出文本为文本序列yn为例进行后续方案的介绍。
应理解,本申请中的补充语料库和原本的大模型的训练数据集是相互独立的。两者可能包括相同的文本片段,也可能不包括相同的文本片段。
另一方面,根据上述步骤可知,本申请中的补充语料库是用来存储文本片段以提供文本片段检索功能,与训练数据集的功能不同。
在一种可行的设计中,补充模型包括第一编码器和第二编码器,在此情况下,可以采用以下方式确定相似度最高的k个文本片段:
使用第一编码器,获取包含补充词组的输入文本的输入向量表示;
使用第二编码器,分别获取s个文本片段的s个片段向量表示;
将输入向量表示分别与s个片段向量表示进行点积运算,获取s个相似度;
从s个相似度中确定相似度最高的k个相似度对应的k个文本片段。
示例性地,在使用第一编码器,获取包含补充词组的输入文本的输入向量表示之前,使用补充模型根据补充词组对输入文本进行文本切分,获取多个分词。以便于将多个分词输入至第一编码器中。
在另一种可行的设计中,第一编码器和/或第二编码器,是基于注意力机制的采用双向编码方式的预训练语言模型。
例如,以第一编码器为EP(·),第二编码器为EO(·)为例。首先使用EP(·)将s个文本片段中任一文本片段映射到一个二维实值向量,生成s个片段向量表示,并为检索s个片段向量表示建立索引。使用EO(·)将输入文本映射到一个d维向量,生成输入向量表示,并检索s个片段向量表示中哪些向量表示最接近输入向量表示的k个索引。其中,使用片段向量表示和输入向量表示的点积来定义输入文本与各个文本片段之间的相似性,如以下公式(1)所示:
sim(q,p)=EQ(q)TEP(p) 公式(1);
其中,q为输入文本的文本序列,p为s个文本片段中的第p个文本片段。
例如,第一编码器为基于Transformer的双向编码器表示(BidirectionalEncoder Representations from Transformer,bert)模型,第二编码器为bert模型。
上述示例中,将输入向量表示分别与s个片段向量表示的点积运算结果,作为输入文本与s个文本片段的相似度,由于计算方式简单,因此上述方式计算速度较快,适合处理数量较多的数据。
S130,使用补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列。
其中,第一概率分布是使用大模型根据输入文本预测的,第二概率分布是使用补充模型根据k个文本片段预测的。
由上述有关token的介绍可知,文本的序列指的是文本的至少一个token构成的序列。预测序列指的是模型生成的文本序列,相应的,真实序列指的是输入文本对应的目标序列,例如,问题对应的标准答案的文本序列即该问题对应的目标序列。
在一种可行的设计中,在此情况下,采用以下方式确定输出文本的预测序列:
使用大模型根据输入文本和预定义词表,计算输出文本在预定义词表中的第一概率分布;
使用补充模型根据k个文本片段和补充词表,计算输出文本在补充词表中的第二概率分布;
根据第一概率分布和第二概率分布,确定预测概率分布;
使用补充模型根据预测概率分布、预定义词表和补充词表,确定输出文本的预测序列。
其中,预定义词表还用于大模型对输入文本进行文本切分。
示例性地,使用大模型根据输入文本和预定义词表,计算输出文本在预定义词表中的第一概率分布,包括:
使用大模型基于预定义词表对输入文本进行文本切分,生成多个分词;
使用大模型对多个分词进行特征提取,从而计算输出文本在预定义词表中的第一概率分布。
例如,首先使用大模型根据输入文本的文本序列x,预测输出文本的下一个token在预定义词表中的第一概率分布pm。然后使用补充模型根据k个文本片段w(其中,第i个文本片段用wi表示,1≤i≤k),预测输出文本的下一个token在补充词表中的第二概率分布pw。根据第一概率分布pm和第二概率分布pw,确定输出文本的下一个token的预测概率分布p。由于预测概率分布p是基于第一概率分布pm和第二概率分布pw确定的,因此,预测概率分布p对应的词表为预定义词表和补充词表的词表集合。最后,使用补充模型根据输出文本的下一个token的预测概率分布p、预定义词表和补充词表,确定输出文本的下一个token。上述过程经过多次循环迭代后,生成的输出文本的多个token构成了输出文本的预测序列zn。
需要说明的是,预定义词表和补充词表是相互独立的。两者可能包括相同的分词,也可能不包括相同的分词。
由于输入文本可能不只包含补充词组,可能还包括预定义词表中的分词,意味着若只根据补充词表预测的输出文本是不准确且不完整的。因此,通过大模型预测输出文本在预定义词表的第一概率分布,结合补充模型预测的输出文本在补充词表中的第二概率分布,生成的预测概率分布能够同时匹配预定义词表和补充词表。使得使用补充模型根据预测概率分布,能够同时使用预定义词表和补充词表完整且准确地预测输出文本的文本序列。
下面提供两种计算第二概率分布的方式:
方式一
在一种可行的设计中,通过以下方式计算第二概率分布:
从k个文本片段中确定相似度最高的第一文本片段;
通过解码器获取第一文本片段的第一向量表示;
通过输出层根据补充词表和第一向量表示,获取输出文本在补充词表中的第二概率分布,输出层包括全连接层和激励层。
示例性地,解码器采用注意力机制,例如Transformer decoder-only的解码器(decoder)。
例如图2所示,从k个文本片段w中,确定相似度最高的第一文本片段w1。然后输入到Transformer的decoder获得对应的第一向量表示,然后输入至全连接层linear和激励层(例如softmax层),结合补充词表获得输出文本的下一个token的第二概率分布,例如,以L层decoder-only模型为例,通过如下公式(2)-公式(4)计算第二概率分布pw。
h0=UWe+Wp 公式(2);
其中,假定token对应的词表为V,则输入可以看作一个文本(context)矩阵U=(u-O,...,u-1),维度为O×[V]。We为token嵌入(embedding)矩阵,维度为[V]×d;Wp为位置嵌入(position embedding)矩阵,维度为O×d;每层的输出hl维度为O×d。表示最后一层输出的最后一个token的向量表示,和We T相乘后经过softmax获得下一个token u的概率分布P(u)(即pw)。
上述示例中,通过从k个文本片段中,确定相似度最高的第一文本片段。使得根据第一文本片段,能够快速地计算出输出文本在补充词表上的下一个token的第二概率分布。
大型预训练语言模型(即大模型)虽然可以在其参数中存储事实知识,并在对下游自然语言处理任务进行微调时获得更好的效果。但是,大模型不能轻易地进行扩展或修改已经记忆的知识,因此不能识别新的知识,若采用重新训练大模型来更新知识的方式,则需要花费高昂的成本。目前,通过检索增强生成方法虽然能够在不破坏原有大模型参数的基础上,进行外部知识的拓展和检索,但是此方法将检索召回得到的文档,直接与输入文本序列进行拼接,再输入到生成器进行预测。这样会导致用于生成的输入文本过长,当输入文本超过模型定义的最大长度会被截断,因此会降低大模型捕捉信息的能力,导致输出文本不准确。
针对上述问题,本申请可以通过以下方式二计算第二概率分布。
方式二
首先将k个文本片段分别向k个解码器中相应的解码器输入,获取k个第二向量表示。然后将k个第二向量表示分别向k个输出层中相应的输出层输入,获取k个输出文本在补充词表中的预选概率分布,输出层包括全连接层和激励层。最后将k个预选概率分布中置信度最高的预选概率分布,作为输出文本在补充词表中的第二概率分布。
例如图3所示,针对输入的k个文本片段w,分别将每个文本片段(即w1至wk)输入相应的Transformer的decoder,以获得k个第二向量表示,然后将每个第二向量表示输入一个全连接层获得标量分数。将k个标量分数输入至softmax层获得k个第二概率分布,最后将k个预选概率分布中置信度最高的预选概率分布,作为输出文本在补充词表中的第二概率分布pw。
上述示例中,由于将每个文本片段输入相应的Transformer的decoder,以分别进行特征提取,而没有将所有的文本片段与输入文本进行拼接生成过长的输入文本。因此,能够降低由于输入文本过长导致被截断的可能,避免大模型捕捉信息的能力降低。
在一种可行的设计中,可通过以下方式确定输出文本的预测序列:
对第一概率分布和第二概率分布进行加权求和,获取预测概率分布;
根据预测概率分布,从预定义词表和补充词表中确定输出文本的预测序列。
示例性地,通过以下公式(5)计算输出文本的下一个token的预测概率分布:
p=αpm+(1-α)pw 公式(5);
其中,α根据实际需要确定,本申请对此不作限定。本申请将由多个p确定的预测序列表示为yn。
上述示例中,通过对第一概率分布和第二概率分布进行加权求和,能够快速准确地计算出预测概率分布。基于经过概率融合后的预测概率分布,能够准确地从预定义词表和补充词表中确定输出文本的预测序列。
S140,根据输出文本的真实序列和预测序列,确定目标函数;
在一种可行的设计中,通过以下方式确定目标函数:
通过最大化输出文本的真实序列与预测序列的对数似然估计,确定目标函数。
示例性地,通过以下公式(6),实现通过最大化输出文本的真实序列与预测序列的对数似然估计,确定目标函数G。
其中,yn为输出文本的真实序列,zn为输出文本的预测序列,xn为输入文本的文本序列,N为样本数量,θ为预设置的参数。
根据公式(6)可知,目标函数的值G越大表明预测序列与真实序列越接近。由于最大似然估计适用于样本数量较大时的概率估计,而训练语言处理模型的训练文本集规模较大,因此,上述示例中,通过最大化输出文本的真实序列与预测序列的对数似然估计,获取的目标函数能够较好地适用于补充模型的训练。
S150,使用目标函数训练补充模型。
在使用目标函数训练补充模型的过程中,补充模型的参数更新方向与目标函数的值增大的方向一致。
S160,根据训练后的补充模型和大模型,确定混合大模型。
具体地,补充模型和大模型构成混合大模型的示意图如图4所示,可以看出,在混合大模型中,补充模型和大模型分别根据输入文本计算输出文本的概率分布,即补充模型和大模型是独立运行的。将两个概率分布经过概率融合得到预测概率分布,最后根据预测概率分布生成输出文本的预测序列。
S170,向混合大模型输入待处理的输入文本,生成目标输出文本。
由于大模型的参数规模较大,目前通过使用包括补充词组的输入文本和输出文本重新训练大模型,以使大模型不断学习新知识的方案花费成本较大。本申请上述实施例中,首先获取补充语料库和包括补充词组的输入文本,其中,补充词组与补充语料库相匹配。然后确定补充语料库中与输入文本相似度最高的k个文本片段。由于k个文本片段与输入文本的相似度较高,因此,使用补充模型根据k个文本片段能够准确高效地预测输出文本的第二概率分布,提升了补充模型的新词组产生能力。进一步地,通过将原本的大模型根据输入文本预测的输出文本的第一概率分布和第二概率分布进行概率融合,从而确定的输出文本的预测序列,并以该预测序列确定的目标函数训练补充模型,使得补充模型学习补充词表和补充语料库的知识的同时,还能学习原本的大模型已经学到的知识,提升了补充模型学习的知识的广度,提高了补充模型的性能。最后根据训练后的补充模型和原本的大模型,确定的混合大模型在输入文本包括补充词组时,仍能够生成准确的输出文本,且同时包括原本的大模型的结构和参数,具备原本的大模型的能力。因此,上述实施例中无需改变原本的大模型的结构以及重新训练原本的大模型,便能有效提高混合大模型的知识扩展能力,节省了成本和时间。
结合上述的文本生成方法,本申请还提供了一种文本生成装置,如图5所示,包括:
语料库获取模块,用于获取补充语料库,补充语料库包括s个文本片段;
文本片段检索模块,用于使用补充模型根据包含补充词组的输入文本与s个文本片段的相似度,确定相似度最高的k个文本片段,k小于或等于s,补充词组与补充语料库相匹配;
预测序列确定模块,用于使用补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,其中,第一概率分布是使用大模型根据输入文本预测的,第二概率分布是使用补充模型根据k个文本片段预测的;
目标函数确定模块,用于根据输出文本的真实序列和预测序列,确定目标函数;
模型训练模块,用于使用目标函数训练补充模型;
混合大模型确定模块,用于根据训练后的补充模型和大模型,确定混合大模型;
文本生成模块,用于向混合大模型输入待处理的输入文本,生成目标输出文本。
在一种可行的设计中,预测序列确定模块通过以下方式,实现使用补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,包括:
使用大模型根据输入文本和预定义词表,计算输出文本在预定义词表中的第一概率分布;
使用补充模型根据k个文本片段和补充词表,计算输出文本在补充词表中的第二概率分布;
根据第一概率分布和第二概率分布,确定预测概率分布;
使用补充模型根据预测概率分布、预定义词表和补充词表,确定输出文本的预测序列。
在一种可行的设计中,预测序列确定模块通过以下方式,实现使用补充模型根据k个文本片段和补充词表,计算输出文本在补充词表中的第二概率分布,包括:
从k个文本片段中确定相似度最高的第一文本片段;
通过解码器获取第一文本片段的第一向量表示;
通过输出层根据补充词表和第一向量表示,获取输出文本在补充词表中的第二概率分布,输出层包括全连接层和激励层。
在一种可行的设计中,预测序列确定模块通过以下方式,实现使用补充模型根据k个文本片段和补充词表,计算输出文本在补充词表中的第二概率分布,包括:
将k个文本片段分别向k个解码器中相应的解码器输入,获取k个第二向量表示;
将k个第二向量表示分别向k个输出层中相应的输出层输入,获取k个输出文本在补充词表中的预选概率分布,输出层包括全连接层和激励层;
将k个预选概率分布中置信度最高的预选概率分布,作为输出文本在补充词表中的第二概率分布。
在一种可行的设计中,补充模型包括第一编码器和第二编码器,文本片段检索模块通过以下方式,实现使用补充模型根据包含补充词组的输入文本与s个文本片段的相似度,确定相似度最高的k个文本片段,包括:
使用第一编码器,获取包含补充词组的输入文本的输入向量表示;
使用第二编码器,分别获取s个文本片段的s个片段向量表示;
将输入向量表示分别与s个片段向量表示进行点积运算,获取s个相似度;
从s个相似度中确定相似度最高的k个相似度对应的k个文本片段。
在一种可行的设计中,预测序列确定模块通过以下方式,实现使用补充模型根据预测概率分布、预定义词表和补充词表,确定输出文本的预测序列,包括:
对第一概率分布和第二概率分布进行加权求和,获取预测概率分布;
根据预测概率分布,从预定义词表和补充词表中确定输出文本的预测序列。
在一种可行的设计中,目标函数确定模块通过以下方式,实现根据输出文本的真实序列和预测序列,确定目标函数,包括:
通过最大化输出文本的真实序列与预测序列的对数似然估计,确定目标函数。
在一种可行的设计中,解码器采用注意力机制。
在一种可行的设计中,第一编码器和/或第二编码器,是基于注意力机制的采用双向编码方式的预训练语言模型。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种文本生成方法,其特征在于,包括:
获取补充语料库,所述补充语料库包括s个文本片段;
使用补充模型根据包含补充词组的输入文本与s个所述文本片段的相似度,确定相似度最高的k个所述文本片段,所述k小于或等于所述s,所述补充词组与所述补充语料库相匹配;
使用所述补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,其中,所述第一概率分布是使用大模型根据所述输入文本预测的,所述第二概率分布是使用所述补充模型根据k个所述文本片段预测的;
根据所述输出文本的真实序列和所述预测序列,确定目标函数;
使用所述目标函数训练所述补充模型;
根据训练后的所述补充模型和所述大模型,确定混合大模型;
向所述混合大模型输入待处理的输入文本,生成目标输出文本。
2.根据权利要求1所述的方法,其特征在于,所述使用补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,包括:
使用大模型根据所述输入文本和预定义词表,计算输出文本在所述预定义词表中的第一概率分布;
使用补充模型根据k个所述文本片段和补充词表,计算输出文本在所述补充词表中的第二概率分布;
根据所述第一概率分布和所述第二概率分布,确定预测概率分布;
使用所述补充模型根据所述预测概率分布、所述预定义词表和所述补充词表,确定输出文本的预测序列。
3.根据权利要求2所述的方法,其特征在于,所述使用补充模型根据k个所述文本片段和补充词表,计算输出文本在所述补充词表中的第二概率分布,包括:
从k个所述文本片段中确定相似度最高的第一文本片段;
通过解码器获取所述第一文本片段的第一向量表示;
通过输出层根据补充词表和所述第一向量表示,获取输出文本在所述补充词表中的第二概率分布,所述输出层包括全连接层和激励层。
4.根据权利要求2所述的方法,其特征在于,所述使用补充模型根据k个所述文本片段和补充词表,计算输出文本在所述补充词表中的第二概率分布,包括:
将k个所述文本片段分别向k个解码器中相应的解码器输入,获取k个第二向量表示;
将k个所述第二向量表示分别向k个输出层中相应的输出层输入,获取k个输出文本在所述补充词表中的预选概率分布,所述输出层包括全连接层和激励层;
将k个所述预选概率分布中置信度最高的预选概率分布,作为输出文本在所述补充词表中的第二概率分布。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述补充模型包括第一编码器和第二编码器,所述使用补充模型根据包含补充词组的输入文本与s个所述文本片段的相似度,确定相似度最高的k个所述文本片段,包括:
使用第一编码器,获取包含补充词组的输入文本的输入向量表示;
使用第二编码器,分别获取s个所述文本片段的s个片段向量表示;
将所述输入向量表示分别与s个所述片段向量表示进行点积运算,获取s个相似度;
从s个相似度中确定相似度最高的k个相似度对应的k个所述文本片段。
6.根据权利要求2-4中任一项所述的方法,其特征在于,所述使用所述补充模型根据所述预测概率分布、所述预定义词表和所述补充词表,确定输出文本的预测序列,包括:
对所述第一概率分布和所述第二概率分布进行加权求和,获取预测概率分布;
根据所述预测概率分布,从所述预定义词表和所述补充词表中确定输出文本的预测序列。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述输出文本的真实序列和所述预测序列,确定目标函数,包括:
通过最大化所述输出文本的真实序列与所述预测序列的对数似然估计,确定目标函数。
8.根据权利要求3或4所述的方法,其特征在于,所述解码器采用注意力机制。
9.根据权利要求5所述的方法,其特征在于,所述第一编码器和/或所述第二编码器,是基于注意力机制的采用双向编码方式的预训练语言模型。
10.一种文本生成装置,其特征在于,包括:
语料库获取模块,用于获取补充语料库,所述补充语料库包括s个文本片段;
文本片段检索模块,用于使用补充模型根据包含补充词组的输入文本与s个所述文本片段的相似度,确定相似度最高的k个所述文本片段,所述k小于或等于所述s,所述补充词组与所述补充语料库相匹配;
预测序列确定模块,用于使用所述补充模型基于根据第一概率分布和第二概率分布确定的预测概率分布,确定输出文本的预测序列,其中,所述第一概率分布是使用大模型根据所述输入文本预测的,所述第二概率分布是使用所述补充模型根据k个所述文本片段预测的;
目标函数确定模块,用于根据所述输出文本的真实序列和所述预测序列,确定目标函数;
模型训练模块,用于使用所述目标函数训练所述补充模型;
混合大模型确定模块,用于根据训练后的所述补充模型和所述大模型,确定混合大模型;
文本生成模块,用于向所述混合大模型输入待处理的输入文本,生成目标输出文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311034228.8A CN117171299A (zh) | 2023-08-15 | 2023-08-15 | 一种文本生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311034228.8A CN117171299A (zh) | 2023-08-15 | 2023-08-15 | 一种文本生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117171299A true CN117171299A (zh) | 2023-12-05 |
Family
ID=88932813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311034228.8A Pending CN117171299A (zh) | 2023-08-15 | 2023-08-15 | 一种文本生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117171299A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573815A (zh) * | 2024-01-17 | 2024-02-20 | 之江实验室 | 一种基于向量相似度匹配优化的检索增强生成方法 |
-
2023
- 2023-08-15 CN CN202311034228.8A patent/CN117171299A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573815A (zh) * | 2024-01-17 | 2024-02-20 | 之江实验室 | 一种基于向量相似度匹配优化的检索增强生成方法 |
CN117573815B (zh) * | 2024-01-17 | 2024-04-30 | 之江实验室 | 一种基于向量相似度匹配优化的检索增强生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN111625634A (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN116450796A (zh) | 一种智能问答模型构建方法及设备 | |
CN117171299A (zh) | 一种文本生成方法和装置 | |
Chien et al. | Self Attention in Variational Sequential Learning for Summarization. | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN116303977B (zh) | 一种基于特征分类的问答方法及系统 | |
CN111444328A (zh) | 一种带有解释生成的自然语言自动预测推断方法 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN117435716B (zh) | 电网人机交互终端的数据处理方法及系统 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113177113B (zh) | 任务型对话模型预训练方法、装置、设备及存储介质 | |
CN116226357B (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
Popattia et al. | Guiding attention using partial-order relationships for image captioning | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
CN115617959A (zh) | 问题解答方法及装置 | |
CN114996424B (zh) | 一种基于深度学习的弱监督跨域问答对生成方法 | |
CN112530414B (zh) | 迭代式大规模发音词典构建方法及装置 | |
CN117633183A (zh) | 一种文本生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |