CN114547266B

CN114547266B - 信息生成模型的训练方法、生成信息的方法、装置和设备

Info

Publication number: CN114547266B
Application number: CN202210159291.3A
Authority: CN
Inventors: 雷泽阳; 徐新超; 吴文权; 牛正雨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2023-06-30
Anticipated expiration: 2042-02-21
Also published as: JP2023017983A; CN114547266A; US20230075339A1

Abstract

本公开提供了一种信息生成模型的训练方法、生成信息的方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及自然语言处理领域和深度学习领域，可应用于生成推荐信息等场景下。信息生成模型的训练方法的具体实现方案为：将信息对中针对目标对象的描述信息拆分为至少一个描述词，得到描述词序列；其中，信息对还包括第一推荐信息；将描述词序列输入对话生成模型，得到针对目标对象的概率向量序列，该概率向量序列中的每个概率向量包括针对多个预定词的概率值；以及根据概率向量序列和第一推荐信息，训练对话生成模型，得到信息生成模型。

Description

信息生成模型的训练方法、生成信息的方法、装置和设备

技术领域

本公开涉及人工智能领域，具体涉及自然语言处理和深度学习技术领域，尤其涉及一种信息生成模型的训练方法、生成信息的方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和网络技术的发展，通过自然语言处理技术来生成信息的方法得到普及。为了利于信息的推广，需要考虑信息的连贯性和非重复性。

发明内容

本公开旨在提供一种提高所生成信息的多样性的信息生成模型的训练方法、生成信息的方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种信息生成模型的训练方法，包括：将信息对中针对目标对象的描述信息拆分为至少一个描述词，得到描述词序列；其中，信息对还包括第一推荐信息；将描述词序列输入对话生成模型，得到针对目标对象的概率向量序列，该概率向量序列中的每个概率向量包括针对多个预定词的概率值；以及根据概率向量序列和第一推荐信息，训练对话生成模型，得到信息生成模型。

根据本公开的一个方面，提供了一种生成信息的方法，包括：将待推荐对象的描述信息拆分为至少一个描述词，得到描述词序列；将描述词序列输入信息生成模型，得到针对待推荐对象的概率向量序列；概率向量序列中的每个概率向量包括针对多个预定词的概率值；以及根据概率向量序列，确定针对待推荐对象的推荐信息，其中，信息生成模型是采用本公开提供的信息生成模型的训练方法训练的。

根据本公开的一个方面，提供了一种信息生成模型的训练装置，包括：第一拆分模块，用于将信息对中针对目标对象的描述信息拆分为至少一个描述词，得到描述词序列；其中，信息对还包括第一推荐信息；序列获得模块，用于将描述词序列输入对话生成模型，得到针对目标对象的概率向量序列，该概率向量序列中的每个概率向量包括针对多个预定词的概率值；以及训练模块，用于根据概率向量序列和第一推荐信息，训练对话生成模型，得到信息生成模型。

根据本公开的一个方面，提供了一种生成信息的装置，包括：拆分模块，用于将待推荐对象的描述信息拆分为至少一个描述词，得到描述词序列；序列获得模块，用于将描述词序列输入信息生成模型，得到针对待推荐对象的概率向量序列；概率向量序列中的每个概率向量包括针对多个预定词的概率值；以及信息确定模块，用于根据概率向量序列，确定针对待推荐对象的推荐信息，其中，信息生成模型是采用本公开提供的信息生成模型的训练装置训练的。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的信息生成模型的训练方法和/或生成信息的方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的信息生成模型的训练方法和/或生成信息的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的信息生成模型的训练方法和/或生成信息的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的信息生成模型的训练方法和生成信息的方法、装置的应用场景示意图；

图2是根据本公开实施例的信息生成模型的训练方法的流程示意图；

图3是根据本公开实施例的信息生成模型的训练方法的原理示意图；

图4是根据本公开另一实施例的信息生成模型的训练方法的原理示意图；

图5是根据本公开另一实施例的信息生成模型的训练方法的原理示意图；

图6是根据本公开实施例的生成信息的方法的流程示意图；

图7是根据本公开实施例的信息生成模型的训练装置的结构框图；

图8是根据本公开实施例的生成信息的装置的结构框图；以及

图9是用来实施本公开实施例的信息生成模型的训练方法和/或生成信息的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种信息生成模型的训练方法，该方法包括拆分阶段、序列获得阶段和训练阶段。在拆分阶段中，将信息对中针对目标对象的描述信息拆分为至少一个描述词，得到描述词序列；其中，信息对还包括第一推荐信息。在序列获得阶段中，将描述词序列输入对话生成模型，得到针对目标对象的概率向量序列，该概率向量序列中的每个概率向量包括针对多个预定词的概率值。在训练阶段中，根据概率向量序列和第一推荐信息，训练对话生成模型，得到信息生成模型。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的信息生成模型的训练方法和生成信息的方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

根据本公开的实施例，该电子设备110例如可以提供有人机交互界面，用于经由用户操作获得描述信息120。该描述信息120例如可以是针对待推广物品的。电子设备110例如可以根据获得的描述信息120来生成针对待推广物品的推荐信息130。

示例性地，电子设备110例如可以采用文本摘要抽取技术来从描述信息120中抽取关键词或关键片段，并将抽取的关键词或关键片段排列组合，从而得到推荐信息130。

示例性地，电子设备还可以采用端到端的信息生成模型，将描述信息120输入该信息生成模型中，由信息生成模型输出推荐信息130。其中，端到端的信息生成模型可以是使用收集到的广告语料训练得到的。其中，信息生成模型可以采用循环神经网络(RecurrentNeural Network，RNN)，具体可以采用双向循环神经网络(Bi-directional RecurrentNeural Network，BiRNN)、门控循环单元(Gated Recurrent Unit，GRU)、长短期记忆网络(Long Short-Term Memory，二LSTM)。或者，该信息生成模型还可以采用Transformer模型等。

根据本公开的实施例，如图1所示，该应用场景100还可以包括服务器150。该服务器150可以根据语料对信息生成模型进行训练，并响应于电子设备110发送的获取请求，将训练得到的信息生成模型140发送给定子设备110，以便于电子设备110采用该信息生成模型140来生成待推广物品的推荐信息。可以理解的是，电子设备110还可以将获得的描述信息120发送给服务器150，由服务器150采用信息生成模型140来生成待推广物品的推荐信息。

可以理解的是，电子设备110可以通过网络与服务器150通信连接，网络可以为有线或无线通信链路。服务器150可以是提供各种服务的服务器，例如可以为对电子设备110运行的人机交互界面提供支持的后台管理服务器(仅为示例)。该服务器150也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开提供的生成信息的方法可以由电子设备110执行，也可以由服务器150执行。相应地，本公开提供的生成信息的装置可以设置在电子设备110中，也可以设置在服务器150中。本公开提供的信息生成模型的训练方法可以由服务器150执行。相应地，本公开提供的信息生成模型的训练装置可以设置在服务器150中。

应该理解，图1中的电子设备110和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器150。

以下将结合图1，通过以下图2～图5对本公开提供的信息生成模型的训练方法进行详细描述。

图2是根据本公开实施例的信息生成模型的训练方法的流程示意图。

如图2所示，该实施例的信息生成模型的训练方法200可以包括操作S210～操作S230。

在操作S210，将信息对中针对目标对象的描述信息拆分为至少一个描述词，得到描述词序列。

根据本公开的实施例，信息对可以包括描述信息和推荐信息。例如，描述信息和推荐信息可以是针对同一目标对象的，如此，信息对可以作为正样本。例如，描述信息和推荐信息可以是针对不同的目标对象的，如此，信息对可以作为负样本。例如，信息对可以为多个，多个信息对中可以同时包括正样本和负样本。其中，目标对象例如可以为服饰、食品或家具等任意的已被推广的物品。

根据本公开的实施例，可以采用分词工具来对描述信息进行拆分，从而得到描述词序列。其中，分词工具可以为结巴分词工具、甲骨分词工具或NLPIR分词工具等，本公开对此不做限定。例如，若描述信息为“儿童羽绒服”，则通过分词可以得到由词“儿童”和词“羽绒服”构成的词序列，该词序列即为描述词序列。

可以理解的是，第一推荐信息可以为已推广目标对象的推荐信息，或者通过人工方式设定的推荐信息等，该第一推荐信息具体可以为已推广的目标对象的推荐广告语等，本公开对此不做限定。

在操作S220，将描述词序列输入对话生成模型，得到针对目标对象的概率向量序列。

根据本公开的实施例，对话生成模型例如可以包括编码网络和解码网络。其中，编码网络和解码网络可以从卷积神经网络(Convolutional Neural Network，CNN)、RNN、自注意力网络中选择。其中，RNN可以包括BiRNN、GRU或LSTM等。该实施例可以将描述词序列直接输入对话生成模型，由对话生成模型输出概率向量序列。或者，该实施例可以先对描述词序列中的各个词进行嵌入表示，从而得到表示各个词的词特征向量。该词特征向量可以作为表示词的词符(token)，则描述词序列经嵌入表示后，可以得到token序列。将该token序列输入对话生成模型，可以得到概率向量序列。需要说明的是，该概率向量序列中的各概率向量是依次输出的，token序列中的多个token可以同时输入对话生成模型。

在一实施例中，对话生成模型可以采用包括带离散隐变量的预训练对话生成模型，以此可以对对话中的“一对多”关系进行有效建模，利于提高生成的推荐信息的多样性。其中，该带离散隐变量的预训练对话生成模型可以为“柏拉图”(PLATO)系列的模型，例如可以为PLATO-2模型，本公开对此不做限定。

根据本公开的实施例，得到的概率向量序列可以包括多个概率向量，每个概率向量可以包括针对多个预定词的概率值。该每个概率向量可以为表示一个推荐词的token，多个预定词可以为预先定义的词典中包括的词。

在操作S230，根据概率向量序列和第一推荐信息，训练对话生成模型，得到信息生成模型。

根据本公开的实施例，可以先将第一推荐信息拆分为至少一个推荐词，从而得到推荐词序列。随后根据预先定义的词典来得到该推荐词序列中的各个推荐词的嵌入表示，得到表示该各个推荐词的词向量，如此可以将推荐词序列转换为词向量序列。该实施例可以根据词向量序列中各个词向量与概率向量序列中与各个词向量对应的概率向量之间的距离，来确定对话生成模型的损失。通过采用反向传播算法来调整对话生成模型中的网络参数，以使得对话生成模型的损失最小化，使得对话生成模型达到预定收敛条件。该实施例可以将达到预定收敛条件的对话生成模型作为信息生成模型。

在一实施例中，可以通过最大化第一推荐信息的生成概率来训练对话生成模型。例如，在得到至少一个推荐词后，可以确定概率向量序列中的第t个概率向量中针对至少一个推荐词中第t个推荐词y_t的概率值P(y_t|x，y_＜t)。其中，设定推荐词和概率向量序列中概率向量的个数均为T，则可以采用负对数似然损失(Negative Log-Likelihood loss，NLLloss)来确定对话生成模型的损失。具体地，该对话生成模型的损失L_NLL可以采用以下公式(1)来计算得到：

其中，S表示训练样本集，y_＜t表示对话生成模型在输出第t个概率向量之前所输出的信息，x表示对话生成模型的输入信息。

综上可知，本公开实施例的信息生成模型的训练方法，通过训练对话生成模型来得到生成推荐信息的信息生成模型，可以有效增加训练得到信息生成模型的语料，利于提高采用信息生成模型得到的推荐信息的多样性和连贯性，可以在一定程度上避免生成的推荐信息不符合常识，营销味过重的情况，并因此利于提高对象的推广有效性。例如，该实施例采用的对话生成模型可以是采用自然对话语料预先训练得到的模型，如此使得得到的推荐生成模型学习了较为丰厚的常识性知识。

在一实施例中，在训练对话生成模型时，可以先采用海量的自然对话数据来对对话生成模型进行预训练。该预训练原理与前述方法200的实现原理类似，在此不再赘述。在预训练之后，该实施例可以以信息推荐领域的问答语料作为训练数据来对预训练后的对话生成模型进行训练。如此，可以使得对话生成模型从自然领域向推荐领域进行迁移学习。相应地，前述操作S220中的对话生成模型可以为先预训练，随后采用信息推荐领域的问答语料进行训练之后所得到的对话生成模型。

图3是根据本公开实施例的信息生成模型的训练方法的原理示意图。

根据本公开的实施例，可以为信息生成模型提供提示信息，以此使得生成的推荐信息更为符合实际需求，使得推荐信息能够更好地体现出待推广物品的亮点。其中，提示信息与前文提及的描述信息例如均可以由目标对象的生产方或销售方提供。

具体地，如图3所示，该实施例300中，在通过人机交互界面获得描述信息310和提示信息320后，可以采用前文描述的分词工具，将描述信息310划分为至少一个描述词，从而得到描述词序列311，同时将提示信息320划分为至少一个提示词，从而得到提示词序列321。随后，可以将描述词序列311和提示词序列321均输入描述的对话生成模型301，由对话生成模型301输出概率向量序列。例如，若描述信息为“儿童羽绒服”，则提示信息可以为“休闲保暖、包邮”，相应地，提示词序列321可以为由词“休闲”、词“保暖”和词“包邮”构成的词序列。

根据本公开的实施例，在得到概率向量序列330后，还可以根据该概率向量序列330确定第二推荐信息包括提示信息320的预测概率。并以第二推荐信息包括提示信息320为训练目标，根据第二推荐信息包括提示信息320的预测概率来对对话生成模型进行训练。如此，可以提高生成的推荐信息中包括提示信息的概率，使得生成的推荐信息更为符合实际需求。

在一实施例中，可以先根据概率向量序列330确定前述的第二推荐信息。具体可以针对每个概率向量，确定该每个概率向量中的最大概率值所对应的预定词，得到一个预测词。将得到的多个预测词根据概率向量在概率向量序列330中的位置来排序，并将多个预测词组合，从而构成第二推荐信息。随后，可以采用提示词序列中的每个词查询该第二推荐信息，确定该第二推荐信息是否包括该每个词，将第二推荐信息包括提示词序列中词的比例作为第二推荐信息包括提示信息的预测概率。

例如，若排序得到的多个预测词为词“这款”、词“儿童”、词“羽绒服”、词“舒适”、词“保暖”、词“A”、词“地区”和词“包邮”，则第二推荐信息可以为“这款儿童羽绒服，舒适保暖，A地区包邮”。

在一实施例中，可以针对提示词序列321中的每个提示词，根据概率向量序列中所有概率向量针对该每个提示词的概率值，确定第二推荐信息包括该每个提示词的概率。具体可以根据所有概率向量得到针对该每个提示词的至少一个概率值，该实施例可以将该至少一个概率值的平均值或者最小值等作为第二推荐信息包括该每个提示词的概率。对于提示词序列321包括的至少一个提示词，可以得到第二推荐信息包括该至少一个提示词的至少一个概率340。该实施例可以根据该至少一个概率340，来确定第二推荐信息包括提示信息320的预测概率350。例如，可以将该至少一个概率340的和作为预测概率350。

在得到第二推荐信息包括提示信息的预测概率350后，该实施例可以根据该第一概率确定对话生成模型301的第一损失值360。随后根据该第一损失值360来训练对话生成模型301。例如，可以采用预定损失函数来确定第一损失值360，该预定损失函数中的自变量为预测概率350，因变量为第一损失值360，且该第一损失值360与预测概率350负相关，从而达到第二推荐信息包括提示信息320的训练目标。

在一实施例中，确定第一损失值360的预定损失函数可以采用以下公式(2)来表示：

其中，k_j表示至少一个提示词中的第j个提示词，p_i(k_j|x，y_＜t)表示概率向量序列中第i个概率向量针对第j个提示词的概率值，N为至少一个提示词的总个数，T为概率向量序列包括的概率向量的总个数，L_k为第一损失值。

本公开实施例通过将提示信息输入对话生成模型，并根据第二推荐信息包括提示信息的预测概率来训练对话生成模型，可以达到对话生成模型生成的词在一定程度上可控的效果。如此，在使用训练得到的信息生成模型生成推荐信息时，可以使得推荐信息中包括期望出现的提示信息。

图4是根据本公开另一实施例的信息生成模型的训练方法的原理示意图。

根据本公开的实施例，还可以根据概率向量序列指示的第二推荐信息与描述信息之间的关联关系，来对对话生成模型进行训练，以此使得第二推荐信息的主题更为靠近描述信息描述的主题，以此在一定程度上提高采用训练得到的信息生成模型所生成的推荐信息的精度。

在一实施例中，该实施例可以采用前文描述的方法来根据概率向量序列确定第二推荐信息。随后确定该第二推荐信息与描述信息之间的关联关系，并根据该关联关系确定对话生成模型的第二损失值。最后，根据该第二损失值训练对话生成模型。

例如，可以采用第二推荐信息与描述信息之间的语义相似度来表示关联关系。例如，可以采用语义特征提取模型来提取第二推荐信息的语义特征和描述信息的语义特征，将两个语义特征之间的相似度作为语义相似度。语义特征提取模型可以采用LSTM模型等，本公开对此不做限定。或者，可以采用第二推荐信息与描述信息之间的主题相似度来表示关联关系。其中，可以采用主题提取模型来提取第二推荐信息的主题和描述信息的主题，将两个主题之间的相似度作为主题相似度。主题提取模型可以采用潜在狄利克雷分布(Latent Dirichlet Allocation，LDA)模型等，本公开对此不做限定。相应地，该实施例可以采用与该语义相似度或主题相似度负相关的预定损失函数来确定第二损失值。

在一实施例中，对话生成模型可以采用带离散隐变量的预训练对话生成模型。如图4所示，该实施例400可以为对话生成模型添加辅助任务(Auxiliary task)，以使得该对话生成模型进行多任务学习。具体地，可以为该对话生成模型的输入添加一个标识位410，即增加一个token，该标识位410可以采用任意的随机标识信息。可以理解的是，该标识位与输入前述PLATO-2模型的隐变量位的作用类似，本公开对此不再赘述。在训练对话生成模型401时，该实施例可以将该标识位410采用的随机标识信息和描述词序列420输入对话生成模型401，由对话生成模型输出与随机标识信息对应的关联预测值430和概率向量序列440。其中，该关联预测值430可用于指示第二推荐信息与描述信息之间的关联关系。

该实施例可以以最大化该关联预测值为目标训练对话生成模型。即第二损失与该关联预测值负相关。例如，可以先根据该关联预测值430，采用预定损失函数来确定第二损失值450，随后以最小化该第二损失值450为目标训练该对话生成模型401。同时，该实施例还可以采用前文描述的公式(1)，根据概率向量序列440来确定负对数似然损失值5460。该实施例可以采用该第二损失值450与负对数似然损失值460的加权和来确定总损失值470，并根据该总损失值训练对话生成模型401。

例如，确定第二损失值450的预定损失函数可以采用交叉熵损失函数，本公开对此不做限定。

在一实施例中，在考虑第二损失值450的同时，还可以考虑前文描述的第一损失值，如此，输入对话生成模型的不仅包括随机标识信息和描述词序列，还包括提示词序列。该实施例可以将负对数似然损失值460、第二损失值450和前文描述的第一损失值的加权和来确定总损失值。可以理解的是，计算加权和时采用的权重系数可以根据实际需求进行设定，本公开对此不做限定。

该实施例通过采用带离散隐变量的预训练对话生成模型作为对话生成模型，并为该对话生成模型的输入添加随机标识信息，可以使得对话生成模型能够完成多任务学习。输出的与标识位对应的关联预测值可以在一定程度上提供指导作用，具体可以在采用训练得到的信息生成模型生成推荐信息时，为该推荐信息是否可以被采用提供指导作用。

图5是根据本公开另一实施例的信息生成模型的训练方法的原理示意图。

根据本公开的实施例，还可以以生成的推荐信息不包括重复的词为目标训练对话生成模型，以此使得采用训练得到的信息生成模型生成的推荐信息更为简洁通顺，利于推荐信息所针对的待推荐对象的推广。

在一实施例中，可以采用前文描述的类似方法，根据概率向量序列确定针对目标对象的第二推荐信息。随后可以确定第二推荐信息过程中所得到的多个预测词中是否存在重复的词，若存在重复的词，可以根据该重复的词在第二推荐信息中的位置信息，确定概率向量序列中与重复的词对应的概率向量，将该概率向量作为目标概率向量。具体地，例如多个预测词依次为A、B、C、A、D，且该多个预测词分别为概率向量序列中的五个概率向量所包括的最大概率值所针对的词。由于多个预测词中第一个词与第四个词重复，该实施例可以将五个概率向量中第一个概率向量和第四个概率向量作为目标概率向量。随后，该实施例可以根据目标概率向量，来确定对话生成模型的第三损失值。例如，该实施例可以根据目标概率向量中的任意一个概率向量所包括的最大概率值来确定第三损失值。可以理解的是，该任意一个概率向量所包括的最大概率值即为该任意一个概率向量包括的针对重复的词的概率，即还可以根据目标概率向量和重复的词，来确定第三损失值。

在一实施例中，还可以根据信息对中第一推荐信息包括的重复的词，来确定概率向量序列中的目标概率向量。这是由于对话生成模型的训练目的是为了使得第二推荐信息与第一推荐信息一致。根据该第一推荐信息包括的重复的词来确定目标概率向量，可以提高训练效率。

具体地，如图5所示，该实施例500在训练对话生成模型501时，在将描述词序列W_d510输入对话生成模型501，并得到概率向量序列V_p 520的同时，可以将第一推荐信息拆分为至少一个推荐词，得到推荐词序列W_t 530。其中，描述词序列W_d 510可以包括描述词W_d1～描述词W_dM，共计M个描述词。推荐词序列W_t 530可以包括推荐词W_d1～推荐词W_dT，共计T个推荐词。概率向量序列V_p 520包括概率向量V_p1～V_pT共计T个概率向量。

在得到推荐词序列W_t 530后，该实施例可以确定推荐词序列中是否存在重复的词。若不存在重复的词，则确定第三损失值为0。若存在重复的词，则可以根据重复的词在实际词序列中的位置信息，来确定概率向量序列中与重复的词对应的概率向量。例如，若实际词序列中推荐词W_d1与推荐词W_d3为重复的词，则概率向量序列V_p 520中与该重复的词对应的概率向量为概率向量V_p1和概率向量V_p3，即目标概率向量包括概率向量V_p1和概率向量V_p3。在确定目标概率向量后，该实施例可以根据目标概率向量和重复的词，确定对话生成模型的第三损失值。例如，可以根据目标概率向量中任一向量包括的针对重复的词的概率值，来确定第三损失值。例如，还可以将重复的词中，位置靠后的词所对应的概率向量作为目标概率向量，根据该目标概率向量包括的针对重复的词的概率值，确定第三损失值。

根据本公开的实施例，第三损失值可以与目标概率向量包括的针对重复的词的概率值正相关。以此，通过根据该第三损失值训练对话生成模型，可以最小化目标概率向量中针对重复的词的概率值，降低重复词出现的概率。可以理解的是，在第二推荐信息中重复的词不止一种时，则针对每种重复词，可以确定一组目标概率向量，该实施例可以根据每组目标概率向量确定一个损失值，将确定的多个损失值的和作为第三损失值。

在一实施例中，第三损失值L_rep可以采用以下公式(3)来表示：

L_rep＝∑_c∈C-log(1-p(c|x，y_＜t))。公式(3)

其中，C为重复的词构成的重复词集，c为重复词集中的任一重复词，x为对话生成模型的输入信息，y_＜t表示对话生成模型在输出第t个概率向量(即目标概率向量)之前所输出的信息，p(c|x，y_＜t)表示目标概率向量包括的针对重复词c的概率值。

可以理解的是，该实施例还可以将该第三损失值与前述通过公式(1)得到的负对数似然损失值的加权和作为总损失值，来对对话生成模型进行训练。

可以理解的是，该实施例还可以根据前文描述的负对数似然损失值及第一损失值～第三损失值的任意组合来确定总损失值，并根据该总损失值来对对话生成模型进行训练。

基于本公开提供的信息生成模型的训练方法所训练得到的信息生成模型，本公开还提供了一种生成信息的方法，以下将结合图6对该方法进行详细描述。

图6是根据本公开实施例的生成信息的方法的流程示意图。

如图6所示，该实施例的生成信息的方法600可以包括操作S610～操作S630。

在操作S610，将待推荐对象的描述信息拆分为至少一个描述词，得到描述词序列。

根据本公开的实施例，待推荐对象与前文描述的目标对象类似，该操作S610的实现方式与前文描述的操作S210的实现方式类似，在此不再赘述。

在操作S620，将描述词序列输入信息生成模型，得到针对待推荐对象的概率向量序列。

其中，概率向量序列中的每个概率向量包括针对多个预定词的概率值。信息生成模型是采用本公开提供的信息生成模型的训练方法训练的。该操作S620与前文描述的操作S220的实现方式类似，在此不再赘述。

在操作S630，根据概率向量序列，确定针对待推荐对象的推荐信息。

根据本公开的实施例，可以采用与前文描述的根据概率向量序列确定第二推荐信息的方法类似的方法，来实现操作S630，在此不再赘述。

根据本公开的实施例，生成信息的方法600还可以包括将针对待推荐对象的提示信息拆分为至少一个提示词，得到提示词序列的操作。如此前文描述的操作S620具体可以将描述词序列和提示词序列输入对话生成模型，得到概率向量序列。该实施例的实现原理与前文描述的实施例300得到概率向量序列的原理类似，在此不再赘述。

根据本公开的实施例，对话生成模型可以包括带离散隐变量的预训练对话生成模型。前文描述的操作S620具体可以将随机标识信息和描述词序列输入对话生成模型，得到与随机标识信息对应的关联值及概率向量序列。其中，关联值指示推荐信息与描述信息之间的关联关系。该实施例的实现原理与前文描述的实施例400得到关联预测值和概率向量序列的原理类似，在此不再赘述。

需要说明的是，由于本公开提供的生成信息的方法，采用了对对话生成模型训练所得到的模型，因此在对输入模型的信息进行语义理解的同时，还可以对输入模型的带有疑问的信息进行适当的解答，可以使得得到的推荐信息可以提供常识性知识，利于提高推荐信息所针对的待推荐对象的推广有效性。例如，若输入模型的信息包括“护肤成分XXX有什么用”，得到的推荐信息中可以包括“护肤成分XXX可以填充面部的皱纹和凹陷，且可以使得肌肤更为水润”等。

基于本公开提供的信息生成模型的训练方法，本公开还提供了一种信息生成模型的训练装置，以下将结合图7对该装置进行描述。

图7是根据本公开实施例的信息生成模型的训练装置的结构框图。

如图7所示，该实施例的信息生成模型的训练装置700包括第一拆分模块710、序列获得模块720和训练模块730。

第一拆分模块710用于将信息对中针对目标对象的描述信息拆分为至少一个描述词，得到描述词序列；其中，信息对还包括第一推荐信息。在一实施例中，第一拆分模块710可以用于执行前文描述的操作S210，在此不再赘述。

序列获得模块720用于将描述词序列输入对话生成模型，得到针对目标对象的概率向量序列。其中，概率向量序列中的每个概率向量包括针对多个预定词的概率值。在一实施例中，序列获得模块720可以用于执行前文描述的操作S220，在此不再赘述。

训练模块730用于根据概率向量序列和第一推荐信息，训练对话生成模型，得到信息生成模型。在一实施例中，训练模块730可以用于执行前文描述的操作S230，在此不再赘述。

根据本公开的实施例，装置700还可以包括第二拆分模块，用于将针对目标对象的提示信息拆分为至少一个提示词，得到提示词序列。上述序列获得模块720具体可以用于将描述词序列和提示词序列输入对话生成模型，得到概率向量序列。

根据本公开的实施例，上述概率向量序列可以指示针对目标对象的第二推荐信息。装置700还可以包括概率确定模块和第一损失确定模块。概率确定模块用于根据概率向量序列，确定第二推荐信息包括提示信息的预测概率。第一损失确定模块用于根据预测概率确定对话生成模型的第一损失值。上述训练模块730还可以用于根据第一损失值训练对话生成模型。

根据本公开的实施例，上述概率确定模块可以包括备选确定子模块和概率确定子模块。第一确定子模块用于根据概率向量序列中针对提示词序列中每个提示词的概率值，确定第二推荐信息包括每个提示词的概率。第二确定子模块用于根据第二推荐信息包括至少一个提示词的至少一个概率，确定第二推荐信息包括提示信息的预测概率。

根据本公开的实施例，概率向量序列指示针对目标对象的第二推荐信息。装置700还可以包括第二损失确定模块，用于根据第二推荐信息与描述信息之间的关联关系，确定对话生成模型的第二损失值。上述训练模块730还可以用于根据第二损失值训练对话生成模型。

根据本公开的实施例，对话生成模型可以包括带离散隐变量的预训练对话生成模型。上述序列获得模块720具体可以用于将随机标识信息和描述词序列输入对话生成模型，得到与随机标识信息对应的关联预测值及概率向量序列。其中，关联预测值指示第二推荐信息与描述信息之间的关联关系。

根据本公开的实施例，装置700还可以包括信息确定模块、第一向量确定模块和第三损失确定模块。信息确定模块用于根据概率向量序列确定针对目标对象的第二推荐信息。第一向量确定模块用于响应于第二推荐信息中存在重复的词，根据重复的词在第二推荐信息中的位置信息，确定概率向量序列中与重复的词对应的概率向量，作为目标概率向量。第三损失确定模块用于根据目标概率向量和重复的词，确定对话生成模型的第三损失值。其中，上述训练模块730还可以用于根据第三损失值训练对话生成模型。

根据本公开的实施例，装置700还可以包括第三拆分模块、第二向量确定模块和第四损失确定模块。第三拆分模块用于将第一推荐信息拆分为至少一个推荐词，得到推荐词序列。第二向量确定模块用于响应于推荐词序列中存在重复的词，根据重复的词在推荐词序列中的位置信息，确定概率向量序列中与重复的词对应的概率向量，作为目标概率向量。第四损失确定模块用于根据目标概率向量和重复的词，确定对话生成模型的第三损失值。其中，上述训练模块730还可以用于根据第三损失值训练对话生成模型。

根据本公开的实施例，对话生成模型包括带离散隐变量的预训练对话生成模型。

图8是根据本公开实施例的生成信息的装置的结构框图。

如图8所示，该实施例的生成信息的装置800可以包括第一拆分模块810、序列获得模块820和信息确定模块830。

第一拆分模块810用于将待推荐对象的描述信息拆分为至少一个描述词，得到描述词序列。在一实施例中，第一拆分模块810可以用于执行前文描述的操作S610，在此不再赘述。

序列获得模块820用于将描述词序列输入信息生成模型，得到针对待推荐对象的概率向量序列。其中，概率向量序列中的每个概率向量包括针对多个预定词的概率值，信息生成模型可以是采用本公开提供的信息生成模型的训练装置训练得到的。在一实施例中，序列获得模块820可以用于执行前文描述的操作S620，在此不再赘述。

信息确定模块830用于根据概率向量序列，确定针对待推荐对象的推荐信息。在一实施例中，信息确定模块830可以用于执行前文描述的操作S630，在此不再赘述。

根据本公开的实施例，装置800还可以包括第二拆分模块，用于将针对待推荐对象的提示信息拆分为至少一个提示词，得到提示词序列。上述序列获得模块820具体可以用于将描述词序列和提示词序列输入对话生成模型，得到概率向量序列。

根据本公开的实施例，对话生成模型可以包括带离散隐变量的预训练对话生成模型。上述序列获得模块820具体可以用于将随机标识信息和描述词序列输入对话生成模型，得到与随机标识信息对应的关联值及概率向量序列。其中，关联值指示推荐信息与描述信息之间的关联关系。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开实施例的信息生成模型的训练方法和/或生成信息的方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如信息生成模型的训练方法和/或生成信息的方法。例如，在一些实施例中，信息生成模型的训练方法和/或生成信息的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的信息生成模型的训练方法和/或生成信息的方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息生成模型的训练方法和/或生成信息的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息生成模型的训练方法，包括：

将信息对中针对目标对象的描述信息拆分为至少一个描述词，得到描述词序列；其中，所述信息对还包括第一推荐信息；

将所述描述词序列输入对话生成模型，得到针对所述目标对象的概率向量序列；所述概率向量序列中的每个概率向量包括针对多个预定词的概率值；以及

根据所述概率向量序列和所述第一推荐信息，训练所述对话生成模型，得到所述信息生成模型，

其中，所述概率向量序列指示针对所述目标对象的第二推荐信息；

所述根据所述概率向量序列和所述第一推荐信息，训练所述对话生成模型包括：

根据所述概率向量序列，确定所述第二推荐信息包括提示信息的预测概率；所述提示信息是针对所述目标对象的；

根据所述预测概率确定所述对话生成模型的第一损失值；

根据所述第二推荐信息与所述描述信息之间的关联关系，确定所述对话生成模型的第二损失值；以及

根据所述第一损失值、所述第二损失值和所述第一推荐信息，训练所述对话生成模型。

2.根据权利要求1所述的方法，还包括：

将针对所述目标对象的提示信息拆分为至少一个提示词，得到提示词序列；

其中，所述将所述描述词序列输入对话生成模型，得到针对所述目标对象的概率向量序列包括：将所述描述词序列和所述提示词序列输入所述对话生成模型，得到概率向量序列。

3.根据权利要求2所述的方法，其中，所述根据所述概率向量序列，确定所述第二推荐信息包括所述提示信息的预测概率包括：

根据所述概率向量序列中针对所述提示词序列中每个提示词的概率值，确定所述第二推荐信息包括所述每个提示词的概率；以及

根据所述第二推荐信息包括所述至少一个提示词的至少一个概率，确定所述第二推荐信息包括所述提示信息的预测概率。

4.根据权利要求1所述的方法，其中，所述对话生成模型包括带离散隐变量的预训练对话生成模型；所述将所述描述词序列输入对话生成模型，得到针对所述目标对象的概率向量序列包括：

将随机标识信息和所述描述词序列输入所述对话生成模型，得到与所述随机标识信息对应的关联预测值及概率向量序列，

其中，所述关联预测值指示所述第二推荐信息与所述描述信息之间的关联关系。

5.根据权利要求1所述的方法，还包括：

响应于所述第二推荐信息中存在重复的词，根据重复的词在所述第二推荐信息中的位置信息，确定所述概率向量序列中与重复的词对应的概率向量，作为目标概率向量；以及

根据所述目标概率向量和重复的词，确定所述对话生成模型的第三损失值；

其中，所述根据所述概率向量序列和所述第一推荐信息，训练所述对话生成模型还包括：根据所述第一损失值、所述第二损失值和所述第三损失值训练所述对话生成模型。

6.根据权利要求1所述的方法，还包括：

将所述第一推荐信息拆分为至少一个推荐词，得到推荐词序列；

响应于所述推荐词序列中存在重复的词，根据重复的词在所述推荐词序列中的位置信息，确定所述概率向量序列中与重复的词对应的概率向量，作为目标概率向量；以及

7.一种生成信息的方法，包括：

将待推荐对象的描述信息拆分为至少一个描述词，得到描述词序列；

将所述描述词序列输入信息生成模型，得到针对所述待推荐对象的概率向量序列；所述概率向量序列中的每个概率向量包括针对多个预定词的概率值；以及

根据所述概率向量序列，确定针对所述待推荐对象的推荐信息，

其中，所述信息生成模型是采用权利要求1～6中任一项所述的方法训练的。

8.根据权利要求7所述的方法，还包括：

将针对所述待推荐对象的提示信息拆分为至少一个提示词，得到提示词序列；

其中，所述将所述描述词序列输入信息生成模型，得到针对所述待推荐对象的概率向量序列包括：将所述描述词序列和所述提示词序列输入所述对话生成模型，得到所述概率向量序列。

9.根据权利要求7或8所述的方法，其中，所述对话生成模型包括带离散隐变量的预训练对话生成模型；所述将所述描述词序列输入信息生成模型，得到针对所述待推荐对象的概率向量序列包括：

将随机标识信息和所述描述词序列输入所述对话生成模型，得到与所述随机标识信息对应的关联值及所述概率向量序列，

其中，所述关联值指示所述推荐信息与所述描述信息之间的关联关系。

10.一种信息生成模型的训练装置，包括：

第一拆分模块，用于将信息对中针对目标对象的描述信息拆分为至少一个描述词，得到描述词序列；其中，所述信息对还包括第一推荐信息；

序列获得模块，用于将所述描述词序列输入对话生成模型，得到针对所述目标对象的概率向量序列；所述概率向量序列中的每个概率向量包括针对多个预定词的概率值，所述概率向量序列指示针对所述目标对象的第二推荐信息；

概率确定模块，用于根据所述概率向量序列，确定所述第二推荐信息包括提示信息的预测概率；所述提示信息是针对所述目标对象的；以及

第一损失确定模块，用于根据所述预测概率确定所述对话生成模型的第一损失值；

第二损失确定模块，用于根据所述第二推荐信息与所述描述信息之间的关联关系，确定所述对话生成模型的第二损失值；以及

训练模块，用于根据所述第一损失值、所述第二损失值和所述第一推荐信息，训练所述对话生成模型，得到所述信息生成模型。

11.根据权利要求10所述的装置，还包括：

第二拆分模块，用于将针对所述目标对象的提示信息拆分为至少一个提示词，得到提示词序列；

其中，所述序列获得模块用于：将所述描述词序列和所述提示词序列输入所述对话生成模型，得到概率向量序列。

12.根据权利要求11所述的装置，其中，所述概率确定模块包括：

第一确定子模块，用于根据所述概率向量序列中针对所述提示词序列中每个提示词的概率值，确定所述第二推荐信息包括所述每个提示词的概率；以及

第二确定子模块，用于根据所述第二推荐信息包括所述至少一个提示词的至少一个概率，确定所述第二推荐信息包括所述提示信息的预测概率。

13.根据权利要求10所述的装置，其中，所述对话生成模型包括带离散隐变量的预训练对话生成模型；所述序列获得模块用于：

14.根据权利要求10所述的装置，还包括：

第一向量确定模块，用于响应于所述第二推荐信息中存在重复的词，根据重复的词在所述第二推荐信息中的位置信息，确定所述概率向量序列中与重复的词对应的概率向量，作为目标概率向量；以及

第三损失确定模块，用于根据所述目标概率向量和重复的词，确定所述对话生成模型的第三损失值；

其中，所述训练模块还用于根据所述第一损失值、所述第二损失值和所述第三损失值训练所述对话生成模型。

15.根据权利要求10所述的装置，还包括：

第三拆分模块，用于将所述第一推荐信息拆分为至少一个推荐词，得到推荐词序列；

第二向量确定模块，用于响应于所述推荐词序列中存在重复的词，根据重复的词在所述推荐词序列中的位置信息，确定所述概率向量序列中与重复的词对应的概率向量，作为目标概率向量；以及

第四损失确定模块，用于根据所述目标概率向量和重复的词，确定所述对话生成模型的第三损失值；

16.一种生成信息的装置，包括：

第一拆分模块，用于将待推荐对象的描述信息拆分为至少一个描述词，得到描述词序列；

序列获得模块，用于将所述描述词序列输入信息生成模型，得到针对所述待推荐对象的概率向量序列；所述概率向量序列中的每个概率向量包括针对多个预定词的概率值；以及

信息确定模块，用于根据所述概率向量序列，确定针对所述待推荐对象的推荐信息，

其中，所述信息生成模型是采用权利要求10～15中任一项所述的装置训练的。

17.根据权利要求16所述的装置，还包括：

第二拆分模块，用于将针对所述待推荐对象的提示信息拆分为至少一个提示词，得到提示词序列；

其中，所述序列获得模块用于：将所述描述词序列和所述提示词序列输入所述对话生成模型，得到所述概率向量序列。

18.根据权利要求16或17所述的装置，其中，所述对话生成模型包括带离散隐变量的预训练对话生成模型；所述序列获得模块用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～9中任一项所述的方法。