CN112115246A

CN112115246A - 基于对话的内容推荐方法、装置、计算机设备及存储介质

Info

Publication number: CN112115246A
Application number: CN202010917784.XA
Authority: CN
Inventors: 李泽康; 张金超; 周杰; 冯洋
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Computing Technology of CAS
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Computing Technology of CAS
Priority date: 2020-08-14
Filing date: 2020-09-03
Publication date: 2020-12-22

Abstract

本申请是关于一种基于对话的内容推荐方法、装置、计算机设备及存储介质，涉及人工智能交互技术领域。所述方法包括：获取与目标用户之间的历史对话语句；将历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得对话推荐预测结果；对话推荐模型的奖励函数的输入信息包括预测回复信息以及预测推荐结果；预测回复信息包括对话推荐模型在强化学习过程中产生的预测对话回复对应的信息；预测推荐结果指示对话推荐模型在强化学习过程中从各个候选推荐内容中预测出的目标推荐内容。该对话推荐模型的优化维度包含了对话推荐模型的对话回复，从而提高了对话推荐模型的优化效果，进而提高对话推荐模型应用时的对话推荐效果。

Description

基于对话的内容推荐方法、装置、计算机设备及存储介质

本公开要求于2020年08月14日提交的申请号为202010821321.3、发明名称为“基于对话的内容推荐方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能交互技术领域，特别涉及一种基于对话的内容推荐方法、装置、计算机设备及存储介质。

背景技术

对话推荐是指在人机对话过程中，机器根据用户在对话中提供的信息进行相应的内容推荐。对话推荐可以通过对话推荐模型来实现。

在相关技术中，由于内容推荐的对话样本数量有限，因此，对话推荐模型经过预训练之后，可以与通过与另一个聊天机器人模拟的用户进行对话，以进行强化训练。比如，聊天机器人与对话推荐模型在对话过程中，按照与对话推荐模型的历史对话语句，从预先设置的对话回复集合中选择合适的对话回复，而对话推荐模型则根据与聊天机器人的历史对话语句进行内容推荐，在参数更新时，以对话推荐模型的内容推荐结果作为奖励函数的输入得到奖励值，并根据该奖励值更新对话推荐模型的参数。

在上述技术方案中，在对上述对话推荐模型的强化学习过程中，只通过推荐结果对模型进行优化，优化维度较为单一，导致对话推荐模型的优化效果较差。

发明内容

本申请实施例提供了一种基于对话的内容推荐方法、装置、计算机设备及存储介质，可以通过利用对话的回复信息进行强化训练得到的对话推荐模型来进行对话推荐，由于对话推荐模型的优化维度还包含了对话回复的信息，能够扩展了模型优化的维度，从而提高对话推荐模型的优化效果，该技术方案如下：

一方面，提供了一种基于对话的内容推荐方法，所述方法包括：

获取与目标用户之间的历史对话语句；

将所述历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得所述对话推荐模型输出的对话推荐预测结果；所述对话推荐模型的奖励函数的输入信息包括预测回复信息以及预测推荐结果；所述预测回复信息包括所述对话推荐模型在强化学习过程中产生的预测对话回复对应的信息；所述预测推荐结果指示所述对话推荐模型在强化学习过程中从所述各个候选推荐内容中预测出的目标推荐内容；

向所述目标用户展示所述对话推荐预测结果；所述对话推荐预测结果包括针对所述历史对话语句生成的对话回复，以及，针对所述历史对话语句从所述各个候选推荐内容中预测出的目标推荐内容中的至少一种。

一方面，提供了一种对话推荐模型训练方法，所述方法包括：

通过对话推荐模型与第一对话模型进行模拟对话，获得所述对话推荐模型的预测回复信息以及预测推荐结果；所述对话推荐模型用于在所述模拟对话过程中，基于各个候选推荐内容以及第一历史对话语句，产生第一预测对话回复以及所述预测推荐结果；所述第一对话模型用于在所述模拟对话过程中，基于第二历史对话语句产生第二预测对话回复；所述预测回复信息包括所述第一预测对话回复对应的信息；所述预测推荐结果指示所述对话推荐模型从所述各个候选推荐内容中预测出的目标推荐内容；

基于所述预测回复信息以及所述预测推荐结果获取奖励函数值；

基于所述奖励函数值对所述对话推荐模型进行参数更新。

又一方面，提供了一种对话推荐模型训练装置，所述装置包括：

模拟对话模块，用于通过对话推荐模型与第一对话模型进行模拟对话，获得所述对话推荐模型的预测回复信息以及预测推荐结果；所述对话推荐模型用于在所述模拟对话过程中，基于各个候选推荐内容以及第一历史对话语句，产生第一预测对话回复以及所述预测推荐结果；所述第一对话模型用于在所述模拟对话过程中，基于第二历史对话语句产生第二预测对话回复；所述预测回复信息包括所述第一预测对话回复对应的信息；所述预测推荐结果指示所述对话推荐模型从所述各个候选推荐内容中预测出的目标推荐内容；

奖励获取模块，用于基于所述预测回复信息以及所述预测推荐结果获取奖励函数值；

参数更新模块，用于基于所述奖励函数值对所述对话推荐模型进行参数更新。

在一种可能的实现方式中，所述奖励获取模块，包括：

第一奖励值获取单元，用于基于所述预测回复信息获取第一奖励值；

第二奖励值获取单元，用于基于所述预测推荐结果获取第二奖励值；

所述参数更新模块，用于基于所述第一奖励值以及所述第二奖励值，对所述对话推荐模型进行参数更新。

在一种可能的实现方式中，所述预测回复信息包括所述第一预测对话回复，以及所述第一历史对话语句；

所述第一奖励值获取单元，用于将所述第一历史对话语句输入第二对话模型，将所述第二对话模型基于所述第一历史对话语生成所述第一预测对话回复的概率添加入所述第一奖励值。

在一种可能的实现方式中，所述预测回复信息包括第一预测推荐概率和第二预测推荐概率；所述第一预测推荐概率是所述对话推荐模型生成所述第一预测对话回复时，对所述各个候选推荐内容的预测推荐概率；所述第二预测推荐概率是所述对话推荐模型生成所述第一预测对话回复的下一次预测对话回复时，对所述各个候选推荐内容的预测推荐概率；

所述第一奖励值获取单元，用于，

获取第一信息熵和第二信息熵；所述第一信息熵是所述第一预测推荐概率的概率分布的信息熵，所述第二信息熵是所述第二预测推荐概率的概率分布的信息熵；

将所述第一信息熵与所述第二信息熵之间的差值，添加入所述第一奖励值。

在一种可能的实现方式中，所述对话推荐模型包括回复生成组件、推荐组件以及决策组件；

所述回复生成组件，用于对所述第一历史对话语句进行编码，得到对话历史编码信息C_r；

所述推荐组件，用于对所述各个候选推荐内容进行编码，得到内容编码信息K_i；

所述推荐组件，还用于对所述对话历史编码信息C_r以及所述内容编码信息K_i进行处理，得到所述各个候选推荐内容的推荐概率r_i，并基于所述各个候选推荐内容的推荐概率r_i以及所述内容编码信息K_i获得所述各个候选推荐内容的集合表示K_C；

所述决策组件，用于对所属于对话历史编码信息C_r和所述集合表示K_C进行处理，得到决策信息，所述决策信息用于指示输出推荐结果或者输出对话回复；

所述决策组件，还用于基于所述决策信息输出所述第一预测对话回复或者所述预测推荐结果。

在一种可能的实现方式中，所述参数更新模块，用于，

基于所述第一奖励值对所述回复生成组件进行参数更新；

基于所述第二奖励值对所述决策组件进行参数更新。

在一种可能的实现方式中，所述推荐组件是基于注意力机制的双向长短期记忆Bi-LSTM模型组件。

在一种可能的实现方式中，所述推荐组件，用于通过注意力机制层对所述对话历史编码信息C_r以及所述内容编码信息K_i进行处理，得到所述各个候选推荐内容的推荐概率r_i，并基于所述各个候选推荐内容的推荐概率r_i以及所述内容编码信息K_i获得所述各个候选推荐内容的集合表示K_C。

在一种可能的实现方式中，所述对话推荐模型与第一对话模型之间的模拟对话过程包含至少一个对话回合；

所述模拟对话模块，用于，

将所述对话推荐模型与所述第一对话模型在目标对话回合之前产生的对话回复，组成所述目标对话回合中的所述第二历史对话语句；所述目标对话回合是所述至少一个对话回合中的任意一个对话回合；

将所述目标对话回合中的所述第二历史对话语句，以及样本用户的历史浏览内容，输入所述第一对话模型，获得所述目标对话回合中的所述第二预测对话回复；

将所述目标对话回合中的所述第二历史对话语句，与所述目标对话回合中的所述第二预测对话回复，组成所述目标对话回合中的所述第一历史对话语句；

将所述目标对话回合中的所述第一历史对话语句，以及所述各个候选推荐内容输入至所述对话推荐模型，获得所述目标对话回合中的所述第一预测对话回复，或者所述目标对话回合中的所述预测推荐结果。

在一种可能的实现方式中，所述装置还包括：

训练样本获取模块，用于当所述对话推荐模型的预测推荐结果为正确时，将所述预测推荐结果以及所述预测推荐结果对应的历史对话语句，获取为监督学习的训练样本；

监督学习模块，用于基于所述训练样本，以监督学习的方式对所述对话推荐模型进行参数更新。

在一种可能的实现方式中，所述监督学习模块，用于基于所述训练样本，按照最大似然估计的方式对所述对话推荐模型进行参数更新。

又一方面，提供了一种基于对话的内容推荐装置，所述装置包括：

语句获取模块，用于获取与目标用户之间的历史对话语句；

预测结果获取模块，用于将所述历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得所述对话推荐模型输出的对话推荐预测结果；所述对话推荐模型的奖励函数的输入信息包括预测回复信息以及预测推荐结果；所述预测回复信息包括所述对话推荐模型在强化学习过程中产生的预测对话回复对应的信息；所述预测推荐结果指示所述对话推荐模型在强化学习过程中从所述各个候选推荐内容中预测出的目标推荐内容；

预测结果获取展示，用于向所述目标用户展示所述对话推荐预测结果；所述对话推荐预测结果包括针对所述历史对话语句生成的对话回复，以及，针对所述历史对话语句从所述各个候选推荐内容中预测出的目标推荐内容中的至少一种。

在一种可能的实现方式中，所述预测结果获取模块，用于，

通过所述对话推荐模型中的回复生成组件对所述历史对话语句进行编码，得到对话历史编码信息；

通过所述对话推荐模型中的推荐组件对所述各个候选推荐内容进行编码，得到内容编码信息；

通过所述推荐组件对所述对话历史编码信息以及所述内容编码信息进行处理，得到所述各个候选推荐内容的推荐概率，并基于所述各个候选推荐内容的推荐概率以及所述内容编码信息获得所述各个候选推荐内容的集合表示；

通过所述对话推荐模型中的决策组件对所属于对话历史编码信息和所述集合表示进行处理，得到决策信息，所述决策信息用于指示输出推荐结果或者输出对话回复；

基于所述决策信息，输出所述对话推荐预测结果。

在一种可能的实现方式中，在通过所述推荐组件对所述对话历史编码信息以及所述内容编码信息进行处理，得到所述各个候选推荐内容的推荐概率，并基于所述各个候选推荐内容的推荐概率以及所述内容编码信息获得所述各个候选推荐内容的集合表示时，所述预测结果获取模块，用于，

通过所述推荐组件中的注意力机制层对所述对话历史编码信息以及所述内容编码信息进行处理，得到所述各个候选推荐内容的推荐概率，并基于所述各个候选推荐内容的推荐概率以及所述内容编码信息获得所述各个候选推荐内容的集合表示。

再一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的对话推荐模型训练方法或者基于对话的内容推荐方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述对话推荐模型训练方法或者基于对话的内容推荐方法。

又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述对话推荐模型训练方法或者基于对话的内容推荐方法。

本申请提供的技术方案可以包括以下有益效果：

计算机设备中预先设置的对话推荐模型是通过强化学习得到的模型，且该模型使用的奖励函数的输入信息中包含该对话推荐模型在强化学习过程中生成的对话回复的信息，以及预测推荐结果；也就是说，该对话推荐模型的优化维度包含了对话推荐模型的对话回复，不仅限于对话推荐模型的推荐结果，从而提高了对话推荐模型的优化效果，进而提高对话推荐模型应用时的对话推荐效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种模型训练及对话推荐的框架图；

图2是根据一示例性实施例示出的一种基于对话的内容推荐方法的流程示意图；

图3是根据一示例性实施例示出的一种对话推荐模型训练方法的流程示意图；

图4是根据一示例性实施例示出的一种模型训练及对话推荐框架示意图；

图5是根据一示例性实施例示出的对话推荐模型训练及对话推荐方法的流程示意图；

图6是图5所示实施例涉及的一种对话推荐模型的结构示意图；

图7是图5所示实施例涉及的Bot-Play过程的对话示意图；

图8是根据一示例性实施例示出的一种模型训练及对话推荐框架示意图；

图9是根据一示例性实施例示出的一种对话推荐模型训练装置的结构方框图；

图10是根据一示例性实施例示出的一种基于对话的内容推荐装置的结构方框图；

图11是根据一示例性实施例示出的一种计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)人工智能(Artificial Intelligence，AI)

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)语音技术(Speech Technology，ST)

语音技术的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

3)自然语言处理(Nature Language Processing，NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

4)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习、自然语言处理等技术，以实现基于对话的内容推荐应用。

本申请实施例的方案包括模型训练阶段和对话推荐阶段。图1是根据一示例性实施例示出的一种模型训练及对话推荐的框架图。如图1所示，在模型训练阶段，模型训练设备110通过预先设置好的训练样本(包括历史对话记录、标注好的推荐结果、以及各个候选推荐内容等信息)，得到预训练的对话推荐模型，然后再对该对话推荐模型进行强化学习，以对该对话推荐模型进行优化。

其中，上述强化学习的过程可以是对话推荐模型与机器模拟的用户之间进行对话推荐，并根据对话推荐的结果更新对话推荐模型中的参数的过程，其中，上述强化学习的一次对话过程可以如下：

1)对话推荐模型基于本次对话过程中已产生的历史对话语句，确定是输出对话回复还是输出目标推荐内容。

2)如果确定输出对话回复，则将对话回复输出给机器模拟的用户，由机器模拟的用户基于已产生的历史对话语句，生成机器模拟的用户的对话回复。然后，再由对话推荐模型基于已产生的历史对话语句，重新确定是输出对话回复还是输出目标推荐内容。

3)如果确定输出目标推荐内容，则将从各个候选推荐内容中确定出目标推荐内容进行输出。

4)基于本次对话过程中的对话和推荐情况，通过奖励函数对上述对话推荐模型进行参数更新。

在对话推荐的应用阶段，对话推荐设备120基于该对话推荐模型，对用户发出的对话语句进行应答，并基于用户发出的对话语句中的信息推荐用户可能感兴趣的内容。

其中，上述模型训练设备110和对话推荐设备120可以是具有机器学习能力的计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

可选的，上述模型训练设备110和对话推荐设备120可以是同一个设备，或者，模型训练设备110和对话推荐设备120也可以是不同的设备。并且，当模型训练设备110和对话推荐设备120是不同的设备时，模型训练设备110和对话推荐设备120可以是同一类型的设备，比如模型训练设备110和对话推荐设备120可以都是个人电脑；或者，模型训练设备110和对话推荐设备120也可以是不同类型的设备，比如模型训练设备110可以是服务器，而对话推荐设备120可以是个人电脑或者智能手机等。本申请实施例对于模型训练设备110和对话推荐设备120的具体类型不做限定。

在本申请实施例所示的方案中，上述对话推荐模型将对话系统与推荐系统融合，对话系统负责通过用户获得更多的信息，来辅助推荐系统获取更精准的推荐内容。上述方案有以下两个应用方向：

1、电影推荐、书籍推荐、音乐推荐、商品推荐等各个方面的内容推荐。

比如，以对话推荐设备120是服务器为例，上述模型训练设备110训练得到对话推荐模型后，该对话推荐模型被部署至对话推荐设备120中，该对话推荐设备120对外提供对话接口，用户的终端中安装有具有对话推荐功能的应用，且该应用通过该对话接口与对话推荐设备120连接。当用户需要查找推荐内容(比如电影)时，可以在终端中启动上述应用，并通过上述应用于对话推荐设备120中的对话推荐模型进行对话，例如，用户通过语音输入，终端对用户输入的语音进行语音识别后得到用户的对话语句，将用户的对话语句发送给对话推荐设备120，对话推荐设备120中的对话推荐模型结合用户本次输入的对话语句，以及之前双方的对话语句，确定各个候选电影中是否满足已有对话语句的推荐电影，若是，则向终端返回推荐的电影，否则向终端返回模型生成的对话语句，终端展示该模型生成的对话语句(比如语音展示或者界面展示)后，接收用户再次输入的语音，并重复上述过程，随着对话的进行，对话推荐模型从对话中收集到的信息也不断增加，直至能够从各个候选电影中确定出满足已有对话语句的推荐电影。

或者，上述对话推荐设备120也可以是用户的终端，也就是说，上述对话推荐模型训练完成后，可以被配置在用户终端中。

2、作为平台性技能，如对话开放平台，使用平台的客户可以更加容易地自动构建相应的对话推荐系统。

在一种示例性的方案中，上述对话开放平台是基于模型训练设备110的平台，该平台提供预训练的对话推荐模型，平台上的用户根据自己的需求，在平台上对上述预训练的对话推荐模型进行强化学习过程进行配置，以训练得到自己需要的对话推荐模型。

请参考图2，其是根据一示例性实施例示出的一种基于对话的内容推荐方法的流程示意图，该基于对话的内容推荐方法可以用于计算机设备，以计算机设备是上述图1所示的对话推荐设备120为例。如图2所示，该基于对话的内容推荐方法可以包括如下步骤：

步骤21，获取与目标用户之间的历史对话语句。

其中，上述历史对话语句，是对话推荐设备与用户之间在本次对话推荐过程中已经发生的对话语句。

其中，该历史对话语句包括对话推荐设备生成的对话语句，以及该目标用户输入的对话语句。

在一种可能的实现方式中，该目标用户输入的对话语句由目标用户在终端中输入，并由终端发送给对话推荐设备。

在另一种可能的实现方式中，该目标用户输入的对话语句由目标用户在对话推荐设备中直接输入。

其中，该目标用户输入对话语句的方式可以包括语音输入或者文本输入等。

步骤22，将该历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得该对话推荐模型输出的对话推荐预测结果；该对话推荐模型的奖励函数的输入信息包括预测回复信息和预测推荐结果，预测回复信息包括对话推荐模型在强化学习过程中产生的预测对话回复对应的信息；预测推荐结果指示对话推荐模型在强化学习过程中从各个候选推荐内容中预测出的目标推荐内容。

在本申请实施例中，上述对话推荐模型是通过强化学习的方式进行训练得到的模型。

其中，上述预测回复信息，包括回复内容信息以及回复信息量信息中的至少一种；其中，回复内容信息用于指示对话推荐模型在强化学习过程中生成的对话回复的内容；回复信息量信息用于指示对话推荐模型在强化学习过程中生成的对话回复的信息量。

在本申请实施例所示的方案中，在对上述对话推荐模型进行强化学习时，可以从对话回复的维度对上述对话推荐模型的参数进行奖励更新，可以将对话推荐模型的强化训练维度扩展到推荐结果之外的维度，从而提高模型优化的效果。

其中，上述候选推荐内容包括各种基于网络推荐的内容，比如，候选推荐内容包括电影、音乐、书籍、商品、新闻、广告等等。本申请实施例对候选推荐内容的内容形式不做限定。

步骤23，向该目标用户展示该对话推荐预测结果；该对话推荐预测结果包括针对该历史对话语句生成的对话回复，以及，针对该历史对话语句从该各个候选推荐内容中预测出的目标推荐内容中的至少一种。

综上所述，本申请实施例所示的方案，计算机设备中预先设置的对话推荐模型是通过强化学习得到的模型，且该强化学习是过程中的奖励函数的输入信息中包含该对话推荐模型在强化学习过程中生成的对话回复的信息，以及预测推荐结果；也就是说，该对话推荐模型的优化维度包含了对话推荐模型的对话回复，不仅限于对话推荐模型的推荐结果，从而提高了对话推荐模型的优化效果，进而提高对话推荐模型应用时的对话推荐效果。

请参考图3，其是根据一示例性实施例示出的一种对话推荐模型训练方法的流程示意图，该对话推荐模型训练方法可以用于计算机设备，比如上述图1所示的模型训练设备110中。如图3所示，该对话推荐模型训练方法可以包括如下步骤：

步骤31，通过对话推荐模型与第一对话模型进行模拟对话，获得该对话推荐模型的预测回复信息以及预测推荐结果；该对话推荐模型用于在该模拟对话过程中，基于各个候选推荐内容以及第一历史对话语句，产生第一预测对话回复以及该预测推荐结果；该第一对话模型用于在该模拟对话过程中，基于第二历史对话语句产生第二预测对话回复；该预测回复信息包括该第一预测对话回复对应的信息；该预测推荐结果指示该对话推荐模型从该各个候选推荐内容中预测出的目标推荐内容。

其中，上述第一对话模型是在对上述对话推荐模型进行强化学习的过程中，用于模拟与该对话推荐模型进行对话的用户的机器模型。

步骤32，基于该预测回复信息以及预测推荐结果获取奖励函数值。

在一种可能的实现方式中，模型训练设备分别基于该预测回复信息和预测推荐结果生成对应的奖励函数值；或者，模型训练设备结合该预测回复信息和预测推荐结果分别生成单个奖励函数值。对于模型训练设备获取奖励函数值的方式本申请实施例不做限定。

步骤33，基于该奖励函数值，对该对话推荐模型进行参数更新。

在本申请实施例中，除了推荐结果对上述对话推荐模型的奖励造成影响之外，对话推荐模型生成的对话回复的信息也会对上述对话推荐模型的奖励造成影响，从而扩展了对话推荐模型的奖励优化的维度。

综上所述，本申请实施例所示的方案，计算机设备通过强化学习的方式训练对话推荐模型的过程中，使用的奖励函数的输入信息中包含该对话推荐模型在强化学习过程中生成的对话回复的信息，以及预测推荐结果；也就是说，该对话推荐模型的优化维度包含了对话推荐模型的对话回复，不仅限于对话推荐模型的推荐结果，从而提高了对话推荐模型的优化效果，进而提高对话推荐模型应用时的对话推荐效果。

以上述图2和图3所示的方案应用于电影推荐场景为例，请参考图4，其是根据一示例性实施例示出的一种模型训练及对话推荐框架示意图。如图4所示：

在模型训练设备41中，预训练的对话推荐模型411基于各个候选电影42与第一对话模型412之间进行对话，生成对话语句413，其中，该对话语句413也会影响对话推荐模型411与第一对话模型412后续生成的对话回复。在对话推荐模型411与第一对话模型412的对话过程中，模型训练设备41结合对话推荐模型411生成的预测回复信息，以及对话推荐模型411生成的预测推荐结果得到奖励函数值414，通过奖励函数值414，对上述对话推荐模型411进行参数更新，以进行强化训练。

上述强化训练后得到的对话推荐模型431部署至对话推荐设备43中。用户通过对话请求对话推荐设备43推荐电影时，对话推荐模型431基于各个候选电影42与用户之间进行对话，生成对话语句432，当对话语句432包含足够的信息量后，对话推荐模型431从各个候选电影42中推荐出目标电影。

请参考图5，其是根据一示例性实施例示出的对话推荐模型训练及对话推荐方法的流程示意图。该方法可以由模型训练设备和对话推荐设备执行，其中，该模型训练设备和对话推荐设备可以实现为单个计算机设备，也可以分属于不同的计算机设备。如图5所示，该方法可以包括以下步骤：

步骤501，获取预训练的对话推荐模型。

在本申请实施例中，开发人员可以预先搭建一个初始化的机器学习模型，该机器学习模型是以各个候选推荐内容、以及历史对话语句为输入，以对话回复或者目标推荐内容(各个候选推荐内容中的一个或者多个)为输出的机器学习模型。

模型训练设备得到上述初始化的机器学习模型之后，在数据样本集上对该初始化的机器学习模型进行训练，得到预训练的对话推荐模型。

在一种可能的实现方式中，上述数据样本集包括开发人员预先获取或者人工设计的对话记录(包括模拟对话推荐模型的对话记录，以及，模拟用户的对话记录)，以及该对话记录对应的推荐结果。

在另一种可能的实现方式中，上述数据样本集是网络中已经公开的，包含对话记录以及该对话记录对应的推荐结果的样本集。

在一种可能的实现方式中，上述对话推荐模型包括以下组成部分：回复生成组件、推荐组件以及决策组件。

其中，回复生成组件用于根据输入的历史对话语句和各个候选推荐内容，生成各个候选推荐内容的推荐概率。

在一种可能的实现方式中，该回复生成组件是基于大规模数据训练的自然语言处理模型，其作用是生成对话回复。

比如，上述回复生成组件可以是带有自注意力机制的解码器模型，比如生成性预训练(Generative Pre-Training-2，GPT-2)模型等。

上述推荐组件用于根据输入的历史对话语句和各个候选推荐内容，生成针对输入的历史对话语句的回复语句。

在一种可能的实现方式中，该推荐组件是基于注意力机制的双向长短期记忆(Bi-directional Long Short-Term Memory，Bi-LSTM)模型组件。

上述决策组件用于根据输入的历史对话语句和各个候选推荐内容，确定对外输出预测的推荐结果，还是对外输出回复语句。

比如，请参考图6，其示出了本申请实施例涉及的一种对话推荐模型的结构示意图。如图6所述，该回复生成组件61(SpeakModel)、推荐组件62(Recommendation)以及决策组件63(DecideModel)。

其中，以C表示历史对话语句，R表示对话回复，k_i表示第i条候选推荐内容，上述对话推荐模型在训练和应用过程中的数据处理流程如下：

首先使用推荐组件62中的内容编码器621对候选推荐内容进行编码表示，内容编码器也称为知识编码器(KnowledgeEncoder)。

以推荐组件62是Bi-LSTM模型组件为例，通过内容编码器621编码后的候选内容表示(即内容编码信息)K_i可以写为：

K_i＝BiLSTM (k_i)；

比如，以候选推荐内容是电影为例，上述内容编码器621可以对各个候选电影的相关信息(比如各个电影的名称、类型、简介、演员、播放时长、上映时间等)进行编码，得到候选电影的电影内容表示。

同时，使用回复生成组件61对上述历史对话语句进行编码表示(即对话历史编码信息)，可以写为：

C_r＝GPT2 (C)；

推荐组件62根据内容编码表示与历史对话语句编码表示生成各个候选推荐内容的推荐概率，可以写为：

在上述公式中，当对话推荐模型产生推荐时，取r_i最大的候选推荐内容作为目标推荐内容。

之后推荐组件62再计算所有候选推荐内容的集合表示，可以写为：

在一种可能的实现方式中，如图6所示，上述推荐组件中包含注意力机制层622，推荐组件可以通过该注意力机制层622对所述对话历史编码信息C_r以及内容编码信息K_i进行处理，得到各个候选推荐内容的推荐概率r_i，并基于各个候选推荐内容的推荐概率r_i以及内容编码信息K_i获得各个候选推荐内容的集合表示K_C。

在决策组件63中，通过候选推荐内容的集合表示以及历史对话语句的表示产生决策：

d＝σ(W_d[K_C，C_r]+b_d)；

其中，W和b都是可训练的参数，σ是激活(sigmoid)函数。当d≥0.5时，模型产生推荐，当d<0.5时，模型生成对话回复。

其中，上述回复生成组件61根据历史对话语句以及各个候选推荐内容的集合表示生成对话回复。

在本申请实施例中，上述生成对话回复的下一个词分为两个部分，一部分是根据历史对话语句生成的，另一部分是根据各个候选推荐内容的集合表示生成的。可以写为：

P(R_i)＝αP(R_i|R_＜i，C)+(1-α)P(R_i|R_＜i，C，K_C)；

其中α是一个超参数。

其中，上述对话推荐模型中的推荐组件、决策组件、以及回复生成组件均采用最大似然估计的方式去训练，总体损失函数如下：

L＝λ₁L_speak+λ₂L_rec+(1-λ₁-λ₂)L_decide；

其中，λ₁和λ₂为预设的权重，L_speak是回复生成组件61的损失函数，L_rec是推荐组件62的损失函数，L_decide是决策组件63的损失函数。

其中，上述回复生成组件可以替换为LSTM，门控循环单元(Gated RecurrentUnit，GRU)等循环神经网络，以及不经过预训练的Transformer(变压器)模型等。

步骤502，通过对话推荐模型与第一对话模型进行模拟对话，获得该对话推荐模型的预测回复信息，以及该对话推荐模型的预测推荐结果。

在本申请实施例中，上述通过第一对话模型模拟用户，以与对话推荐模型进行模拟对话推荐的过程也称为机器人游戏(Bot-Play)过程。其中，上述对话推荐模型也称为专家(Expert)模型，第一对话模型也称为询问者(Seeker)模型。

其中，上述第一对话模型的模型结构与对话推荐模型类似。

在一种可能的实现方式中，上述第一对话模型由模型训练设备通过数据样本集训练得到的。其中，模型训练设备训练第一对话模型时，对该第一对话模型中涉及的对话生成部分进行训练，比如，对上述第一对话模型中的对话生成组件进行训练。

在本申请实施例中，在上述强化学习过程中，对话推荐模型与第一对话模型之间的一次模拟对话过程包含至少一个对话回合。在通过第一对话模型模拟用户，以与该对话推荐模型进行模拟对话推荐，获得该对话推荐模型各次对话的预测回复信息时，模型训练设备在一个对话回合中可以执行以下步骤S1至S4：

S1，将对话推荐模型与第一对话模型在目标对话回合之前产生的对话回复，组成该目标对话回合中的第二历史对话语句；该目标对话回合是上述至少一个对话回合中的任意一个对话回合。

S2，将该目标对话回合中的第二历史对话语句，以及样本用户的历史浏览内容，输入该第一对话模型，获得目标对话回合中的该第二预测对话回复。

S3，将目标对话回合中的第二历史对话语句，与目标对话回合中的第二预测对话回复，组成目标对话回合中的第一历史对话语句。

S4，将目标对话回合中的第一历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得目标对话回合中的第一预测对话回复，或者目标对话回合中的预测推荐结果。

在本申请实施例中，在第一对话模型和对话推荐模型进行一次Bot-Play的模拟对话过程中，第一对话模型与对话推荐模型之间以此进行N轮问答对话，每一轮问答对话即为上述一个对话回合；比如，在某一对话回合中，第一对话模型先根据与对话推荐模型之间的历史对话语句生成对话回复，然后对话推荐模型基于与第一对话模型之间的历史对话语句以及各个历史候选推荐内容进行预测，以输出预测对话回复或者预测推荐结果，以此类推；然后，模型训练设备将N个对话回合过程中，由对话推荐模型生成的对话回复对应的信息获取为预测回复信息，并获取一个或多个对话回合输出的预测推荐结果。

在本申请实施例中，上述第一对话模型是基于历史对话语句，以及所模拟的用户的历史浏览内容进行对话回复生成的模型，也就是说，上述第一对话模型能够模拟具有历史浏览行为的用户，并在模拟过程中，通过对话内容自动体现不同用户的历史浏览行为所对应的个人喜好，从而提高Bot-Play过程的用户模拟的真实性，提高对上述对话推荐模型的强化训练效果。

比如，请参考图7，其示出了本申请实施例涉及的Bot-Play过程的对话示意图，如图7所示，在对话推荐模型71与第一对话模型72进行Bot-Play的过程中，对话推荐模型71基于各个候选推荐内容生成对话回复，而第一对话模型72则基于样本用户的各条历史浏览内容生成对话回复。

上述图7所示的模型产生的对话流程样本中，以电影推荐为例，对话推荐模型71有n条候选推荐电影，第一对话模型72有m条看过的电影信息，对话推荐模型71的目的是通过对话交流73获取第一对话模型72的偏好信息，来给出准确的电影推荐。

在本申请实施例中，对话推荐模型与第一对话模型之间的对话语句，由对话推荐模型和第一对话模型各自生成的对话回复组成。在每个对话回合中，由第一对话模型产生一句对话回复，然后再由对话推荐模型产生一句对话回复或者产生预测推荐结果；如果预测推荐结果不正确，将进行下一个对话回合；如果预测推荐结果正确，则本次模拟对话结束。

比如，在图7中，对话交流73分为多个对话回合，每个对话回合包含第一对话模型72和推荐模型71分别生成的一句对话回复。其中，第i个对话回合中产生对话回复73a、对话回复73b，第i+1个对话回合中产生对话回复73c、对话回复73d。

在第i个对话回合中，第一对话模型72的历史对话语句包括前i-1个对话回合中，由第一对话模型72和推荐模型71分别生成的对话回复(假设为对话语句A)，如果i＝1，则第一对话模型72的历史对话语句为空；第一对话模型72基于前i-1个对话回合中由第一对话模型72和推荐模型71分别生成的对话回复，以及上述m条看过的电影信息产生对话回复73a。

在第i个对话回合中，推荐模型71的历史对话语句，包括上述对话语句A+对话回复73a；推荐模型71基于对话语句A+对话回复73a，以及n条候选推荐电影产生对话回复73b。

在第i+1个对话回合中，第一对话模型72的历史对话语句包括对话语句A+对话回复73a+对话回复73b；第一对话模型72基于对话语句A+对话回复73a+对话回复73b，以及上述m条看过的电影信息产生对话回复73c。

在第i+1个对话回合中，推荐模型71的历史对话语句，包括上述对话语句A+对话回复73a+对话回复73b+对话回复73c；推荐模型71基于对话语句A+对话回复73a+对话回复73b+对话回复73c，以及n条候选推荐电影产生对话回复73d。

随着上述过程的不断执行，推荐模型71和第一对话模型72各自的历史对话语句也不断更新，直至推荐模型71的预测推荐结果正确。

其中，上述样本用户的历史浏览内容，是样本用户的真实的历史浏览内容，或者，上述样本用户的历史浏览内容，是开发人员预先设置的历史浏览内容。

步骤503，基于该预测回复信息获取第一奖励值。

在一种可能的实现方式中，该预测回复信息包括该对话推荐模型在模拟对话过程中，基于各个候选推荐内容以及第一历史对话语句，产生的第一预测对话回复，以及该第一预测对话回复对应的第一历史对话语句；在基于该预测回复信息获取第一奖励值时，模型训练设备将该第一历史对话语句输入第二对话模型，将该第二对话模型基于该第一历史对话语生成该第一预测对话回复的概率添加入该第一奖励值。

在本申请实施例中，模型训练设备中设置了对话流畅性奖励函数，比如，可以使用在大规模语料上预训练的语言模型(比如GPT-2模型)来评估生成对话的流畅性。该奖励函数表示如下：

其中x_n是Expert第n轮生成的对话回复。

在一种可能的实现方式中，该预测回复信息包括第一预测推荐概率和第二预测推荐概率；该第一预测推荐概率是该对话推荐模型生成第一预测对话回复时，对该各个候选推荐内容的预测推荐概率；该第二预测推荐概率是该对话推荐模型生成该第一预测对话回复的下一次预测对话回复时，对该各个候选推荐内容的预测推荐概率；在基于该预测回复信息获取第一奖励值时，模型训练设备获取第一信息熵和第二信息熵；该第一信息熵是该第一预测推荐概率的概率分布的信息熵，该第二信息熵是该第二预测推荐概率的概率分布的信息熵；将该第一信息熵与该第二信息熵之间的差值，添加入该第一奖励值。

在本申请实施例中，模型训练设备中设置了对话的信息量奖励函数，比如，定义在此任务中有用的信息量是对推荐产生积极作用，使推荐更加确定的信息量，Expert模型在每次生成对话时都会产生推荐的分布，通过本轮对话产生的推荐分布的信息熵与下一轮轮对话产生的推荐分布的信息熵之差，作为本轮对话信息量的奖励函数，该奖励函数表示如下：

R₂(r_n,r_n+1)＝H(r_n)-H(r_n+1)，H(X)＝-∑_x∈Xlogp(x)；

其中r_n和r_n+1分别代表本轮推荐的概率分布和下一轮推荐的概率分布。

步骤504，基于该预测推荐结果获取第二奖励值。

在本申请实施例中，模型训练设备中设置了决策的奖励函数。比如，当Expert模型产生推荐时，若推荐正确，则给+1/(之前推荐错误次数+1)的奖励，若推荐错误则给0奖励，记为R₃。

比如，在第一对话模型和对话推荐模型进行一次Bot-Play的过程中，对话推荐模型之前可能做出过多次错误的推荐，上述决策奖励函数是对推荐正确的奖励做了一个折扣，比如对话推荐模型做出过3次错误推荐，那么第四次进行推荐时，如果推荐正确，则第四次推荐的奖励为1/(3+1)。

步骤505，基于该第一奖励值以及该第二奖励值，对该对话推荐模型进行参数更新。

在一种可能的实现方式中，模型训练设备可以基于该第一奖励值对该对话推荐模型中的回复生成组件进行参数更新，并基于该第二奖励值对该对话推荐模型中的该决策组件进行参数更新。

在本申请实施例中，以奖励函数包含上述R₁、R₂和R₃为例，模型训练设备使用R₁和R₂对上述回复生成组件进行优化，优化公式如下：

模型训练设备使用R₃对决策组件进行优化，优化公式如下：

其中，

是对回复生成组件的策略梯度算法，

是对决策组件的策略梯度算法。

步骤506，当该对话推荐模型的预测推荐结果为正确时，将该预测推荐结果以及该预测推荐结果对应的历史对话语句，获取为监督学习的训练样本。

在本申请实施例上述的强化训练过程中，第一对话模型和对话推荐模型进行Bot-Play时，会产生大量的模拟数据(即第一对话模型和对话推荐模型之间的对话)，其中，对于预测推荐正确的对话，可以作为对对话推荐模型进行监督学习的训练样本。

步骤507，基于该训练样本，以监督学习的方式对该对话推荐模型进行参数更新。

在本申请实施例中，模型训练设备通过第一对话模型和对话推荐模型进行Bot-Play中产生的预测推荐正确的模拟数据，对上述对话推荐模型进一步进行监督学习训练，以进一步提高对话推荐模型的准确性。

在一种可能的实现方式中，模型新联设备基于该训练样本，按照最大似然估计的方式对该对话推荐模型进行参数更新。

通过本申请实施例所示的方案，可以有效解决对话推荐在实际环境中冷启动的问题，可以生成更有信息量的对话回复，可以更好的去决策判断是推荐还是询问用户更多信息，从而给出更加精确的推荐。

经过上述步骤502至步骤505为对话推荐模型的强化学习过程，步骤506至步骤507为对话推荐模型的有监督学习过程；随着上述步骤502至步骤507的不断迭代执行，对话推荐模型的准确性也逐渐提高，当模型训练设备确定对话推荐模型训练收敛时，即可以将对话推荐模型部署至对话推荐设备。

其中，模型训练设备确定对话推荐模型的训练是否收敛的方式有多种；比如，当上述步骤502至步骤507的迭代次数达到预设的次数阈值时，确定对话推荐模型训练收敛；或者，当对话推荐模型的准确率(例如，在指定数量的对话回合内预测准确的比例)达到预设的准确率阈值时，确定对话推荐模型训练收敛；对于模型训练设备确定对话推荐模型的训练是否收敛的方式，本申请实施例不做限定。

步骤508，获取与目标用户之间的历史对话语句。

上述对话推荐模型训练完成后，可以部署到对话推荐设备中，在提供对话推荐服务时，上述对话推荐设备可以获取与目标用户之间的历史对话语句。

步骤509，将该第一历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得该对话推荐模型输出的对话推荐预测结果。

在一种可能的实现方式中，对话推荐设备将该第一历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得该对话推荐模型输出的对话推荐预测结果时，可以执行以下步骤：

通过该对话推荐模型中的回复生成组件对该历史对话语句进行编码，得到对话历史编码信息；

通过该对话推荐模型中的推荐组件对该各个候选推荐内容进行编码，得到内容编码信息；

通过该推荐组件对该对话历史编码信息以及该内容编码信息进行处理，得到该各个候选推荐内容的推荐概率，并基于该各个候选推荐内容的推荐概率以及该内容编码信息获得该各个候选推荐内容的集合表示；

通过该对话推荐模型中的决策组件对所属于对话历史编码信息和该集合表示进行处理，得到决策信息，该决策信息用于指示输出推荐结果或者输出对话回复；

基于该决策信息，输出预测对话回复或者对话推荐预测结果。

若推荐组件是基于注意力机制的双向长短期记忆Bi-LSTM模型组件，则对话推荐设备通过该推荐组件对该对话历史编码信息以及该内容编码信息进行处理，得到该各个候选推荐内容的推荐概率，并基于该各个候选推荐内容的推荐概率以及该内容编码信息获得该各个候选推荐内容的集合表示时，可以通过该推荐组件中的注意力机制层对该对话历史编码信息以及该内容编码信息进行处理，得到该各个候选推荐内容的推荐概率，并基于该各个候选推荐内容的推荐概率以及该内容编码信息获得该各个候选推荐内容的集合表示。

步骤510，向该目标用户展示该对话推荐预测结果。

其中，该对话推荐预测结果包括针对该历史对话语句生成的对话回复，以及，从该各个候选推荐内容中选择的目标推荐内容中的至少一种。

其中，当对话推荐设备是终端时，对话推荐设备可以直接展示上述对话推荐预测结果；

或者，当对话推荐设备是服务器时，对话推荐设备可以将上述对话推荐预测结果发送给目标用户对应的终端，由该终端展示上述对话推荐预测结果。

综上所述，本申请实施例所示的方案，计算机设备通过强化学习的方式训练对话推荐模型的过程中，使用的奖励函数的输入信息中包含该对话推荐模型在强化学习过程中生成的对话回复的信息以及预测推荐结果，也就是说，该对话推荐模型的优化维度包含了对话推荐模型的对话回复，而不仅限于对话推荐模型的推荐结果，通过该对话推荐模型对历史对话语句和候选推荐内容进行处理得到的对话推荐结果的准确性更高，从而提高了对话推荐模型的对话推荐效果。

此外，本申请实施例所示的方案，在强化训练过程中，第一对话模型基于历史对话语句，以及所模拟的用户的历史浏览内容进行对话回复的生成，从而通过对话内容自动体现不同用户的历史浏览行为所对应的个人喜好，进而提高对上述对话推荐模型的强化训练效果。

本申请实施例所示的方案，提出了基于大规模预训练语言模型的对话推荐算法，使用双向LSTM模型对知识进行编码表示，大大提升了生成回复的信息量与推荐的准确性。

本申请实施例所示的方案，提出了基于Bot-Play框架的生成式对话推荐模拟算法，seeker也是生成式模型，在生成回复时不仅根据对话历史，也会参考自身的背景知识。

本申请实施例所示的方案，提出了三种新的奖励函数，可以对上述对话推荐的对话生成以及决策推荐进行进一步优化。

以上述图5所示的方案应用于电影推荐场景为例，请参考图8，其是根据一示例性实施例示出的一种模型训练及对话推荐框架示意图。如图8所示：

在模型训练设备81中，首先通过数据样本集，采用最大似然估计方式训练得到预训练的对话推荐模型811。该预训练的对话推荐模型811基于各个候选电影82与第一对话模型812之间进行对话，生成对话语句813，其中，第一对话模型812基于浏览过的电影信息生成对话回复；其中，该对话语句813也会影响对话推荐模型811与第一对话模型812后续生成的对话回复或推荐结果。在对话推荐模型811与第一对话模型812的对话过程中，模型训练设备81基于对话推荐模型811生成的对话回复的内容和信息量，分别得到会话流畅性奖励值814a和信息量奖励值814b，并基于对话推荐模型811生成的预测推荐结果得到决策奖励值815，通过会话流畅性奖励值814a和信息量奖励值814b对上述对话推荐模型811中的推荐组件进行参数更新，并通过决策奖励值815对上述对话推荐模型811中的决策组件进行参数更新，以进行强化训练。并在，在强化训练后，模型训练设备81还将对话语句813中，预测推荐结果准确的对话语句提取为新的数据样本，并采用最大似然估计方式，通过新的数据样本对上述对话推荐模型811中推荐组件、决策组件和回复生成组件进行参数更新。

上述强化训练和最大似然估计训练后得到的对话推荐模型831部署至对话推荐设备83中。用户通过对话请求对话推荐设备83推荐电影时，对话推荐模型831基于各个候选电影82与用户之间进行对话，生成对话语句832，当对话语句832包含足够的信息量后，对话推荐模型831从各个候选电影82中推荐出目标电影。

图9是根据一示例性实施例示出的一种对话推荐模型训练装置的结构方框图。该基于对话的内容推荐装置可以实现图3或图5所示实施例提供的方法中，由模型训练设备执行的全部或者部分步骤。该对话推荐模型训练装置可以包括：

模拟对话模块901，用于通过对话推荐模型与第一对话模型进行模拟对话，获得所述对话推荐模型的预测回复信息以及预测推荐结果；所述对话推荐模型用于在所述模拟对话过程中，基于各个候选推荐内容以及第一历史对话语句，产生第一预测对话回复以及所述预测推荐结果；所述第一对话模型用于在所述模拟对话过程中，基于第二历史对话语句产生第二预测对话回复；所述预测回复信息包括所述第一预测对话回复对应的信息；所述预测推荐结果指示所述对话推荐模型从所述各个候选推荐内容中预测出的目标推荐内容；

奖励获取模块902，用于基于所述预测回复信息以及所述预测推荐结果获取奖励函数值；

参数更新模块903，用于基于所述奖励函数值对所述对话推荐模型进行参数更新。

在一种可能的实现方式中，所述奖励获取模块902，包括：

所述参数更新模块903，用于基于所述第一奖励值以及所述第二奖励值，对所述对话推荐模型进行参数更新。

所述第一奖励值获取单元，用于，

在一种可能的实现方式中，所述参数更新模块903，用于，

基于所述第一奖励值对所述回复生成组件进行参数更新；

基于所述第二奖励值对所述决策组件进行参数更新。

所述模拟对话模块901，用于，

在一种可能的实现方式中，所述装置还包括：

图10是根据一示例性实施例示出的一种基于对话的内容推荐装置的结构方框图。该基于对话的内容推荐装置可以实现图2、或图5所示实施例提供的方法中，由对话推荐设备执行的全部或者部分步骤。该基于对话的内容推荐装置可以包括：

语句获取模块1001，用于获取与目标用户之间的历史对话语句；

预测结果获取模块1002，用于将所述历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得所述对话推荐模型输出的对话推荐预测结果；所述对话推荐模型的奖励函数的输入信息包括预测回复信息以及预测推荐结果；所述预测回复信息包括所述对话推荐模型在强化学习过程中产生的预测对话回复对应的信息；所述预测推荐结果指示所述对话推荐模型在强化学习过程中从所述各个候选推荐内容中预测出的目标推荐内容；

预测结果获取展示1003，用于向所述目标用户展示所述对话推荐预测结果；所述对话推荐预测结果包括针对所述历史对话语句生成的对话回复，以及，针对所述历史对话语句从所述各个候选推荐内容中预测出的目标推荐内容中的至少一种。

在一种可能的实现方式中，所述预测结果获取模块1002，用于，

基于所述决策信息，输出所述对话推荐预测结果。

在一种可能的实现方式中，在通过所述推荐组件对所述对话历史编码信息以及所述内容编码信息进行处理，得到所述各个候选推荐内容的推荐概率，并基于所述各个候选推荐内容的推荐概率以及所述内容编码信息获得所述各个候选推荐内容的集合表示时，所述预测结果获取模块1002，用于，

图11是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的模型训练设备和/或对话推荐设备。所述计算机设备1100包括中央处理单元1101、包括随机存取存储器(Random Access Memory，RAM)1102和只读存储器(Read-Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、闪存或其他固态存储其技术，CD-ROM、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1101通过执行该一个或一个以上程序来实现图2、图3或图5所示的方法的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如，所述非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例所示的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于对话的内容推荐方法，其特征在于，所述方法包括：

获取与目标用户之间的历史对话语句；

2.根据权利要求1所述的方法，其特征在于，所述将所述历史对话语句，以及各个候选推荐内容输入至对话推荐模型，获得所述对话推荐模型输出的对话推荐预测结果，包括：

基于所述决策信息，输出所述对话推荐预测结果。

3.根据权利要求2所述的方法，其特征在于，所述通过所述推荐组件对所述对话历史编码信息以及所述内容编码信息进行处理，得到所述各个候选推荐内容的推荐概率，并基于所述各个候选推荐内容的推荐概率以及所述内容编码信息获得所述各个候选推荐内容的集合表示，包括：

4.一种对话推荐模型训练方法，其特征在于，所述方法包括：

基于所述奖励函数值对所述对话推荐模型进行参数更新。

5.根据权利要求4所述的方法，其特征在于，所述基于所述预测回复信息以及所述预测推荐结果获得奖励函数值，包括：

基于所述预测回复信息获取第一奖励值；

基于所述预测推荐结果获取第二奖励值；

所述基于所述奖励函数值对所述对话推荐模型进行参数更新，包括：

基于所述第一奖励值以及所述第二奖励值，对所述对话推荐模型进行参数更新。

6.根据权利要求5所述的方法，其特征在于，所述预测回复信息包括所述第一预测对话回复，以及所述第一历史对话语句；

所述基于所述预测回复信息获取第一奖励值，包括：

将所述第一历史对话语句输入第二对话模型，将所述第二对话模型基于所述第一历史对话语生成所述第一预测对话回复的概率添加入所述第一奖励值。

7.根据权利要求5所述的方法，其特征在于，所述预测回复信息包括第一预测推荐概率和第二预测推荐概率；所述第一预测推荐概率是所述对话推荐模型生成所述第一预测对话回复时，对所述各个候选推荐内容的预测推荐概率；所述第二预测推荐概率是所述对话推荐模型生成所述第一预测对话回复的下一次预测对话回复时，对所述各个候选推荐内容的预测推荐概率；

所述基于所述预测回复信息获取第一奖励值，包括：

8.根据权利要求5所述的方法，其特征在于，所述对话推荐模型包括回复生成组件、推荐组件以及决策组件；

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一奖励值以及所述第二奖励值，对所述对话推荐模型进行参数更新，包括：

基于所述第一奖励值对所述回复生成组件进行参数更新；

基于所述第二奖励值对所述决策组件进行参数更新。

10.根据权利要求4所述的方法，其特征在于，所述对话推荐模型与第一对话模型之间的模拟对话过程包含至少一个对话回合；

所述通过对话推荐模型与第一对话模型进行模拟对话，获得所述对话推荐模型的预测回复信息以及预测推荐结果，包括：

11.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述预测推荐结果为正确时，将所述预测推荐结果以及所述预测推荐结果对应的历史对话语句，获取为监督学习的训练样本；

基于所述训练样本，以监督学习的方式对所述对话推荐模型进行参数更新。

12.一种基于对话的内容推荐装置，其特征在于，所述装置包括：

语句获取模块，用于获取与目标用户之间的历史对话语句；

13.一种对话推荐模型训练装置，其特征在于，所述装置包括：

基于所述奖励函数值对所述对话推荐模型进行参数更新。

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至3任一所述的基于对话的内容推荐方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求4至11任一所述的对话推荐模型训练方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至3任一所述的基于对话的内容推荐方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求4至11任一所述的对话推荐模型训练方法。