CN113609280B

CN113609280B - 基于元学习的多领域对话生成方法、装置、设备及介质

Info

Publication number: CN113609280B
Application number: CN202110898767.0A
Authority: CN
Inventors: 王汝欣; 黄琢玉; 朱东明; 白珂; 江华; 姚绍文
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-10-13
Anticipated expiration: 2041-08-05
Also published as: CN113609280A

Abstract

本发明公开一种基于元学习的多领域对话生成方法、装置、设备及介质，应用于网络营销，包括：获取至少一个目标领域的训练对话样本和测试对话样本；对每一目标领域的训练对话样本进行处理，获取对应的训练损失；基于训练损失，对初始化模型进行更新，得到中间模型；采用中间模型对测试对话样本进行处理，获取对应的测试损失，基于测试损失对中间模型进行更新，获取多领域对话模型；爬取与产品关键字相关的发布信息，发布信息包括待回复信息；将发布信息输入基于元学习生成的多领域对话模型，获取待回复信息对应的目标对话；将目标对话回复在待回复信息对应的文本回复区域上，用于实现在多个目标领域上进行自动化营销，智能生成目标对话。

Description

基于元学习的多领域对话生成方法、装置、设备及介质

技术领域

本发明涉及智能对话领域，尤其涉及一种基于元学习的多领域对话生成方法、装置、设备及介质。

背景技术

众所周知，市场营销在企业发展中所起到的至关重要的作用。随着互联网时代的到来，线上营销成为越来越多企业的首选。但是现有的线上营销，需要员工在线进行销售，存在智能化低、与用户的实时互动少和人力成本高的问题；部分企业采用问答机器人回复用户，但是对于涉及多产品多领域的企业，问答机器人无法满足跨领域交流需求的问题，智能化程度低。

发明内容

本发明实施例提供一种基于元学习的多领域对话生成方法、装置、计算机设备及存储介质，以解决现有的线上营销智能化程度低的问题。

一种基于元学习的多领域对话生成方法，包括：

获取目标产品和所述目标产品对应的产品关键字；

爬取与所述产品关键字相关的发布信息，所述发布信息包括待回复信息；

将所述发布信息输入基于元学习生成的多领域对话模型，获取所述待回复信息对应的目标对话；

将所述目标对话回复在待回复信息对应的文本回复区域上；

其中，在所述获取目标产品和所述目标产品对应的产品关键字之前，所述基于元学习的多领域对话方法还包括：

获取初始化模型；

获取至少一个目标领域的训练对话样本和测试对话样本；

对每一所述目标领域的训练对话样本进行处理，获取对应的训练损失；基于所述训练损失，对所述初始化模型进行更新，得到中间模型；采用中间模型对所述测试对话样本进行处理，获取对应的测试损失，基于所述测试损失对中间模型进行更新，获取多领域对话模型。

一种基于元学习的多领域对话生成装置，包括：

产品关键字获取模块，用于获取目标产品和所述目标产品对应的产品关键字；

发布信息获取模块，用于爬取与所述产品关键字相关的发布信息，所述发布信息包括待回复信息；

目标对话获取模块，用于将所述发布信息输入基于元学习生成的多领域对话模型，获取所述待回复信息对应的目标对话；

回复模块，用于将所述目标对话回复在待回复信息对应的文本回复区域上；

初始化模型获取模块，用于获取初始化模型；

样本获取模块，用于获取至少一个目标领域的训练对话样本和测试对话样本；

多领域对话模型获取模块，用于对每一所述目标领域的训练对话样本进行处理，获取对应的训练损失；基于所述训练损失，对所述初始化模型进行更新，得到中间模型；采用中间模型对所述测试对话样本进行处理，获取对应的测试损失，基于所述测试损失对中间模型进行更新，获取多领域对话模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于元学习的多领域对话生成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于元学习的多领域对话生成方法的步骤。

上述基于元学习的多领域对话生成方法、装置、计算机设备及存储介质，获取目标产品和所述目标产品对应的产品关键字；爬取与所述产品关键字相关的发布信息，所述发布信息包括待回复信息，实现自动化爬取发布信息，提高营销自动化程度；且自动化爬取发布信息，有利于减少人力成本。将所述发布信息输入基于元学习生成的多领域对话模型，获取所述待回复信息对应的目标对话，以实现自动化生成目标对话，提高对话效率。将所述目标对话回复在待回复信息对应的文本回复区域上，保证对话具有时效性和高效性，提高智能对话效率。在所述获取目标产品和所述目标产品对应的产品关键字之前，所述基于元学习的多领域对话方法还包括：获取初始化模型；获取至少一个目标领域的训练对话样本和测试对话样本，保证得到的训练对话样本和测试对话样本具有针对性，且可实现自动化获取样本，提高训练效率。对每一所述目标领域的训练对话样本进行处理，获取对应的训练损失；基于所述训练损失，对所述初始化模型进行更新，得到中间模型；采用中间模型对所述测试对话样本进行处理，获取对应的测试损失，基于所述测试损失对中间模型进行更新，获取多领域对话模型；同时利用不同目标领域的训练对话样本和测试对话样本对初始化模型进行训练，使得初始化模型能够学习到不同目标领域的训练损失和测试损失，增强了模型的鲁棒性；模型训练过程中的不同目标领域的样本数据处理过程相同，便于实现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于元学习的多领域对话生成方法的一流程图；

图2是本发明一实施例中基于元学习的多领域对话生成方法的另一流程图；

图3是本发明一实施例中基于元学习的多领域对话生成方法的另一流程图；

图4是本发明一实施例中基于元学习的多领域对话生成方法的另一流程图；

图5是本发明一实施例中基于元学习的多领域对话生成方法的另一流程图；

图6是本发明一实施例中基于元学习的多领域对话生成方法的另一流程图；

图7是本发明一实施例中基于元学习的多领域对话生成方法的另一流程图；

图8是本发明一实施例中基于元学习的多领域对话生成装置的一示意图；

图9是本发明一实施例中基于元学习的多领域对话生成装置的另一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于元学习的多领域对话生成方法，用于实现在多个目标领域上进行自动化营销，智能生成目标对话。

在一实施例中，如图2所示，提供一种基于元学习的多领域对话生成方法，包括如下步骤：

S201：获取目标产品和目标产品对应的产品关键字。

其中，目标产品是指用于进行营销的产品，目标产品可以实现医疗产品、电子产品和食品等。产品关键字是与目标产品相关的关键字，该产品关键可以是目标产品的功能、型号或者用途等。

S202：爬取与产品关键字相关的发布信息，发布信息包括待回复信息；

其中，发布信息是发布在网站或者贴吧等的，与产品关键字相关的信息，例如，该发布信息可以是“目前在做激光生产设备，需要使用xx感应器还是yy感应器；哪种感应器比较好呢”。

待回复信息是需要进行回复的信息。

本实施例中，当企业确定目标产品对应的产品关键字后，则根据产品关键字确定相关网站；并根据产品关键字进行编码，生成自动爬取程序，利用自动爬取程序在相关网站上爬取与产品关键字相关的发布信息，实现自动化爬取发布信息，提高营销自动化程度；且自动化爬取发布信息，有利于减少人力成本。

进一步地，为保证发布信息具有时效性，当获取到发布信息时，预先对发布信息的发布时间进行时效验证，当发布时间与当前时间的时间差在预设时间差内，则执行步骤S203；若发布时间与当前时间的时间差不在预设时间差内，则该发布信息已经过了时效；此时，查询发布信息对应的用户查看频率，若用户查看频率大于预设频率，则执行步骤S203；若用户查看频率不大于预设频率，则不舍弃该发布信息。本实施例中，通过对发布信息的时效性和用户查看频率进行验证，可以保证对具有时效性的发布信息进行处理，保证用户转化率较高，放弃发布时间很久或者没有用户查看的发布信息，节约资源。

S203：将发布信息输入基于元学习生成的多领域对话模型，获取待回复信息对应的目标对话。

其中，多领域对话模型是可以对不同目标领域的发布信息进行处理，以生成目标对话的模型。本实施例中，采用元学习训练得到多领域对话模型，使得多领域对话模型可以处理不同目标领域的发布信息，泛化性能好，准确性强。

本实施例中，将发布输入多领域对话模中，以实现自动化生成目标对话，提高对话效率。

S204：将目标对话回复在待回复信息对应的文本回复区域上。

其中，文本回复区域是指用于显示目标对话的区域，以实现进行实时对话。

本实施例中，通过自动化机器人将目标对话回复在文本回复区域上，可以实现无人力成本，即可生成目标对话，并进行对话，保证对话具有时效性和高效性，提高智能对话效率。

其中，在步骤S201之前，即在获取目标产品和目标产品对应的产品关键字之前，基于元学习的多领域对话方法还包括：

S101：获取初始化模型；

其中，初始化模型是采用GUR构建的编码器、第一解码器和第二解码器。本实施例中，采用GUR构建编码器、第一解码器和第二解码器，可以便于运算和提高运算速度，且可以避免训练过程中梯度消失和梯度爆炸的问题。

S102：获取至少一个目标领域的训练对话样本和测试对话样本。

其中，目标领域是指目标产品对应的领域的，例如，该目标领域可以是医疗领域和计算机领域等。可以理解地，不同目标领域的目标产品不相同，则与目标产品相关的问题和回复也不同相同，本实施例对不同目标领域的训练对对话样本进行处理，以保证生成的多领域对话模型适用于不同目标领域的对话，为自动化营销提供技术支持。

训练对话样本是用于对初始化模型进行训练的样本。该训练对话样本为上下文对话，即该训练对话样本至少包括问题信息和对应的答复信息。

测试对话样本包括是用于对初始化模型进行测试的样本。该测试对话样本与训练对话样本相同，均为上下文对话样本。

本实施例中，得到不同目标领域对应的待营销产品，根据待营销产品得到对应的产品关键字；并在与产品关键字相关的网站上爬取数据，保证得到的训练对话样本和测试对话样本具有针对性，且可实现自动化获取样本，提高训练效率。

S103：对每一目标领域的训练对话样本进行处理，获取对应的训练损失；基于训练损失，对初始化模型进行更新，得到中间模型；采用中间模型对测试对话样本进行处理，获取对应的测试损失，基于测试损失对中间模型进行更新，获取多领域对话模型。

本实施例中，依次对每一目标领域的训练对话样本和测试对话样本进行如下处理，以得到能够同时兼容不同目标领域的多领域对话模型。具体地，一目标领域的训练对话样本输入初始化模型中，得到训练对话样本对应的训练损失；根据训练损失得到训练梯度，根据训练梯度更新初始化模型，得到中间模型；利用中间模型对测试样本进行测试，得到测试损失，基于测试损失得到测试梯度，根据测试梯度更新中间模型，得到第一模型；将第一模型作为新的初始化模型，重复执行以上步骤，直到完成所有目标领域的训练，即可得到多领域对话模型。本实施例中，同时利用不同目标领域的训练对话样本和测试对话样本对初始化模型进行训练，使得初始化模型能够学习到不同目标领域的训练损失和测试损失，增强了模型的鲁棒性；模型训练过程中的不同目标领域的样本数据处理过程相同，便于实现。

本实施例提供的基于元学习的多领域对话生成方法，获取目标产品和目标产品对应的产品关键字；爬取与产品关键字相关的发布信息，发布信息包括待回复信息，实现自动化爬取发布信息，提高营销自动化程度；且自动化爬取发布信息，有利于减少人力成本。将发布信息输入基于元学习生成的多领域对话模型，获取待回复信息对应的目标对话，以实现自动化生成目标对话，提高对话效率。将目标对话回复在待回复信息对应的文本回复区域上，保证对话具有时效性和高效性，提高智能对话效率。在获取目标产品和目标产品对应的产品关键字之前，基于元学习的多领域对话方法还包括：获取初始化模型；获取至少一个目标领域的训练对话样本和测试对话样本，保证得到的训练对话样本和测试对话样本具有针对性，且可实现自动化获取样本，提高训练效率。对每一目标领域的训练对话样本进行处理，获取对应的训练损失；基于训练损失，对初始化模型进行更新，得到中间模型；采用中间模型对测试对话样本进行处理，获取对应的测试损失，基于测试损失对中间模型进行更新，获取多领域对话模型；同时利用不同目标领域的训练对话样本和测试对话样本对初始化模型进行训练，使得初始化模型能够学习到不同目标领域的训练损失和测试损失，增强了模型的鲁棒性；模型训练过程中的不同目标领域的样本数据处理过程相同，便于实现。

作为一实施例，如图3所示，步骤S202，即爬取与产品关键字相关的发布信息，包括：

S301：确定与目标关键字相关的目标网站。

本实施例中，通过目标产品的用途或者目标领域等确定目标产品对应的目标网站，进而确定目标关键字相关的目标网站，保证后续的获得发布信息与目标关键字和目标产品关联性较强，提高后续产品推荐的成功率。示例性地，对于婴儿产品，则对应的目标网站为母婴网站或者育儿网站。

S302：采用爬虫技术登录所有目标网站。

本实施例中，获取目标网站的的网站账号和网站密码；查询目标网站的登录界面，确定目标网站的登录按钮、密码填写区域和账号填写区域；根据目标网站的登录按钮、密码填写区域和账号填写区域书写Xpath；将Xpath传递给Selenium进行解析；通过Selenium输入动作将网站账号上传至账号填写区域上，将网站密码上传至密码填写区域，通过点击动作模拟鼠标进行登陆操作，登录所有目标网站。

本实施例中，通过采用爬虫技术进行登录目标网站的操作，为后续的自动化爬取发布信息提供技术支持，提高自动化程度。

S303：对所有目标网站进行爬取，获取目标网站中，与目标关键字相关的发布信息。

本实施例中，利用Selenium设计爬虫框架，获取目标网站对应的源代码，并对搜索栏进行定位，利用Xpath模拟搜索动作，以将产品关键字输入搜索栏中，显示搜索结果，得到与目标关键字相关的发布信息。本实施例中，自动完成确定发布信息，效率极高，可以有效减低企业人力成本。

本实施例提供的基于元学习的多领域对话生成方法，确定与目标关键字相关的目标网站，保证后续的获得发布信息与目标关键字和目标产品关联性较强，提高后续产品推荐的成功率。采用爬虫技术登录所有目标网站，提高自动化程度。对所有目标网站进行爬取，获取目标网站中，与目标关键字相关的发布信息，自动完成确定发布信息，效率极高，可以有效减低企业人力成本。

作为一实施例，如图4所示，步骤S204，即将目标对话回复在待回复信息对应的文本回复区域上，包括：

S401：检查待回复信息对应的发布界面，确定发布界面对应的文本回复区域和发布操作按键。

其中，发布操作按键是用于发布目标对话的按键。

本实施例中，采用Selenium对发布界面进行检查，自动锁定发布界面上的发布操作按键和文本回复区域，提高自动化程度。

S402：获取操作指令，基于操作指令，控制发布操作按键将目标对话发布在文本回复区域上。

本实施例中，通过Xpath将目标对话提交到发布界面的文本回复区域内，接收操作指令，触发发布操作按键，控制发布操作按键将目标对话发布在文本回复区域上，从而实现自动化回复目标对话，提高对话效率，减少人力成本。

本实施例提供的基于元学习的多领域对话生成方法，检查待回复信息对应的发布界面，确定发布界面对应的文本回复区域和发布操作按键，提高自动化程度。获取操作指令，基于操作指令，控制发布操作按键将目标对话发布在文本回复区域上，从而实现自动化回复目标对话，提高对话效率，减少人力成本。

作为一实施例，如图5所示，步骤S203，即将发布信息输入基于元学习生成的多领域对话模型，获取待回复信息对应的目标对话，包括：

S501：采用编码器对发布信息进行编码处理，得到目标语义编码。

本实施例中，发布信息包括前一对话对应的问题信息和答复信息B_t-1、基准时刻的待回复问题U_t和最后一次对话对应的回复信息R_t-1。可以理解为在，在一个帖子下，存在 n次对话，将需要与产品关键字相关的待回复问题的确定为基准时刻的待回复问题，与待回复问题相邻的上一次对话即为迁移对话对应的问题信息和答复信息。本实施例中，通过采集包括前一对话对应的问题信息和答复信息、基准时刻的待回复问题和最后一次对话对应的回复信息的发布信息进行编码，可以更好地考虑待回复问题的上下文信息，保证生成的目标回复更加精准，符合实际，从而有助于提高营销成功率。

S502：将目标语义编码向量输入到第一解码器进行概率估计处理，得到目标单词概率。

本实施例中，将目标语义编码向量输入预先训练好的第一解码器中，采用最大似然估计计算得到目标语义编码向量对应的每一单词和待回复对应的每一个单词，组成目标对话的概率，具体地，其中，P_i(v) 是指每一个单词对应的目标语义编码向量，在目标对话中出现的概率；v是指每一个单词对应的目标语义编码向量；g为预设常量；/>为最大似然概率，该最大似然概率的计算公式为/>其中，Z是一个归一化因子，具体为 />u_j表示第j个目标语义编码向量的在U_t中的特征。Φ(u_j) 表示第j个目标语义编码向量的得分，Φ(b_j)是表示前一对话对应的问题信息和答复信息 B_t-1单词的得分；通过公式计算是第j个单词的隐状态，/>是第一解码器的隐状态，W是一个权重矩阵。

本实施例中，通过第一解码器得到目标语义编码向量对应的每一单词和待回复对应的每个单词在目标对话中的概率，以为后续得到目标对话提供技术支持。

S403：将目标单词概率和目标语义编码向量输入到第二解码器进行预测处理，得到目标对话。

本实施例中，第二解码器对单词概率和目标语义编码向量共同进行计算，并将目标语义编码向量对应的每一单词和词典中每个单词中概率最高的作为目标对话输出，公式为本实施例中，通过第一编码器和第二编码器的结合得到目标对话，可以更好地学习分布信息中上下文的联系，保证生成的目标对话更加精准。进一步地，当生成的目标对话为多个时，则通过查询每一目标对话是否存在应用次数，将应用次数最高的目标对话发布在目标网站上，保证更加贴近用户需求。

本实施例提供的基于元学习的多领域对话生成方法，采用编码器对发布信息进行编码处理，得到目标语义编码，可以更好地考虑待回复问题的上下文信息，保证生成的目标回复更加精准，符合实际，从而有助于提高营销成功率。将目标语义编码向量输入到第一解码器进行概率估计处理，得到目标单词概率，以为后续得到目标对话提供技术支持。将目标单词概率和目标语义编码向量输入到第二解码器进行预测处理，得到目标对话，通过第一编码器和第二编码器的结合得到目标对话，可以更好地学习分布信息中上下文的联系，保证生成的目标对话更加精准。

作为一实施例，如图6所示，步骤S103，即对每一目标领域的训练对话样本进行处理，获取对应的训练损失，包括：

S601：采用初始化模型的编码器对训练对话样本进行编码处理，得到训练语义编码向量。

本实施例中，在每一训练对话样本的开头设置开始标识，在末尾设置结束标识，有助于计算机识别到训练对话样本的开始和结束。

具体地，每一训练对话样本包括前一时刻的问题信息和对应的答复信息、基准时刻的问题信息和对话最后时刻的答复信息；采用初始化模型的编码器对前一时刻的问题信息和对应的答复信息、基准时刻的问题信息和对话最后时刻的答复信息进行编码处理，得到前一时刻的问题信息和对应的答复信息对应的第一语义编码向量、基准时刻的问题信息对应的第二语义编码向量和对话最后时刻的答复信息对应的第三语义编码向量，将第一语义编码向量、第二语义编码向量和第三语义编码向量确定目标语义编码向量。本实施例中，训练对话样本包括前一时刻的问题信息和对应的答复信息、基准时刻的问题信息和对话最后时刻的答复信息，可以保证模型在训练过程中学习到更多的上下文信息，保证生成的模型精准更高。其中，前一时刻的问题信息和对应的答复是一个问答对。

S602：将训练语义编码向量输入到第一解码器进行概率估计处理，得到训练单词概率。

具体地，将第一语义编码向量、第二语义编码向量和第三语义编码向量输入第一编码器中；计算目标语义编码向量中每个单词和待回复信息中每个单词在目标对话中每一单词对应的训练概率。

S603：将训练单词概率和训练语义编码向量输入到第二解码器进行预测处理，得到预测句子。

本实施例中，将训练单词概率和训练语义编码向量输入到第二解码器上，以使第二解码器学习到上下文关系，并将训练单词概率最大的单词输入为预测句子，保证预测句子具有准确性。

S604：根据预测句子和训练对话样本对应的训练标签，得到训练损失。

具体地，采用交叉上损失来衡量每一目标领域上的训练损失，即训练损失计算公式为其中，M是初始化模型；c^(k)表示编码器编码得到的训练语义编码向量；r^(k)是指预测句子；/>是指是指预测句子中，第j个单词的概率。

进一步地，基于训练损失，对初始化模型进行更新，得到中间模型，包括：采用计算得到Mk’表示模型参数在一个目标领域的训练对话样本上训练更新后所得的模型参数，以得到中间模型；其中，M1是初始化模型的初始模型参数；α表示学习率；/>表示梯度，我们利用损失函数Lsk的梯度来更新模型参数，Mk’表示模型参数在某一对话领域的训练集上训练更新后所得的模型参数。

采用初始化模型的编码器对训练对话样本进行编码处理，得到训练语义编码向量，可以更好地考虑待回复问题的上下文信息，保证生成的预测句子更加精准，符合实际，提高后续生成目标句子的准确性。将训练语义编码向量输入到第一解码器进行概率估计处理，得到训练单词概率；将训练单词概率和训练语义编码向量输入到第二解码器进行预测处理，得到预测句子；根据预测句子和训练对话样本对应的训练标签，得到训练损失。

作为一实施例，如图7所示，步骤S103，即基于测试损失对中间模型进行更新，获取多领域对话模型，包括：

S701：对所有目标领域对应的测试损失进行平均处理，获取平均测试损失；

S702：采用平均测试损失对中间模型进行处理，获取多领域对话模型。

本实施例中，将所有目标领域对应的测试损失相加，并处理目标领域的数量，即可得到平均测试损失，并利用平均测试损失对中间模型进行更新，即采用平均测试损失公式得到平均测试损失；利用平均测试损失来更新中间模型的参数/>其中，β为更新学习率。得到多领域模型，保证生成的多领域模型可以智能地生成多种目标领域的目标对话，提高使用效率，由于利用平均测试损失，使得最终模型不过拟合于任何一个对话领域，而是站在多个对话领域的水平线上得到了一个良好的初始化状态。

对所有目标领域对应的测试损失进行平均处理，获取平均测试损失；采用平均测试损失对中间模型进行处理，获取多领域对话模型，提高使用效率，由于利用平均测试损失，使得最终模型不过拟合于任何一个对话领域，而是站在多个对话领域的水平线上得到了一个良好的初始化状态。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于元学习的多领域对话生成装置，该基于元学习的多领域对话生成装置与上述实施例中基于元学习的多领域对话生成方法一一对应。如图8所示所示，该基于元学习的多领域对话生成装置包括产品关键字获取模块801、发布信息获取模块802、目标对话获取模块803和回复模块804。各功能模块详细说明如下：

产品关键字获取模块801，用于获取目标产品和目标产品对应的产品关键字；

发布信息获取模块802，用于爬取与产品关键字相关的发布信息，发布信息包括待回复信息；

目标对话获取模块803，用于将发布信息输入基于元学习生成的多领域对话模型，获取待回复信息对应的目标对话；

回复模块804，用于将目标对话回复在待回复信息对应的文本回复区域上；

其中，如图7所示，在产品关键字获取模块之前，基于元学习的多领域对话装置还包括：初始化模型获取模块701、样本获取模块702和多领域对话模型获取模块703；初始化模型获取模块701，用于获取初始化模型；

样本获取模块702，用于获取至少一个目标领域的训练对话样本和测试对话样本；

多领域对话模型获取模块703，用于对每一目标领域的训练对话样本进行处理，获取对应的训练损失；基于训练损失，对初始化模型进行更新，得到中间模型；采用中间模型对测试对话样本进行处理，获取对应的测试损失，基于测试损失对中间模型进行更新，获取多领域对话模型。

关于基于元学习的多领域对话生成装置的具体限定可以参见上文中对于基于元学习的多领域对话生成方法的限定，在此不再赘述。上述基于元学习的多领域对话生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库存储训练对话样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于元学习的多领域对话生成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于元学习的多领域对话生成方法的步骤，例如图1所示的步骤S101-S103，或者图2至图6中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现基于元学习的多领域对话生成装置这一实施例中的各模块/单元的功能，例如图7所示的初始化模型获取模块701、样本获取模块702和多领域对话模型获取模块703的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中基于元学习的多领域对话生成方法的步骤，例如图1所示的步骤S101-S103，或者图2至图6中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现基于元学习的多领域对话生成装置这一实施例中的各模块/单元的功能，例如图7所示的初始化模型获取模块701、样本获取模块702和多领域对话模型获取模块703的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率 SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于元学习的多领域对话生成方法，应用于网络营销，其特征在于，包括：

获取目标产品和所述目标产品对应的产品关键字；

将所述目标对话回复在待回复信息对应的文本回复区域上；

获取初始化模型；

获取至少一个目标领域的训练对话样本和测试对话样本；

2.如权利要求1所述的基于元学习的多领域对话生成方法，其特征在于，所述爬取与所述产品关键字相关的发布信息，包括：

确定与所述目标关键字相关的目标网站；

采用爬虫技术登录所有所述目标网站；

对所有所述目标网站进行爬取，获取所述所述目标网站中，与所述目标关键字相关的发布信息。

3.如权利要求1所述的基于元学习的多领域对话生成方法，其特征在于，所述将所述目标对话回复在待回复信息对应的所述文本回复区域上，包括：

检查所述待回复信息对应的发布界面，确定所述发布界面对应的文本回复区域和发布操作按键；

获取操作指令，基于所述操作指令，控制所述发布操作按键将所述目标对话发布在所述文本回复区域上。

4.如权利要求1所述的基于元学习的多领域对话生成方法，其特征在于；所述将所述发布信息输入基于元学习生成的多领域对话模型，获取所述待回复信息对应的目标对话，包括：

采用编码器对所述发布信息进行编码处理，得到目标语义编码；

将所述目标语义编码向量输入到第一解码器进行概率估计处理，得到目标单词概率；

将所述目标单词概率和所述目标语义编码向量输入到第二解码器进行预测处理，得到目标对话。

5.如权利要求1所述的基于元学习的多领域对话生成方法，其特征在于，所述对每一所述目标领域的训练对话样本进行处理，获取对应的训练损失，包括：

采用初始化模型的编码器对训练对话样本进行编码处理，得到训练语义编码向量；

将所述训练语义编码向量输入到第一解码器进行概率估计处理，得到训练单词概率；

将所述训练单词概率和所述训练语义编码向量输入到第二解码器进行预测处理，得到预测句子；

根据预测句子和所述训练对话样本对应的训练标签，得到训练损失。

6.如权利要求1所述的基于元学习的多领域对话生成方法，其特征在于，所述基于所述测试损失对中间模型进行更新，获取多领域对话模型，包括：

对所有目标领域对应的所述测试损失进行平均处理，获取平均测试损失；

采用所述平均测试损失对所述中间模型进行处理，获取多领域对话模型。

7.如权利要求1所述的基于元学习的多领域对话生成方法，其特征在于，包括：初始化模型包括由GRU构建的编码器、第一解码器和第二解码器。

8.一种基于元学习的多领域对话生成模型，其特征在于，包括：

其中，在所述获取目标产品和所述目标产品对应的产品关键字之前，所述基于元学习的多领域对话装置还包括：

初始化模型获取模块，用于获取初始化模型；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于元学习的多领域对话生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于元学习的多领域对话生成方法的步骤。