CN114358019A - 意图预测模型的训练方法及系统 - Google Patents
意图预测模型的训练方法及系统 Download PDFInfo
- Publication number
- CN114358019A CN114358019A CN202111664528.5A CN202111664528A CN114358019A CN 114358019 A CN114358019 A CN 114358019A CN 202111664528 A CN202111664528 A CN 202111664528A CN 114358019 A CN114358019 A CN 114358019A
- Authority
- CN
- China
- Prior art keywords
- training
- discriminator
- generator
- sample
- false
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供一种意图预测模型的训练方法。该方法包括:意图预测模型接收训练数据,判断训练数据是否满足预设训练标准;当满足预设训练标准时,基于BERT确定训练数据的真样本,与生成器生成的第一假样本,至少对判别器的参数进行训练,以使判别器区分所有样本的意图类别;利用生成器输出的第二假样本,对生成器的参数进行训练,以生成判别器无法预测的假样本;重复对判别器与生成器进行对抗训练,直至意图预测模型收敛。本发明实施例还提供一种意图预测模型的训练系统。本发明实施例可以减少人工处理数据集的成本,在用户未能很好的提供模型训练所需要的空样本的时候,可以更好地利用用户所提供的数据集,不需要对数据集进行较为复杂的处理。
Description
技术领域
本发明涉及语义理解领域,尤其涉及一种意图预测模型的训练方法及系统。
背景技术
为了让智能语音助手更加人性化,能够理解用户对话中的意图是十分重要的。只有理解用户的意图,才能够进行准确的反馈。为了能够理解用户的意图通常会采用:
1、预训练的语言模型
预训练语言模型指的是利用大量在人们生活中出现过的文本来训练,使模型在这些文本中,学习到每一个词或字出现的概率分布,以此来建模出符合这些文本分布的模型。语言模型语料的标签就是它的上下文,这就决定了人们几乎可以无限制地利用大规模的语料来训练语言模型,这些大规模的语料,使模型得以获得了强大的能力,进一步在下游相关任务上展现了其出色的效果。在此基础上的文本分类任务,会利用少量的分类标注任务,通过预训练语言模型进行微调学习,得到较好的分类效果。
2、元学习
又称“学会学习”(Learning to learn),即利用以往的知识经验来指导新任务的学习,使网络具备学会学习的能力。元学习的本质是增加学习器在多任务的泛化能力,元学习对于任务和数据都需要采样,因此学习到的“公式”可以在未出现的任务中迅速(依赖很少的样本)建立起映射。因此元学习主要体现在网络对于多个任务的学习,通过不断的适应每个具体任务,使网络具备一种抽象的学习能力。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
属于深度学习的算法往往需要大量的人工进行文本类别的标注,这会耗费极大的时间和人力成本。
基于预训练模型的方法虽然可以通过大量未标注的自然文本进行学习,从而减少人工标注的成本,但是文本分类的标注一般只是标注已经定义好类别的文本,但是类别之外的文本内容将无法处理。另一方面,基于预训练模型的方法也不能够解决在新任务上训练语料不足的问题。
基于元学习的方法一方面也需要依赖大量的语料进行训练,它需要不同的任务数据作为输入,这些任务数据可以是通过全部标注也可以是通过少量标注+采样的方式得到,这样一来元学习在模型训练阶段所需要的数据其实是更多了而不是更少了,因此也间接增加了数据标注成本。另一方面,元学习例如MAML的模型训练和调参过程是比较困难的,虽然理论上可以得到一个在所有任务上都能通过快速学习取得更优结果的模型,但是实际上不能完全确保模型在使用不同类型数据的情况下的训练是朝着正确的方向进行的。
发明内容
为了至少解决现有技术中小样本学习中标注数据的问题:标注样本数据量不足、无标注样本数据量不足。会导致在分布内的数据识别效果不佳,也就是说一句应该属于某个分类的数据可能识别错误,而后者则会导致分布外数据识别效果不佳的问题。第一方面,本发明实施例提供一种意图预测模型的训练方法,包括:
所述意图预测模型接收训练数据,判断所述训练数据是否满足预设训练标准,其中,所述意图预测模型包括:生成器、BERT、判别器;
当满足预设训练标准时,基于所述BERT确定所述训练数据的真样本,与所述生成器生成的第一假样本,至少对所述判别器的参数进行训练,以使所述判别器区分所有样本的意图类别,用于降低所述判别器的损失;
利用所述生成器输出的第二假样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的假样本,用于提高所述判别器的损失;
重复对所述判别器与所述生成器进行对抗训练,直至所述意图预测模型收敛。
第二方面,本发明实施例提供一种意图预测模型的训练系统,包括:
训练数据接收程序模块,用于所述意图预测模型接收训练数据,判断所述训练数据是否满足预设训练标准,其中,所述意图预测模型包括:生成器、BERT、判别器;
意图类别区分程序模块,用于当满足预设训练标准时,基于所述BERT确定所述训练数据的真样本,与所述生成器生成的第一假样本,至少对所述判别器的参数进行训练,以使所述判别器区分所有样本的意图类别,降低所述判别器的损失;
样本生成程序模块,用于利用所述生成器输出的第二假样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的假样本,提高所述判别器的损失;
对抗训练程序模块,用于重复对所述判别器与所述生成器进行对抗训练,直至所述意图预测模型收敛。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的意图预测模型的训练方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的意图预测模型的训练方法的步骤。
本发明实施例的有益效果在于:可以减少人工处理数据集的成本,更好地利用用户所提供的数据集。在用户未能很好的提供模型训练所需要的空样本的时候,可以更好地利用用户所提供的数据集,而不需要对数据集进行较为复杂的处理。更进一步地讲,如果能够对用户所提供的数据集进行处理后再送入该模型,那么也可以使得模型比普通的预训练微调模型获得更好的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种意图预测模型的训练方法的流程图;
图2是本发明一实施例提供的一种意图预测模型的训练方法的GANBERT结构示意图;
图3是本发明一实施例提供的一种意图预测模型的训练方法的CGANBERT结构示意图;
图4是本发明一实施例提供的一种意图预测模型的训练方法的意图预测模型训练流程图;
图5是本发明一实施例提供的一种意图预测模型的训练系统的结构示意图;
图6为本发明一实施例提供的一种意图预测模型的训练的电子设备的实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种意图预测模型的训练方法的流程图,包括如下步骤:
S11:所述意图预测模型接收训练数据,判断所述训练数据是否满足预设训练标准,其中,所述意图预测模型包括:生成器、BERT、判别器;
S12:当满足预设训练标准时,基于所述BERT确定所述训练数据的真样本,与所述生成器生成的第一假样本,至少对所述判别器的参数进行训练,以使所述判别器区分所有样本的意图类别,用于降低所述判别器的损失;
S13:利用所述生成器输出的第二假样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的假样本,用于提高所述判别器的损失;
S14:重复对所述判别器与所述生成器进行对抗训练,直至所述意图预测模型收敛。
在本实施方式中,做对话机器人的意图分类模型产品化的过程中,经常碰见用户在使用意图模型训练工具时,不能很好的正确提供训练样本的问题。例如:用户在提供语料时,每个意图类别仅提供了若干条数据(例如5条,条数不限制)。并且,用户一般都不能很好地定义空样本,因为用户多数时候仅知道什么样的数据是正样例,但是对于空样本的边界并不十分清楚。因此用户提供的训练数据中大多都不包含或者仅包含很少的空样本,也正因如此,用户输入的数据往往是小样本的。
对于步骤S11,本方法的意图预测模型包括生成器、BERT(Bidirectional EncoderRepresentation from Transformers,来自变压器的双向编码器表示)、判别器。基于上文所述,用户不能很好的正确提供训练样本的问题,在收到用户输入的训练数据后,会对其训练数据进行判断,是否满足训练的标准。
作为一种实施方式,所述训练数据包括:不属于任何意图类别的空样本以及属于任一意图类别的非空样本;
所述判断所述训练数据是否满足预设训练标准包括:判断所述空样本在所述训练数据中所占比例是否达到预设训练标准。
在本实施方式中,用户会提供意图训练数据,该训练数据中可能包含有空样本,可以根据空样本和非空样本的数量比例(例如1:1)判断,也可以通过实验来确定。其中,可能一句不属于任何一个分类的数据识别到了某一特定分类内(对于这种数据,称之为空样本)。例如,“我要买药”、“导航去公园”这些语句有着很明显的意图(购买、导航),而“这条河水浑浊”这句话不属于任何意图分类。
对于步骤S12,若空样本所占比例达到预设训练标准(例如设定的1:1),可以利用本方法的意图预测模型进行训练,如图2所示利用生成器、BERT以及判别器组成GANBERT结构的意图预测模型。将GAN(Generative Adversarial Networks,生成对抗网络)与BERT模型结合,让模型能够将原有的训练数据通过生成网络进行增强,从而提升模型的样本外准确率,以及鲁棒性。其中,BERT即预训练模型。G部分是一个生成器,它的作用是生成与真实数据类似的数据。D部分是一个判别器,它的作用是首先可以区分出一个真实样例是属于哪个类别,其次它增加了一类,用来判断一个数据是否是真实的样本还是由G部分的生成器所生成的样本。
基于BERT确定所述训练数据的真样本,随机初始化生成器G的参数,使用一个噪声数据输入生成一些假样本。然后将真假样本混合到一起,让判别器D进行学习。
具体的,真假样本混合到一起输入至判别器D,可以确定出预测意图,而训练数据中,会有用户准备好真样本的基准意图。利用基准意图与预测意图的误差确定出判别器的损失。利用判别器的损失对判别器D部分的参数优化,使训练后的预测意图趋近于基准意图,提升了判别器预测意图的准确性,也就降低了判别器预测的损失。
作为一种实施方式,基于所述真样本与所述第一假样本,对所述判别器的参数和所述BERT的参数共同训练,以使所述BERT提取所述训练数据的深度语义表示,用于降低所述判别器的损失;
基于同样的方式,利用判别器的损失对所述判别器的参数和所述BERT的参数共同训练,这样训练后的BERT可以从训练数据中提取深度语义表示,进一步让判别器D可以更好地区分所有样本意图的类别。
对于步骤S13,继续利用生成器G重新生成一部分数据作为另外的假样本。由于插入了更多的假样本,会影响判别器D的意图预测结果。
作为一种实时方式,利用所述生成器输出的第二假样本,对所述生成器的参数进行训练包括:
固定所述BERT的参数以及所述判别器的参数,利用判别器对所述第二假样本预测的损失,对所述生成器的参数进行训练,所述训练的目标为提高所述预测的损失,以生成所述判别器无法预测的假样本。
在本实施方式中,训练是对整个模型进行训练,但是要固定住判别器D和BERT部分的参数,仅调整生成器G内的参数。例如,生成器G一轮生成的(用户提供的训练数据之外)假样本数据为“我要买手机”,此时判别器可以较为准确的预测出对应的意图(购买)。此时,判别器已经经过步骤S12的训练,对于这种意图明显的语句有一定的判别能力,此时判别器的损失还是较低。但本方法的目的是为了使用更丰富的假样本进行对抗训练,因此通过判别器的损失对生成器G内的参数进行训练,例如,训练后生成器G下一轮生成的假样本数据为“我要手机”,此时判别器可以预估到用户与手机之间可能存在的关系(购买、拿起等意图)。此时判别器的预测的损失会变大。通过上述方式逐步的训练,从而生成器生成所述判别器无法预测的假样本,提升意图预测模型训练数据的广度。
对于步骤S14,重复上述步骤S12和S13对判别器、BERT、生成器的对抗训练,经过S12,可以在已有的真假混合样本中逐步提升判别器预测意图的准确性,经过S13,在判别器预测意图准确的基础上进一步提升预测样本的广度,可以预估更多对话的意图。然后再以提升样本广度的基础上再次提升判别器预测意图的准确性。通过不断的对抗训练,直至意图预测模型收敛。对于模型的收敛条件可以设定预测误差小于某个预先设定值;或者两次迭代之间的权值变化已经很小,可设定一个阈值,当小于这个阈值后,就停止训练;还可以设定最大迭代次数,当迭代超过最大次数就停止训练。对于收敛条件在此不做限制。总的来说,如果用户提供的空样本数量满足标准,就可以直接使用生成器、BERT以及判别器组成GANBERT结构的意图预测模型进行训练。
作为一种实施方式,当所述训练数据不满足预设训练标准时,所述方法还包括:
基于所述BERT确定所述训练数据的真样本、所述生成器生成的第一假空样本以及所述第一假空样本对应的标签,对所述判别器的参数和所述BERT的参数共同训练,以使所述BERT提取所述训练数据的深度语义表示,用于降低所述判别器的损失;
重复对所述判别器、BERT与所述生成器进行对抗训练,直至所述意图预测模型收敛。
在本实施方式中,如果用户输入的训练数据不满足预设条件,也就是空样本过少。如果直接将这种数据直接进行训练,那么训练后的模型也不会解决空样本筛选的问题。可以利用本方法的意图预测模型进行训练,如图3所示利用生成器、BERT以及判别器组成CGANBERT结构的意图预测模型。其中,将CGAN(Conditional Generative AdversarialNets,条件生成对抗网络)与BERT模型结合。其中,CGANBERT的思路是在GANBERT的基础上,仅让生成器G生成空样本,以此来增强模型对空样本部分的预测准确率,同时提升模型对所有意图的预测精确度。
具体做法是,在生成器输入的过程中,在噪声数据输入的同时将对应的标签也输入到网络中。另外,在判别器D输入的过程中也同时将对应的标签输入到网络中。如此一来,判别器就能够学习到将标签和生成样本同时正确的样本判断为正确样本,而生成器也能学习到根据标签来生成对应的样本。(训练过程与上述GANBERT相似,区别为生成器G生成空样本以及添加了标签这一属性进行训练,训练过程不再赘述)。总的来说,如果用户输入的训练数据中空样本数量不满足要求,那么就可以使用CGANBERT结构的意图预测模型。
如果判断需要使用CGANBERT模型,那么从内置语料库中筛选出部分空样本混入用户提供的语料,同时改用CGANBERT结构的模型进行训练。训练完的CGANBERT模型可以同其它模型一样直接进行部署,然后提供意图预测服务,整体流程如图4所示。在对用户输入的小样本训练数据训练后,利用BERT以及判别器进行意图预测,得到准确的预测结果。
对本方法进行测试,本方法能够直接得到的效果就是意图预测准确率的提升,相较于传统的预训练模型微调(使用BERT)来说,CGANBERT在快递领域数据集上可以获得最多2.05%的提升,在金融领域可以获得最多6%的提升。
通过该实施方式可以看出,本方法可以减少人工处理数据集的成本,更好地利用用户所提供的数据集。在用户未能很好的提供模型训练所需要的空样本的时候,可以更好地利用用户所提供的数据集,而不需要对数据集进行较为复杂的处理。更进一步地讲,如果能够对用户所提供的数据集进行处理后再送入该模型,那么也可以使得模型比普通的预训练微调模型获得更好的效果。
如图5所示为本发明一实施例提供的一种意图预测模型的训练系统的结构示意图,该系统可执行上述任意实施例所述的意图预测模型的训练方法,并配置在终端中。
本实施例提供的一种意图预测模型的训练系统10包括:训练数据接收程序模块11,意图类别区分程序模块12,样本生成程序模块13和对抗训练程序模块14。
其中,训练数据接收程序模块11用于所述意图预测模型接收训练数据,判断所述训练数据是否满足预设训练标准,其中,所述意图预测模型包括:生成器、BERT、判别器;意图类别区分程序模块12用于当满足预设训练标准时,基于所述BERT确定所述训练数据的真样本,与所述生成器生成的第一假样本,至少对所述判别器的参数进行训练,以使所述判别器区分所有样本的意图类别,降低所述判别器的损失;样本生成程序模块13用于利用所述生成器输出的第二假样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的假样本,提高所述判别器的损失;对抗训练程序模块14用于重复对所述判别器与所述生成器进行对抗训练,直至所述意图预测模型收敛。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的意图预测模型的训练方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
所述意图预测模型接收训练数据,判断所述训练数据是否满足预设训练标准,其中,所述意图预测模型包括:生成器、BERT、判别器;
当满足预设训练标准时,基于所述BERT确定所述训练数据的真样本,与所述生成器生成的第一假样本,至少对所述判别器的参数进行训练,以使所述判别器区分所有样本的意图类别,用于降低所述判别器的损失;
利用所述生成器输出的第二假样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的假样本,用于提高所述判别器的损失;
重复对所述判别器与所述生成器进行对抗训练,直至所述意图预测模型收敛。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的意图预测模型的训练方法。
图6是本申请另一实施例提供的意图预测模型的训练方法的电子设备的硬件结构示意图,如图6所示,该设备包括:
一个或多个处理器610以及存储器620,图6中以一个处理器610为例。意图预测模型的训练方法的设备还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的意图预测模型的训练方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例意图预测模型的训练方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息。输出装置640可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的意图预测模型的训练方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的意图预测模型的训练方法的步骤。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种意图预测模型的训练方法,包括:
所述意图预测模型接收训练数据,判断所述训练数据是否满足预设训练标准,其中,所述意图预测模型包括:生成器、BERT、判别器;
当满足预设训练标准时,基于所述BERT确定所述训练数据的真样本,与所述生成器生成的第一假样本,至少对所述判别器的参数进行训练,以使所述判别器区分所有样本的意图类别,用于降低所述判别器的损失;
利用所述生成器输出的第二假样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的假样本,用于提高所述判别器的损失;
重复对所述判别器与所述生成器进行对抗训练,直至所述意图预测模型收敛。
2.根据权利要求1所述的方法,其中,当满足预设训练标准时,所述方法还包括:
基于所述真样本与所述第一假样本,对所述判别器的参数和所述BERT的参数共同训练,以使所述BERT提取所述训练数据的深度语义表示,用于降低所述判别器的损失;
重复对所述判别器、BERT与所述生成器进行对抗训练,直至所述意图预测模型收敛。
3.根据权利要求1所述的方法,其中,所述训练数据包括:不属于任何意图类别的空样本以及属于任一意图类别的非空样本;
所述判断所述训练数据是否满足预设训练标准包括:判断所述空样本在所述训练数据中所占比例是否达到预设训练标准。
4.根据权利要求3所述的方法,其中,当所述训练数据不满足预设训练标准时,所述方法还包括:
基于所述BERT确定所述训练数据的真样本、所述生成器生成的第一假空样本以及所述第一假空样本对应的标签,至少对所述判别器的参数进行训练,以使所述判别器区分带有标签的样本的意图类别,用于降低所述判别器的损失;
利用所述生成器基于所述标签生成的第二假空样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的带有标签的假样本,用于提高所述判别器的损失;
重复对所述判别器与所述生成器进行对抗训练,直至所述意图预测模型收敛。
5.根据权利要求4所述的方法,其中,当所述训练数据不满足预设训练标准时,所述方法还包括:
基于所述BERT确定所述训练数据的真样本、所述生成器生成的第一假空样本以及所述第一假空样本对应的标签,对所述判别器的参数和所述BERT的参数共同训练,以使所述BERT提取所述训练数据的深度语义表示,用于降低所述判别器的损失;
重复对所述判别器、BERT与所述生成器进行对抗训练,直至所述意图预测模型收敛。
6.根据权利要求1所述的方法,其中,利用所述生成器输出的第二假样本,对所述生成器的参数进行训练包括:
固定所述BERT的参数以及所述判别器的参数,利用判别器对所述第二假样本预测的损失,对所述生成器的参数进行训练,所述训练的目标为提高所述预测的损失,以生成所述判别器无法预测的假样本。
7.根据权利要求1-6中任一项所述的方法,其中,在所述意图预测模型收敛之后,所述方法还包括:
利用所述BERT以及所述判别器进行意图预测。
8.一种意图预测模型的训练系统,包括:
训练数据接收程序模块,用于所述意图预测模型接收训练数据,判断所述训练数据是否满足预设训练标准,其中,所述意图预测模型包括:生成器、BERT、判别器;
意图类别区分程序模块,用于当满足预设训练标准时,基于所述BERT确定所述训练数据的真样本,与所述生成器生成的第一假样本,至少对所述判别器的参数进行训练,以使所述判别器区分所有样本的意图类别,降低所述判别器的损失;
样本生成程序模块,用于利用所述生成器输出的第二假样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的假样本,提高所述判别器的损失;
对抗训练程序模块,用于重复对所述判别器与所述生成器进行对抗训练,直至所述意图预测模型收敛。
9.根据权利要求8所述的系统,其中,所述训练数据包括:不属于任何意图类别的空样本以及属于任一意图类别的非空样本;
所述训练数据接收程序模块用于:判断所述空样本在所述训练数据中所占比例是否达到预设训练标准。
10.根据权利要求9所述的系统,其中,所述意图类别区分程序模块还用于:基于所述BERT确定所述训练数据的真样本、所述生成器生成的第一假空样本以及所述第一假空样本对应的标签,至少对所述判别器的参数进行训练,以使所述判别器区分带有标签的样本的意图类别,用于降低所述判别器的损失;
所述样本生成程序模块还用于:利用所述生成器基于所述标签生成的第二假空样本,对所述生成器的参数进行训练,以生成所述判别器无法预测的带有标签的假样本,用于提高所述判别器的损失。
11.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111664528.5A CN114358019A (zh) | 2021-12-31 | 2021-12-31 | 意图预测模型的训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111664528.5A CN114358019A (zh) | 2021-12-31 | 2021-12-31 | 意图预测模型的训练方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114358019A true CN114358019A (zh) | 2022-04-15 |
Family
ID=81104972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111664528.5A Pending CN114358019A (zh) | 2021-12-31 | 2021-12-31 | 意图预测模型的训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114358019A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115481736A (zh) * | 2022-11-10 | 2022-12-16 | 富联裕展科技(深圳)有限公司 | 焊渣图模型的训练方法、焊渣切割模型的生成方法、设备 |
-
2021
- 2021-12-31 CN CN202111664528.5A patent/CN114358019A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115481736A (zh) * | 2022-11-10 | 2022-12-16 | 富联裕展科技(深圳)有限公司 | 焊渣图模型的训练方法、焊渣切割模型的生成方法、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992934B (zh) | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 | |
CN110516253B (zh) | 中文口语语义理解方法及系统 | |
CN109977207A (zh) | 对话生成方法、对话生成装置、电子设备及存储介质 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN110706692B (zh) | 儿童语音识别模型的训练方法及系统 | |
CN112599117B (zh) | 模型训练、语音识别方法及装置、电子设备及存储介质 | |
US20230395075A1 (en) | Human-machine dialogue system and method | |
CN111145732B (zh) | 多任务语音识别后的处理方法及系统 | |
US11636272B2 (en) | Hybrid natural language understanding | |
CN111832308A (zh) | 语音识别文本连贯性处理方法和装置 | |
CN113392640B (zh) | 一种标题确定方法、装置、设备及存储介质 | |
CN113505198A (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN110942774A (zh) | 一种人机交互系统、其对话方法、介质和设备 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
US20210158823A1 (en) | Method, apparatus, and medium for processing speech signal | |
CN111128122B (zh) | 韵律预测模型的优化方法及系统 | |
CN106708950B (zh) | 用于智能机器人自学习系统的数据处理方法及装置 | |
CN114358019A (zh) | 意图预测模型的训练方法及系统 | |
CN111462734B (zh) | 语义槽填充模型训练方法及系统 | |
CN111046674B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN111160512B (zh) | 基于生成式对抗网络构建双判别器对话生成模型的方法 | |
CN116384405A (zh) | 文本处理方法,文本分类方法及情感识别方法 | |
CN112765356B (zh) | 多意图识别模型的训练方法及系统 | |
CN115221306A (zh) | 自动应答评价方法及装置 | |
CN114896988A (zh) | 统一的对话理解方法及框架 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |