CN114661909A - 意图识别模型训练方法、装置、电子设备及存储介质 - Google Patents
意图识别模型训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114661909A CN114661909A CN202210307380.8A CN202210307380A CN114661909A CN 114661909 A CN114661909 A CN 114661909A CN 202210307380 A CN202210307380 A CN 202210307380A CN 114661909 A CN114661909 A CN 114661909A
- Authority
- CN
- China
- Prior art keywords
- text
- intention
- category
- texts
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请提供一种意图识别模型训练方法、装置、电子设备及存储介质,该方法包括:获取原始数据集;对原始数据集进行数据增强模拟,获得模拟数据集,模拟数据集包括:多个类别的已知意图文本和一个类别的未知意图文本,其中,已知意图文本与原始文本不存在逻辑冲突,未知意图文本与原始文本存在逻辑冲突;从原始数据集和模拟数据集中筛选出多个正样本文本和多个负样本文本,正样本文本的类别与负样本文本的类别是不同的;使用多个正样本文本和多个负样本文本对文本分类神经网络进行对比学习训练,获得训练后的意图识别模型,意图识别模型用于识别文本的意图类别。
Description
技术领域
本申请涉及自然语言处理的技术领域,具体而言,涉及一种意图识别模型训练方法、装置、电子设备及存储介质。
背景技术
目前,通常使用基于神经网络结构的文本分类模型识别出文本内容的意图类别,从而获得文本内容在语义上表达的意图结果。然而,在具体实践过程中发现,这些文本分类模型针对已经训练过的意图类别文本有较好的正确率,很难识别出没有训练过的未知意图类别文本。
发明内容
本申请实施例的目的在于提供一种意图识别模型训练方法、装置、电子设备及存储介质,用于改善很难识别出没有训练过的未知意图类别文本的问题。
第一方面,本申请实施例提供了一种意图识别模型训练方法,包括:获取原始数据集,原始数据集包括:多个类别的原始文本,多个类别中的每个类别下均有多个原始文本;对原始数据集进行数据增强模拟,获得模拟数据集,模拟数据集包括:多个类别的已知意图文本和一个类别的未知意图文本,其中,已知意图的类别与原始文本的类别是对应的,已知意图文本与原始文本不存在逻辑冲突,未知意图文本与原始文本存在逻辑冲突;从原始数据集和模拟数据集中筛选出多个正样本文本和多个负样本文本,正样本文本的类别与负样本文本的类别是不同的;使用多个正样本文本和多个负样本文本对文本分类神经网络进行对比学习训练,获得训练后的意图识别模型,意图识别模型用于识别文本的意图类别。在上述方案的实现过程中,通过使用包含未知意图文本的模拟数据集来训练意图识别模型,且使用原始数据集和模拟数据集中筛选出正样本文本和负样本文本来训练意图识别模型,避免了传统模型将未知意图类别文本始终分类给已知意图类别的情况,使得训练出来的意图识别模型有效地识别出未知意图的文本类别,从而提高了训练出来的意图识别模型识别出未知意图文本的正确率。
在第一方面的一种可选实现方式中,对原始数据集进行数据增强模拟,包括:对原始文本进行数据增强,获得模拟出的变化文本;判断原始文本与原始文本对应的变化文本是否存在逻辑冲突;若是,则将该变化文本确定为未知意图文本,否则,将该变化文本确定为已知意图文本,并将原始文本的类别标注为已知意图的类别。
在上述方案的实现过程中,通过对原始文本进行数据增强,并根据原始文本与变化文本是否存在逻辑冲突来确定未知意图文本,提高了模拟生成未知意图文本的准确率,使得训练出来的意图识别模型有效地识别出未知意图的文本类别,从而提高了训练出来的意图识别模型识别出未知意图文本的正确率。
在第一方面的一种可选实现方式中,使用多个正样本文本和多个负样本文本对文本分类神经网络进行对比学习训练,包括:分别计算正样本文本的表示向量和负样本文本的表示向量;根据正样本文本的表示向量和负样本文本的表示向量确定文本分类神经网络的对比学习目标损失值和分类学习目标损失值;根据对比学习目标损失值和分类学习目标损失值确定文本分类神经网络的总损失值;根据文本分类神经网络的总损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件。
在上述方案的实现过程中,通过对比学习方式来更新意图识别模型的模型参数,使得同类数据样本更加聚焦靠拢,不同类的数据样本相互远离,使得意图识别模型在对比学习之后能够达到更好的效果。
在第一方面的一种可选实现方式中,在分别计算正样本文本的表示向量和负样本文本的表示向量之后,还包括:根据正样本文本的表示向量和负样本文本的表示向量确定在意图识别模型中决策边界的损失值,决策边界是以正样本文本的目标类别在意图识别模型中的决策中心向量为圆中心点,以目标类别在意图识别模型中的决策半径为圆半径的圆形,决策中心向量是意图识别模型计算出目标类别的所有文本表示向量的向量均值;根据决策边界的损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件,模型参数包括:目标类别在意图识别模型中的决策半径。
在上述方案的实现过程中,通过对比学习训练的方式来更新意图识别模型的模型参数,使得同类数据样本更加聚焦靠拢,不同类的数据样本相互远离,使得决策半径在学习后能够达到更好的效果。
在第一方面的一种可选实现方式中,在获得训练后的意图识别模型之后,还包括:获取待处理文本;使用训练后的意图识别模型识别出待处理文本的意图类别。
在第一方面的一种可选实现方式中,使用训练后的意图识别模型识别出待处理文本的意图类别,包括:使用训练后的意图识别模型计算待处理文本的文本表示向量,并计算待处理文本的文本表示向量与意图识别模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离;判断多个向量距离中的最小向量距离对应类别是否是未知意图类别;若是,则将待处理文本的意图类别确定为未知意图类别。
在第一方面的一种可选实现方式中,在判断多个向量距离中的最小向量距离对应类别是否是未知意图类别之后,还包括:若多个向量距离中的最小向量距离对应类别不是未知意图类别,且多个向量距离中的最小向量距离大于该最小向量距离对应类别的决策半径,则将待处理文本的意图类别确定为未知意图类别;若多个向量距离中的最小向量距离对应类别不是未知意图类别,且多个向量距离中的最小向量距离小于该最小向量距离对应类别的决策半径,则将待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
在上述方案的实现过程中,通过结合模拟出未知意图的负样本数据和K聚拢对比学习训练的方式训练模型,避免了传统模型将未知意图类别文本始终分类给已知意图类别的情况,使得训练出来的意图识别模型有效地识别出未知意图的文本类别,从而提高了训练出来的意图识别模型识别出未知意图文本的正确率。
第二方面,本申请实施例提供了一种意图识别模型训练装置,包括:原始数据获取模块,用于获取原始数据集,原始数据集包括:多个类别的原始文本,多个类别中的每个类别下均有多个原始文本;数据增强模拟模块,用于对原始数据集进行数据增强模拟,获得模拟数据集,模拟数据集包括:多个类别的已知意图文本和一个类别的未知意图文本,其中,已知意图的类别与原始文本的类别是对应的,已知意图文本与原始文本不存在逻辑冲突,未知意图文本与原始文本存在逻辑冲突;样本文本筛选模块,用于从原始数据集和模拟数据集中筛选出多个正样本文本和多个负样本文本,正样本文本的类别与负样本文本的类别是不同的;对比学习训练模块,用于使用多个正样本文本和多个负样本文本对文本分类神经网络进行对比学习训练,获得训练后的意图识别模型,意图识别模型用于识别文本的意图类别。
在第二方面的一种可选实现方式中,数据增强模拟模块,包括:文本数据增强子模块,用于对原始文本进行数据增强,获得模拟出的变化文本;逻辑冲突判断子模块,用于判断原始文本与原始文本对应的变化文本是否存在逻辑冲突;变化文本标注子模块,用于若原始文本与原始文本对应的变化文本存在逻辑冲突,则将该变化文本确定为未知意图文本,否则,将该变化文本确定为已知意图文本,并将原始文本的类别标注为已知意图的类别。
在第二方面的一种可选实现方式中,对比学习训练模块,包括:表示向量计算子模块,用于分别计算正样本文本的第二表示向量和负样本文本的表示向量;目标损失确定子模块,用于根据正样本文本的表示向量和负样本文本的表示向量确定文本分类神经网络的对比学习目标损失值和分类学习目标损失值;总损失值确定子模块,用于根据对比学习目标损失值和分类学习目标损失值确定文本分类神经网络的总损失值;第一参数更新子模块,用于根据文本分类神经网络的总损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件。
在第二方面的一种可选实现方式中,对比学习训练模块,还包括:边界损失确定子模块,用于根据正样本文本的表示向量和负样本文本的表示向量确定在意图识别模型中决策边界的损失值,决策边界是以正样本文本的目标类别在意图识别模型中的决策中心向量为圆中心点,以目标类别在意图识别模型中的决策半径为圆半径的圆形,决策中心向量是意图识别模型计算出目标类别的所有文本表示向量的向量均值;第二参数更新子模块,用于根据决策边界的损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件,模型参数包括:目标类别在意图识别模型中的决策半径。
在第二方面的一种可选实现方式中,意图识别模型训练装置,还包括:处理文本获取模块,用于获取待处理文本;意图类别识别模块,用于使用训练后的意图识别模型识别出待处理文本的意图类别。
在第二方面的一种可选实现方式中,意图类别识别模块,包括:向量距离获得子模块,用于使用训练后的意图识别模型计算待处理文本的文本表示向量,并计算待处理文本的文本表示向量与意图识别模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离;意图类别判断子模块,用于判断多个向量距离中的最小向量距离对应类别是否是未知意图类别;第一意图确定子模块,用于若多个向量距离中的最小向量距离对应类别是未知意图类别,则将待处理文本的意图类别确定为未知意图类别。
在第二方面的一种可选实现方式中,意图类别识别模块,还包括:第二意图确定子模块,用于若多个向量距离中的最小向量距离对应类别不是未知意图类别,且多个向量距离中的最小向量距离大于该最小向量距离对应类别的决策半径,则将待处理文本的意图类别确定为未知意图类别;第三意图确定子模块,用于若多个向量距离中的最小向量距离对应类别不是未知意图类别,且多个向量距离中的最小向量距离小于该最小向量距离对应类别的决策半径,则将待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
第三方面,本申请实施例提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请实施例中的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的意图识别模型训练方法的流程示意图;
图2示出的本申请实施例提供的识别文本意图类别的流程示意图;
图3示出的本申请实施例提供的意图识别模型训练装置的结构示意图;
图4示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例中的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围,而是仅仅表示本申请实施例中的选定实施例。基于本申请实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
在介绍本申请实施例提供的意图识别模型训练方法之前,先介绍本申请实施例中所涉及的一些概念:
对比学习(Contrastive Learning),是自监督学习中一个非常重要的模型训练方式,其主要思想是,通过度量函数来衡量待处理样本与其相似的正样本的损失值,以及待处理样本与其不相似的正样本的损失值。具体例如:针对任意数据x,对比学习的目标是学习一个编码器f,该编码器可以使得score(f(x),f(x+))>>score(f(x),f(x-));其中,x+是和x相似的正样本,x-是和x不相似的负样本,score是一个用于衡量样本间的相似度,相似度可以采用的指标有很多种,例如:向量内积、余弦距离、欧氏距离(Euclidean Distance)、汉明距离(Hamming Distance)或信息熵(Information Entropy)等等。
需要说明的是,本申请实施例提供的意图识别模型训练方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
下面介绍该意图识别模型训练方法适用的应用场景,这里的应用场景包括但不限于:文本分类、舆情监测、新闻分类或者情感分类等等。以意图识别领域为例,使用该意图识别模型训练方法训练神经网络模型,由于该模型是采用K聚拢对比学习方式通过模拟出来的未知意图数据和加入负样本的数据训练出来的,能够有效避免传统模型将未知意图类别文本始终分类给已知意图类别的情况,从而提高了训练出来的意图识别模型识别出未知意图文本的正确率。
请参见图1示出的本申请实施例提供的意图识别模型训练方法的流程示意图;该意图识别模型训练方法具体可以包括:
步骤S110:获取原始数据集,原始数据集包括:多个类别的原始文本,多个类别中的每个类别下均有多个原始文本。
原始数据集,是指未经数据增强或者变化模拟的数据集,具体可以是人工收集的文本数据和人工标注的意图类别标签等等,当然也可以是直接获取其他人收集或者标注的文本数据集。
步骤S120:对原始数据集进行数据增强模拟,获得模拟数据集,模拟数据集包括:多个类别的已知意图文本和一个类别的未知意图文本,其中,已知意图的类别与原始文本的类别是对应的,已知意图文本与原始文本不存在逻辑冲突,未知意图文本与原始文本存在逻辑冲突。
步骤S130:从原始数据集和模拟数据集中筛选出多个正样本文本和多个负样本文本,正样本文本的类别与负样本文本的类别是不同的。
步骤S140:使用多个正样本文本和多个负样本文本对文本分类神经网络进行对比学习训练,获得训练后的意图识别模型,意图识别模型用于识别文本的意图类别。
在上述方案的实现过程中,通过使用包含未知意图文本的模拟数据集来训练意图识别模型,且使用原始数据集和模拟数据集中筛选出正样本文本和负样本文本来训练意图识别模型,避免了传统模型将未知意图类别文本始终分类给已知意图类别的情况,使得训练出来的意图识别模型有效地识别出未知意图的文本类别,从而提高了训练出来的意图识别模型识别出未知意图文本的正确率。
作为上述步骤S120的一种可选实施方式,数据增强模拟的过程可以包括:
步骤S121:对原始文本进行数据增强,获得模拟出的变化文本。
上述步骤S121的实施方式包括:使用掩码(MASK)或者随机选择出的至少一个词语对原始文本中的至少一个词语进行随机替换;和/或,对原始文本中的至少一个词语进行随机删除;和/或,从词语库中随机选择至少一个词语,并将至少一个词语添加在原始文本中;和/或,在原始文本中的多个词语中随机选择至少一个词语,并将至少一个词语移动至原始文本的起始位置。
步骤S122:判断原始文本与原始文本对应的变化文本是否存在逻辑冲突。
步骤S123:若原始文本与原始文本对应的变化文本存在逻辑冲突,则将该变化文本确定为未知意图文本。
步骤S124:若原始文本与原始文本对应的变化文本不存在逻辑冲突,将该变化文本确定为已知意图文本,并将原始文本的类别标注为已知意图的类别。
上述步骤S122至步骤S124的实施方式例如:可以事先训练一个能够判断两个文本是否存在逻辑冲突的神经网络模型,这个神经网络模型具体是确定两个文本的关系,此处的关系包括:逻辑冲突(Contradiction)、中立(Neutral)关系和蕴含(Entailment)关系;因此,该神经网络模型又被称为蕴含模型。假如将原始文本作为前提P,且将变化文本作为假设H,如果H是可以从P中推理出来,则称P与H之间存在蕴含关系;如果H与P之间存在逻辑矛盾,则P与H之间存在逻辑冲突;如果H与P之间既不存在逻辑矛盾也不存在蕴含关系,则P与H之间是存在中立关系的。当然也可以通过其它服务器上提供的服务来判断,或者,使用人工的方式来判断两个文本是否存在逻辑冲突。
上述的蕴含模型的训练过程和意图识别过程例如:获取前提文本、推理文本和样本标签,样本标签是前提文本与推理文本之间的蕴含关系,蕴含关系包括逻辑冲突类别;使用前提文本、推理文本和样本标签训练蕴含神经网络,获得训练后的蕴含模型。然后,使用训练后的蕴含模型判断原始文本与原始文本对应的变化文本是否存在逻辑冲突。若原始文本与原始文本对应的变化文本存在逻辑冲突,则将该变化文本确定为未知意图文本。若原始文本与原始文本对应的变化文本不存在逻辑冲突,将该变化文本确定为已知意图文本,并将原始文本的类别标注为已知意图的类别。
可以理解的是,上述步骤S120中的数据增强模拟的实施方式有很多种,包括但不限于:分别对已知意图文本或者未知意图文本进行随机插入词语、删除词语、改变替换词语或者改变词语之间的顺序等等,从而获得更多的已知意图文本或者未知意图文本。
作为步骤S130的一种可选实施方式,具体可以使用多种筛选方式,从原始数据集和/或模拟数据集中筛选出多个正样本文本和多个负样本文本,正样本文本和负样本文本的类别是不相同的,具体例如:将原始数据集中随机筛选出的多个第一原始文本确定为正样本文本,并且,将模拟数据集中筛选出的未知意图文本和/或不同于第一原始文本类别的已知意图文本确定为负样本文本;和/或,将模拟数据集中筛选出的未知意图文本确定为正样本文本,并且,将原始数据集中随机筛选出的原始文本或模拟数据集中筛选出的已知意图文本确定为负样本文本;和/或,将原始数据集和模拟数据集中随机筛选多个第一类别的文本确定为正样本文本,并且,将原始数据集和模拟数据集中随机筛选一个第二类别的文本确定为负样本文本。
作为步骤S140的一种可选实施方式,还可以使用K聚拢对比学习的方式计算出目标损失值,并根据目标损失值训练意图识别模型。K聚拢对比学习的主要思想是,在对比学习的基础上,让多个同类的样本训练时相互靠拢,让不同类的样本相互远离,此处的K聚拢对比学习的方式训练意图识别模型过程可以包括:
步骤S141:分别计算正样本文本的表示向量和负样本文本的表示向量。
上述表示向量的计算方式有很多种,例如:使用预训练语言模型计算表示向量,或者,对正样本文本和负样本文本依次分词和向量化,获得嵌入向量矩阵,嵌入向量矩阵包括句子成分向量、令牌嵌入向量和/或位置嵌入向量,对句子成分向量、令牌嵌入向量、位置嵌入向量和/或逆序位置嵌入向量进行融合处理,获得上述正样本文本的表示向量和负样本文本的表示向量。
步骤S142:根据正样本文本的表示向量和负样本文本的表示向量确定文本分类神经网络的对比学习目标损失值和分类学习目标损失值。
上述步骤S142中对比学习目标损失值的第一种计算方式例如:使用公式对正样本文本的表示向量和负样本文本的表示向量进行计算,获得文本分类神经网络的对比学习目标损失值;其中,Lk表示K聚拢的对比学习目标损失值,N为样本总个数,此处的样本总个数包括:正样本(即与当前选择样本同类别的样本)文本和负样本(即与当前选择样本不同类别的样本)文本,k为随机选择的该类正样本文本的个数,vi为当前选择样本(即第i个样本)的表示向量,为随机选择的正样本文本的表示向量,为随机选择的负样本的表示向量,τ为预设的训练超参数,Ii≠j表示样本向量不与自身进行计算。
上述步骤S142中对比学习目标损失值的第二种计算方式例如:使用公式对正样本文本的表示向量和负样本文本的表示向量进行计算,获得文本分类神经网络的对比学习目标损失值;其中,Lk表示K聚拢的对比学习目标损失值,vi表示随机选择的第i个正样本文本(即来自同一个类别的)的表示向量,vj表示随机选择的第j个正样本文本(即来自同一个类别的)的表示向量,vi,vj∈V+,i≠j表示第i个和第j个正样本文本的表示向量均是正样本文本集合中同一个类别的表示向量,v-表示其中一个负样本文本的表示向量,τ为预设的训练超参数。
上述步骤S142中的分类学习目标损失值的计算方式例如:使用公式对正样本文本的表示向量和负样本文本的表示向量进行计算,获得文本分类神经网络的分类学习目标损失值;其中,LCE表示将交叉熵损失函数计算出的值(即作为分类学习目标损失值),N表示样本总数量,此处的样本包括:正样本文本和负样本文本,y表示该样本的文本意图类别的真实标签,p(x)表示文本分类神经网络对正样本文本的表示向量或者负样本文本的表示向量进行预测,获得预测出来的文本意图类别。
步骤S143:根据对比学习目标损失值和分类学习目标损失值确定文本分类神经网络的总损失值。
上述步骤S143的实施方式例如:使用公式Loss=λ·Lk+(1-λ)·LCE对分类学习目标损失值和对比学习目标损失值进行计算,获得文本分类神经网络的总损失值;其中,Loss表示总损失值,λ表示分类学习目标损失值和对比学习目标损失值之间的平滑值,该平滑值是根据训练情况需要调节的超参数,Lk表示K聚拢的对比学习目标损失值,LCE表示将交叉熵损失函数计算出的值作为分类学习目标损失值。
步骤S144:根据文本分类神经网络的总损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件,获得训练后的意图识别模型。
上述步骤S144的实施方式例如:根据文本分类神经网络的总损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件,此处的终止条件可以是,直到文本分类神经网络的正确率不再升高或者迭代次数(epoch)数量大于预设阈值时,即可获得训练后的意图识别模型。其中,上述的预设阈值也可以根据具体情况进行设置,例如设置为100或者1000等。
作为步骤S140的另一种可选实施方式,在计算表示向量之后,还可以对意图识别模型中的决策半径进行学习,由于在学习决策半径的过程中也使用了K聚拢对比学习的方式,使得同类数据样本更加聚焦靠拢,不同类的数据样本相互远离,使得决策半径在学习后能够达到更好的效果。此处的对决策半径进行学习的过程可以包括:
步骤S145:根据正样本文本的表示向量和负样本文本的表示向量确定在意图识别模型中决策边界的损失值,决策边界是以正样本文本的目标类别在意图识别模型中的决策中心向量为圆中心点,以目标类别在意图识别模型中的决策半径为圆半径的圆形。
决策中心向量是意图识别模型计算出目标类别的所有表示向量的向量均值,即可以理解为所有样本点的中心点,使用公式表示为其中,ck表示第k个类别的决策中心向量,即第k个类别的所有表示向量的向量均值,yi表示第k个类别中的第i个样本的文本意图类别的真实标签,zi表示第k个类别中的第i个样本的表示向量,Sk表示第k个类别中的所有文本的样本数量。
步骤S146:根据决策边界的损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件,模型参数包括:目标类别在意图识别模型中的决策半径。
上述步骤S145至步骤S146的实施方式具体可以包括如下:
首先,分别计算出正样本文本的表示向量与决策中心向量之间的第一向量距离,以及负样本文本的表示向量与目标类别在意图分类模型中的决策中心向量之间的第二向量距离。
然后,根据第一向量距离和第二向量距离计算出决策边界的损失值,具体可以使用如下公式计算决策边界的损失值。
Lt=Lp+Ln;
其中,Lt表示总损失函数计算出的决策边界的损失值,Lp表示正样本文本的损失函数,Ln表示负样本文本的损失函数,N表示训练数据中所有样本文本的数量;zi表示第i个正样本文本(即来自同一个类别的)表示向量,表示第i个负样本文本(即来自不同类别的)表示向量,yi表示第i个正样本文本对应的类别标签,表示该目标类别对应的决策中心向量, 表示正样本文本的表示向量与其对应目标类别对应的决策中心向量之间的欧式距离(即第一向量距离),表示负样本文本的表示向量与其对应目标类别对应的决策中心向量之间的欧式距离(即第二向量距离),表示第i个样本文本对应的目标类别在意图分类模型中的决策半径。η为负样本的损失函数所占比例(例如0.005到1),αi为负样本是否在扩张区的权重,βi为负样本是否在收缩区的权重,δi表示该目标类别是否在决策边界内部,上述的αi、βi和δi这三者的定义可以使用公式表示为:
其中,zi表示第i个正样本文本(即来自同一个类别的)的表示向量,表示第i个负样本文本(即来自不同类别的)的表示向量,yi表示第i个样本文本对应的目标类别(即类别标签),表示该目标类别对应的决策中心向量,代表给定的扩展边界的超参数,代表给定的收缩边界超参数,上述的和两者均可以根据具体情况设置。
最后,使用上面公式计算出来的决策边界的损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件。其中,模型参数包括:目标类别在意图识别模型中的决策半径,训练终止条件包括:神经网络的正确率不再升高或者迭代次数(epoch)数量大于预设阈值,该预设阈值也可以根据具体情况进行设置,例如设置为100或者1000等等。
请参见图2示出的本申请实施例提供的识别文本意图类别的流程示意图;作为意图识别模型训练方法的一种可选实施方式,在获得训练后的意图识别模型之后,还可以使用意图识别模型来识别文本意图类别,识别文本意图类别的过程可以包括:
步骤S210:获取待处理文本。
步骤S220:使用训练后的意图识别模型识别出待处理文本的意图类别。
作为步骤S220的一种可选实施方式,还可以根据待处理文本对应的最小向量距离确定文本意图,确定文本意图的过程可以包括:
步骤S221:使用训练后的意图识别模型计算待处理文本的文本表示向量,并计算待处理文本的文本表示向量与意图识别模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离。
步骤S222:判断多个向量距离中的最小向量距离对应类别是否是未知意图类别。
步骤S223:若多个向量距离中的最小向量距离对应类别是未知意图类别,则将待处理文本的意图类别确定为未知意图类别。
作为步骤S220的一种可选实施方式,在步骤S222之后,还可以根据决策半径确定文本意图,确定文本意图的过程可以包括:
步骤S224:若多个向量距离中的最小向量距离对应类别不是未知意图类别,且多个向量距离中的最小向量距离大于该最小向量距离对应类别的决策半径,则将待处理文本的意图类别确定为未知意图类别。
步骤S225:若多个向量距离中的最小向量距离对应类别不是未知意图类别,且多个向量距离中的最小向量距离小于该最小向量距离对应类别的决策半径,则将待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
上述步骤S222至步骤S225的可以使用公式表示为:
其中,表示为待处理文本的意图类别确定的最终意图类别,l0表示未知意图类别,lx表示多个向量距离中的最小向量距离对应的已知意图文本类别,1≤x≤m表示最小向量距离对应类别是从多个向量距离对应的已知意图类别中筛选出来的,lm+1表示模拟数据集中的未知意图文本类别,r代表该样本的表示向量,cj表示该样本j类别对应的决策中心向量,bj表示该样本j对应类别的决策边界,otherwise代表剩余的其它情况。
请参见图3示出的本申请实施例提供的意图识别模型训练装置的结构示意图;本申请实施例提供了一种意图识别模型训练装置300,包括:
原始数据获取模块310,用于获取原始数据集,原始数据集包括:多个类别的原始文本,多个类别中的每个类别下均有多个原始文本。
数据增强模拟模块320,用于对原始数据集进行数据增强模拟,获得模拟数据集,模拟数据集包括:多个类别的已知意图文本和一个类别的未知意图文本,其中,已知意图的类别与原始文本的类别是对应的,已知意图文本与原始文本不存在逻辑冲突,未知意图文本与原始文本存在逻辑冲突。
样本文本筛选模块330,用于从原始数据集和模拟数据集中筛选出多个正样本文本和多个负样本文本,正样本文本的类别与负样本文本的类别是不同的。
对比学习训练模块340,用于使用多个正样本文本和多个负样本文本、对文本分类神经网络进行对比学习训练,获得训练后的意图识别模型,意图识别模型用于识别文本的意图类别。
可选地,在本申请实施例中,数据增强模拟模块,包括:
文本数据增强子模块,用于对原始文本进行数据增强,获得模拟出的变化文本。
逻辑冲突判断子模块,用于判断原始文本与原始文本对应的变化文本是否存在逻辑冲突。
变化文本标注子模块,用于若原始文本与原始文本对应的变化文本存在逻辑冲突,则将该变化文本确定为未知意图文本,否则,将该变化文本确定为已知意图文本,并将原始文本的类别标注为已知意图的类别。
可选地,在本申请实施例中,对比学习训练模块,包括:
表示向量计算子模块,用于分别计算正样本文本的表示向量和负样本文本的表示向量。
目标损失确定子模块,用于根据正样本文本的表示向量和负样本文本的表示向量确定文本分类神经网络的对比学习目标损失值和分类学习目标损失值。
总损失值确定子模块,用于根据对比学习目标损失值和分类学习目标损失值确定文本分类神经网络的总损失值。
第一参数更新子模块,用于根据文本分类神经网络的总损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件。
可选地,在本申请实施例中,对比学习训练模块,还包括:
边界损失确定子模块,用于根据正样本文本的表示向量和负样本文本的表示向量确定在意图识别模型中决策边界的损失值,决策边界是以正样本文本的目标类别在意图识别模型中的决策中心向量为圆中心点,以目标类别在意图识别模型中的决策半径为圆半径的圆形,决策中心向量是意图识别模型计算出目标类别的所有文本表示向量的向量均值。
第二参数更新子模块,用于根据决策边界的损失值更新意图识别模型的模型参数,直到意图识别模型满足训练终止条件,模型参数包括:目标类别在意图识别模型中的决策半径。
可选地,在本申请实施例中,意图识别模型训练装置,还包括:
处理文本获取模块,用于获取待处理文本。
意图类别识别模块,用于使用训练后的意图识别模型识别出待处理文本的意图类别。
可选地,在本申请实施例中,意图类别识别模块,包括:
向量距离获得子模块,用于使用训练后的意图识别模型计算待处理文本的文本表示向量,并计算待处理文本的文本表示向量与意图识别模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离。
意图类别判断子模块,用于判断多个向量距离中的最小向量距离对应类别是否是未知意图类别。
第一意图确定子模块,用于若多个向量距离中的最小向量距离对应类别是未知意图类别,则将待处理文本的意图类别确定为未知意图类别。
可选地,在本申请实施例中,意图类别识别模块,还包括:
第二意图确定子模块,用于若多个向量距离中的最小向量距离对应类别不是未知意图类别,且多个向量距离中的最小向量距离大于该最小向量距离对应类别的决策半径,则将待处理文本的意图类别确定为未知意图类别。
第三意图确定子模块,用于若多个向量距离中的最小向量距离对应类别不是未知意图类别,且多个向量距离中的最小向量距离小于该最小向量距离对应类别的决策半径,则将待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
应理解的是,该装置与上述的意图识别模型训练方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种计算机可读存储介质430,该计算机可读存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,计算机可读存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
可以理解的是,本申请实施例中的“第一”、“第二”用于区别类似的对象。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种意图识别模型训练方法,其特征在于,包括:
获取原始数据集,所述原始数据集包括:多个类别的原始文本,所述多个类别中的每个类别下均有多个原始文本;
对所述原始数据集进行数据增强模拟,获得模拟数据集,所述模拟数据集包括:多个类别的已知意图文本和一个类别的未知意图文本,其中,所述已知意图的类别与所述原始文本的类别是对应的,所述已知意图文本与所述原始文本不存在逻辑冲突,所述未知意图文本与所述原始文本存在逻辑冲突;
从所述原始数据集和所述模拟数据集中筛选出多个正样本文本和多个负样本文本,所述正样本文本的类别与所述负样本文本的类别是不同的;
使用所述多个正样本文本和所述多个负样本文本对文本分类神经网络进行对比学习训练,获得训练后的意图识别模型,所述意图识别模型用于识别文本的意图类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据集进行数据增强模拟,包括:
对所述原始文本进行数据增强,获得模拟出的变化文本;
判断所述原始文本与所述原始文本对应的变化文本是否存在逻辑冲突;
若是,则将该变化文本确定为所述未知意图文本,否则,将该变化文本确定为所述已知意图文本,并将所述原始文本的类别标注为所述已知意图的类别。
3.根据权利要求1所述的方法,其特征在于,所述使用所述多个正样本文本和所述多个负样本文本对文本分类神经网络进行对比学习训练,包括:
分别计算所述正样本文本的表示向量和所述负样本文本的表示向量;
根据所述正样本文本的表示向量和所述负样本文本的表示向量确定所述文本分类神经网络的对比学习目标损失值和分类学习目标损失值;
根据所述对比学习目标损失值和所述分类学习目标损失值确定所述文本分类神经网络的总损失值;
根据所述文本分类神经网络的总损失值更新所述意图识别模型的模型参数,直到所述意图识别模型满足训练终止条件。
4.根据权利要求3所述的方法,其特征在于,在所述分别计算所述正样本文本的表示向量和所述负样本文本的表示向量之后,还包括:
根据所述正样本文本的表示向量和所述负样本文本的表示向量确定在所述意图识别模型中决策边界的损失值,所述决策边界是以正样本文本的目标类别在所述意图识别模型中的决策中心向量为圆中心点,以所述目标类别在所述意图识别模型中的决策半径为圆半径的圆形,所述决策中心向量是所述意图识别模型计算出所述目标类别的所有文本表示向量的向量均值;
根据所述决策边界的损失值更新所述意图识别模型的模型参数,直到所述意图识别模型满足训练终止条件,所述模型参数包括:所述目标类别在所述意图识别模型中的决策半径。
5.根据权利要求1-4任一所述的方法,其特征在于,在所述获得训练后的意图识别模型之后,还包括:
获取待处理文本;
使用所述训练后的意图识别模型识别出所述待处理文本的意图类别。
6.根据权利要求5所述的方法,其特征在于,所述使用所述训练后的意图识别模型识别出所述待处理文本的意图类别,包括:
使用所述训练后的意图识别模型计算所述待处理文本的文本表示向量,并计算所述待处理文本的文本表示向量与所述意图识别模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离;
判断所述多个向量距离中的最小向量距离对应类别是否是未知意图类别;
若是,则将所述待处理文本的意图类别确定为未知意图类别。
7.根据权利要求6所述的方法,其特征在于,在所述判断所述多个向量距离中的最小向量距离对应类别是否是未知意图类别之后,还包括:
若所述多个向量距离中的最小向量距离对应类别不是未知意图类别,且所述多个向量距离中的最小向量距离大于该最小向量距离对应类别的决策半径,则将所述待处理文本的意图类别确定为未知意图类别;
若所述多个向量距离中的最小向量距离对应类别不是未知意图类别,且所述多个向量距离中的最小向量距离小于该最小向量距离对应类别的决策半径,则将所述待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
8.一种意图识别模型训练装置,其特征在于,包括:
原始数据获取模块,用于获取原始数据集,所述原始数据集包括:多个类别的原始文本,所述多个类别中的每个类别下均有多个原始文本;
数据增强模拟模块,用于对所述原始数据集进行数据增强模拟,获得模拟数据集,所述模拟数据集包括:多个类别的已知意图文本和一个类别的未知意图文本,其中,所述已知意图的类别与所述原始文本的类别是对应的,所述已知意图文本与所述原始文本不存在逻辑冲突,所述未知意图文本与所述原始文本存在逻辑冲突;
样本文本筛选模块,用于从所述原始数据集和所述模拟数据集中筛选出多个正样本文本和多个负样本文本,所述正样本文本的类别与所述负样本文本的类别是不同的;
对比学习训练模块,用于使用所述多个正样本文本和所述多个负样本文本对文本分类神经网络进行对比学习训练,获得训练后的意图识别模型,所述意图识别模型用于识别文本的意图类别。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210307380.8A CN114661909A (zh) | 2022-03-25 | 2022-03-25 | 意图识别模型训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210307380.8A CN114661909A (zh) | 2022-03-25 | 2022-03-25 | 意图识别模型训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661909A true CN114661909A (zh) | 2022-06-24 |
Family
ID=82033620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210307380.8A Pending CN114661909A (zh) | 2022-03-25 | 2022-03-25 | 意图识别模型训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661909A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024067377A1 (zh) * | 2022-09-26 | 2024-04-04 | 马上消费金融股份有限公司 | 样本生成方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-25 CN CN202210307380.8A patent/CN114661909A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024067377A1 (zh) * | 2022-09-26 | 2024-04-04 | 马上消费金融股份有限公司 | 样本生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10262272B2 (en) | Active machine learning | |
CN109933686B (zh) | 歌曲标签预测方法、装置、服务器及存储介质 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN111950540A (zh) | 一种基于深度学习的知识点提取方法、系统、装置及介质 | |
CN110929524A (zh) | 数据筛选方法、装置、设备及计算机可读存储介质 | |
CN111930939A (zh) | 一种文本检测的方法及装置 | |
CN111680753A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN111160000B (zh) | 作文自动评分方法、装置终端设备及存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112906392A (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
EP3929800A1 (en) | Skill word evaluation method and device, electronic device, and computer readable medium | |
CN114529903A (zh) | 文本细化网络 | |
CN113627151A (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN114662601A (zh) | 基于正负样本的意图分类模型训练方法及装置 | |
CN114661909A (zh) | 意图识别模型训练方法、装置、电子设备及存储介质 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN114817633A (zh) | 视频分类方法、装置、设备及存储介质 | |
CN113963682A (zh) | 一种语音识别纠正方法、装置、电子设备及存储介质 | |
CN115759027B (zh) | 文本数据处理系统及方法 | |
CN116432660A (zh) | 一种情感分析模型的预训练方法、装置和电子设备 | |
CN116702765A (zh) | 一种事件抽取方法、装置及电子设备 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN116186266A (zh) | Bert、ner实体抽取以及知识图谱的物料分类优化方法及系统 | |
CN115994204A (zh) | 适用于少样本场景的国防科技文本结构化语义分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |