CN114662601A - 基于正负样本的意图分类模型训练方法及装置 - Google Patents
基于正负样本的意图分类模型训练方法及装置 Download PDFInfo
- Publication number
- CN114662601A CN114662601A CN202210306598.1A CN202210306598A CN114662601A CN 114662601 A CN114662601 A CN 114662601A CN 202210306598 A CN202210306598 A CN 202210306598A CN 114662601 A CN114662601 A CN 114662601A
- Authority
- CN
- China
- Prior art keywords
- text
- classification model
- vector
- intention
- intention classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种基于正负样本的意图分类模型训练方法及装置,该方法包括:获取训练数据,训练数据包括:目标类别、正样本文本和负样本文本,正样本文本是属于目标类别的文本,负样本文本是不属于目标类别的文本;获取未经训练的意图分类模型,并使用目标类别、正样本文本和负样本文本对意图分类模型进行训练,获得训练后的意图分类模型。通过使用属于目标类别的正样本文本和不属于目标类别的负样本文本对意图分类模型进行训练,有效地避免了只根据正样本文本训练意图分类模型,导致难以区分这部分文本表示向量的对应类别应该是属于目标类别或者其他类别的情况,从而提高了意图分类模型对文本内容进行意图识别的准确率。
Description
技术领域
本申请涉及人工智能和自然语言处理的技术领域,具体而言,涉及一种基于正负样本的意图分类模型训练方法及装置。
背景技术
意图分类(Intent Classification),是指在自然语言处理(Natural LanguageProcessing,NLP)的技术领域中,对文本内容意图进行分类,获得文本内容在语义上表达的意图类别。意图分类模型是指用于意图分类的人工神经网络(Artificial NeuralNetwork,ANN)模型。
目前,在意图分类模型的训练过程中,根据正样本文本和其类别标签对意图分类模型进行训练,从而获得训练后的意图分类模型。然而,在具体的模型推断实践过程中发现,目前的意图分类模型对文本内容进行意图识别的准确率较低。
发明内容
本申请实施例的目的在于提供基于正负样本的一种基于正负样本的意图分类模型训练方法及装置,用于改善对文本内容进行意图识别的准确率较低的问题。
本申请实施例提供了一种基于正负样本的意图分类模型训练方法,包括:获取训练数据,训练数据包括:目标类别、正样本文本和负样本文本,正样本文本是属于目标类别的文本,负样本文本是不属于目标类别的文本;获取未经训练的意图分类模型,并使用目标类别、正样本文本和负样本文本对意图分类模型进行训练,获得训练后的意图分类模型。在上述的实现过程中,通过使用属于目标类别的正样本文本和不属于目标类别的负样本文本对意图分类模型进行训练,使得在意图分类模型的训练过程中计算决策半径时,意图分类模型既能够根据正样本文本的分布调整模型的决策边界,同时能参考负样本文本的分布对该决策边界进行扩张或收缩,有效地避免了只根据正样本文本训练意图分类模型,导致难以区分这部分文本表示向量的对应类别应该是属于目标类别或者其他类别的情况,从而提高了意图分类模型对文本内容进行意图识别的准确率。
可选地,在本申请实施例中,使用目标类别、正样本文本和负样本文本对意图分类模型进行训练,包括:分别计算正样本文本的第一文本表示向量和负样本文本的第二文本表示向量;根据第一文本表示向量和第二文本表示向量确定目标类别在意图分类模型中决策边界的损失值,决策边界是以目标类别在意图分类模型中的决策中心为圆中心点,以目标类别在意图分类模型中的决策半径为圆半径的圆形;根据决策边界的损失值对意图分类模型进行训练。在上述的实现过程中,通过根据第一文本表示向量和第二文本表示向量确定目标类别在意图分类模型中决策边界的损失值,并根据决策边界的损失值对意图分类模型进行训练,避免了只根据正样本文本训练意图分类模型,导致难以区分这部分文本表示向量的对应类别应该是属于目标类别或者其他类别的情况,从而提高了意图分类模型对文本内容进行意图识别的准确率。
可选地,在本申请实施例中,根据第一文本表示向量和第二文本表示向量确定目标类别在意图分类模型中决策边界的损失值,包括:分别计算出第一文本表示向量与目标类别在意图分类模型中的决策中心向量之间的第一向量距离,以及第二文本表示向量与目标类别在意图分类模型中的决策中心向量之间的第二向量距离,决策中心向量是意图分类模型计算出目标类别的所有文本表示向量的向量均值;根据第一向量距离和第二向量距离计算决策边界的损失值。在上述的实现过程中,通过根据第一向量距离和第二向量距离计算决策边界的损失值,从而避免了仅根据第一向量距离计算决策边界的损失值来训练模型,导致难以区分这部分文本表示向量的对应类别应该是属于目标类别或者其他类别的情况,从而提高了意图分类模型对文本内容进行意图识别的准确率。
可选地,在本申请实施例中,根据决策边界的损失值对意图分类模型进行训练,包括:根据决策边界的损失值更新意图分类模型的模型参数,直到意图分类模型满足训练终止条件,模型参数包括:目标类别在意图分类模型中的决策半径。在上述的实现过程中,通过根据决策边界的损失值更新意图分类模型的模型参数,直到意图分类模型满足训练终止条件,从而避免了仅根据第一向量距离计算决策边界的损失值来训练模型,导致难以区分这部分文本表示向量的对应类别应该是属于目标类别或者其他类别的情况,从而提高了意图分类模型对文本内容进行意图识别的准确率。
可选地,在本申请实施例中,在获得训练后的意图分类模型之后,还包括:获取待处理文本;使用训练后的意图分类模型确定待处理文本的意图类别。在上述的实现过程中,通过使用正样本文本和负样本文本训练后的意图分类模型确定待处理文本的意图类别,避免了仅根据第一向量距离计算决策边界的损失值来训练模型,导致难以区分这部分文本表示向量的对应类别应该是属于目标类别或者其他类别的情况,提高了意图分类模型对文本内容进行意图识别的准确率。
可选地,在本申请实施例中,使用训练后的意图分类模型确定待处理文本的意图类别,包括:使用训练后的意图分类模型计算待处理文本的文本表示向量;计算待处理文本的文本表示向量与意图分类模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离;判断多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在意图分类模型中的决策半径;若是,则将待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
可选地,在本申请实施例中,在判断多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在意图分类模型中的决策半径之后,还包括:若多个向量距离中的最小向量距离不小于该最小向量距离对应类别在意图分类模型中的决策半径,则将待处理文本的意图类别确定为未知意图类别。在上述的实现过程中,通过根据多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在意图分类模型中的决策半径,来确定是否是未知意图类别,从而避免了传统分类模型难以识别出未知意图类别的情况,有效地提高了意图分类模型对文本内容进行意图识别的准确率。
本申请实施例还提供了一种基于正负样本的意图分类模型训练装置,包括:训练数据获取模块,用于获取训练数据,训练数据包括:目标类别、正样本文本和负样本文本,正样本文本是属于目标类别的文本,负样本文本是不属于目标类别的文本;分类模型获得模块,用于获取未经训练的意图分类模型,并使用目标类别、正样本文本和负样本文本对意图分类模型进行训练,获得训练后的意图分类模型。
可选地,在本申请实施例中,分类模型获得模块,包括:表示向量计算模块,用于分别计算正样本文本的第一文本表示向量和负样本文本的第二文本表示向量;向量损失确定模块,用于根据第一文本表示向量和第二文本表示向量确定目标类别在意图分类模型中决策边界的损失值,决策边界是以目标类别在意图分类模型中的决策中心为圆中心点,以目标类别在意图分类模型中的决策半径为圆半径的圆形;分类模型训练模块,用于根据决策边界的损失值对意图分类模型进行训练。
可选地,在本申请实施例中,向量损失确定模块,包括:向量距离计算模块,用于分别计算出第一文本表示向量与目标类别在意图分类模型中的决策中心向量之间的第一向量距离,以及第二文本表示向量与目标类别在意图分类模型中的决策中心向量之间的第二向量距离,决策中心向量是意图分类模型计算出目标类别的所有文本表示向量的向量均值;向量损失计算模块,用于根据第一向量距离和第二向量距离计算决策边界的损失值。
可选地,在本申请实施例中,分类模型训练模块,包括:模型参数更新模块,用于根据决策边界的损失值更新意图分类模型的模型参数,直到意图分类模型满足训练终止条件,模型参数包括:目标类别在意图分类模型中的决策半径。
可选地,在本申请实施例中,意图分类模型训练装置,还包括:处理文本获取模块,用于获取待处理文本;意图类别确定模块,用于使用训练后的意图分类模型确定待处理文本的意图类别。
可选地,在本申请实施例中,意图类别确定模块,包括:文本向量计算模块,用于使用训练后的意图分类模型计算待处理文本的文本表示向量;向量距离获得模块,用于计算待处理文本的文本表示向量与意图分类模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离;向量距离判断模块,用于判断多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在意图分类模型中的决策半径;已知意图确定模块,用于若多个向量距离中的最小向量距离小于该最小向量距离对应类别在意图分类模型中的决策半径,则将待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
可选地,在本申请实施例中,意图类别确定模块,包括:未知意图确定模块,用于若多个向量距离中的最小向量距离不小于该最小向量距离对应类别在意图分类模型中的决策半径,则将待处理文本的意图类别确定为未知意图类别。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请实施例中的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的基于正负样本的意图分类模型训练方法的流程示意图;
图2示出的本申请实施例提供的决策边界调整的过程示意图;
图3示出的本申请实施例提供的根据第一文本表示向量进行扩张或收缩的示意图;
图4示出的本申请实施例提供的根据第二文本表示向量进行扩张或收缩的示意图;
图5示出的本申请实施例提供的对文本进行意图分类的流程示意图;
图6示出的本申请实施例提供的基于正负样本的意图分类模型训练装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例中的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围,而是仅仅表示本申请实施例中的选定实施例。基于本申请实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
可以理解的是,本申请实施例中的“第一”、“第二”用于区别类似的对象。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在介绍本申请实施例提供的基于正负样本的意图分类模型训练方法之前,先介绍本申请实施例中所涉及的一些概念:
深度学习(Deep Learning),是机器学习中一种基于对数据进行表征学习的算法,深度学习是机器学习的分支,也是一种以人工神经网络为架构,对数据进行表征学习的算法。深度学习模型是指使用深度学习技术的神经网络模型,深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据,深度学习包括但不限于使用更深层次的神经网络模型提取文字、图像和声音等数据的特征。
自然语言处理(Natural Language Processing,NLP),是指由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,而研究自然语言认知的相关问题,即自然语言认知同时也被视为一个人工智能完备(AI-complete)的相关问题,这里的自然语言处理也是机器学习中的一个重要组成部分。
双向编码表示编码器(Bidirectional Encoder Representations fromTransformers,BERT),又被翻译为基于Transformer的双向编码器表征,或者翻译为来自Transformer的双向编码器表示,又被称为双向自注意力层编解码,通常简称为BERT,BERT是一种语言表现层(Representation)模型。
需要说明的是,本申请实施例提供的基于正负样本的意图分类模型训练方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
下面介绍该意图分类模型训练方法适用的应用场景,这里的应用场景包括但不限于:智能客服、人机对话和自然语言处理(NLP)等应用场景。此处以自然语言处理(NLP)的应用场景为例进行说明,传统地使用深度学习模型对待处理文本进行意图分类的过程中,无论文本内容是否与已知类别是否有关联,深度学习模型总是会给出一个所有已知类别中概率最高的类别,具体例如:假设待处理文本的内容是“ABCDEF123456”,然后深度学习模型会从社会、房产和汽车等等新闻类别中选出一个概率最高的类别(假设是社会),然而很明显地,该待处理文本的内容完全不是新闻内容,也就是说,深度学习模型(即由神经网络构成的分类模型)无法识别出未知类别,只能从多个已知类别中选择一个概率最高的类别作为该文本的意图类别。此时,可以使用该意图分类模型训练方法来提高在意图分类模型的训练过程和验证过程(即使用验证集进行验证过程)的正确率,相比于传统地仅使用正样本文本和其标签进行训练,使用本申请实施例提供的基于正负样本的意图分类模型训练方法获得的意图分类模型能够有效地提高对文本内容进行意图识别的准确率等。
请参见图1示出的本申请实施例提供的基于正负样本的意图分类模型训练方法的流程示意图;该意图分类模型训练方法的主要思路是,通过使用属于目标类别的正样本文本和不属于目标类别的负样本文本对意图分类模型进行训练,使得在意图分类模型的训练过程中计算决策半径时,意图分类模型既能够根据正样本文本的分布调整模型的决策边界,同时能参考负样本文本的分布对该决策边界进行扩张或收缩,有效地避免了只根据正样本文本训练意图分类模型,导致难以区分这部分文本表示向量的对应类别应该是属于目标类别或者其他类别的情况,从而提高了意图分类模型对文本内容进行意图识别的准确率。上述的意图分类模型训练方法的实施方式可以包括:
步骤S110:获取训练数据,训练数据包括:目标类别、正样本文本和负样本文本,正样本文本是属于目标类别的文本,负样本文本是不属于目标类别的文本。
上述步骤S110的实施方式例如:第一种获得方式,接收其它终端设备发送的训练数据,将训练数据存储至文件系统、数据库或移动存储设备中;第二种获得方式,获取预先存储的训练数据,具体例如:从文件系统、数据库或移动存储设备中获取训练数据;第三种获得方式,使用浏览器等软件获取互联网上的训练数据,或者使用其它应用程序访问互联网获得训练数据。
步骤S120:获取未经训练的意图分类模型,并使用目标类别、正样本文本和负样本文本对意图分类模型进行训练,获得训练后的意图分类模型。
意图分类模型(Intention Classification Model),是指对文本所表达的意图进行分类的人工神经网络(Artificial Neural Network,ANN)模型。
请参见图2示出的本申请实施例提供的决策边界调整的过程示意图;本申请实施例中的意图分类模型可以采用BERT模型,在BERT模型对训练数据中的正样本文本或负样本文本进行处理之后,还可以使用词嵌入(BERT Embedding)模型对正样本文本或负样本文本进行向量化处理,从而获得文本表示向量。然后,根据文本表示向量与每个类别对应的决策中心向量(例如图中的C1、C2、……、Ck-1和Ck等)之间的向量距离,并根据该向量距离计算的损失值更新意图分类模型的模型参数,此处的模型参数例如每个类别的决策半径(参见图中的△1、△2、……、△k-1和△k等)。其中,决策中心向量是意图分类模型计算出目标类别的所有文本表示向量的向量均值,且各个类别的决策中心向量与各个类别的决策半径是相互独立的(即相互不影响)。上述意图分类模型中的决策边界就是以每个类别在意图分类模型中的决策中心为圆中心点(参见图中C1和C2点),以目标类别在意图分类模型中的决策半径为圆半径(参见图中△1和△2)的圆形(例如图中的两个圆形)。
上述步骤S120中的使用目标类别、正样本文本和负样本文本对意图分类模型进行训练的实施方式可以包括:
步骤S121:分别计算正样本文本的第一文本表示向量和负样本文本的第二文本表示向量。
上述步骤S121的实施方式有很多种,包括但不限于:将正样本文本进行分词(Tokenization),获得多个词语,分别将多个词语的句子成分、令牌嵌入(TokenEmbeddings)和/或位置嵌入(Position Embeddings)进行向量化处理,获得第一文本表示向量。同理地,将负样本文本进行分词,获得多个词语,分别将多个词语的句子成分、令牌嵌入和/或位置嵌入进行向量化处理,获得第二文本表示向量。其中,第一文本表示向量可以表示为z,那么zi表示第i个正样本文本的第一文本表示向量;第二文本表示向量可以表示为 表示第i个负样本文本的第二文本表示向量。
步骤S122:根据第一文本表示向量和第二文本表示向量确定目标类别在意图分类模型中决策边界的损失值。
上述步骤S122的实施方式具体可以包括:分别计算出第一文本表示向量与目标类别在意图分类模型中的决策中心向量之间的第一向量距离,以及第二文本表示向量与目标类别在意图分类模型中的决策中心向量之间的第二向量距离,决策中心向量是意图分类模型计算出目标类别的所有文本表示向量的向量均值。其中,决策边界是以目标类别在意图分类模型中的决策中心为圆中心点,以目标类别在意图分类模型中的决策半径为圆半径的圆形。
请参见图3示出的本申请实施例提供的根据第一文本表示向量进行扩张或收缩的示意图;首先,根据第一向量距离构建正样本文本的损失函数,此处的正样本文本的损失函数如下:
其中,Lp表示正样本文本(Positive Sample)的损失函数,N表示训练数据中所有样本文本的数量,δi表示该目标类别是否在决策边界内部,其具体的定义例如:zi表示第i个正样本文本的第一文本表示向量,yi表示第i个正样本文本对应的目标类别(即类别标签),表示该目标类别对应的决策中心向量,表示第一文本表示向量与其对应目标类别对应的决策中心向量之间的欧式距离,表示第i个正样本文本对应的目标类别在意图分类模型中的决策半径。上述正样本文本的损失函数的主要思路是,若第一文本表示向量对应点在决策边界的内部(即第一文本表示向量与其目标类别对应的决策中心向量之间的欧式距离小于决策半径),则将决策边界缩小(即减小对应目标类别的决策半径),以靠近第一文本表示向量对应点;相反地,若第一文本表示向量对应点在决策边界的外部(即第一文本表示向量与其目标类别对应的决策中心向量之间的欧式距离大于决策半径),则将决策边界扩大(即增加对应目标类别的决策半径),以靠近第一文本表示向量对应点。
请参见图4示出的本申请实施例提供的根据第二文本表示向量进行扩张或收缩的示意图;然后,根据第二向量距离构建负样本文本的损失函数,此处的负样本文本的损失函数如下:
其中,Ln表示负样本文本(Negative Sample)的损失函数,η为负样本的损失函数所占比例(例如设置为0.005到1之间的数值),N表示训练数据中所有样本文本的数量,αi为负样本是否在扩张区的权重,其定义例如:βi为负样本是否在收缩区的权重,其定义例如:zi表示第i个正样本文本的第一文本表示向量,表示第i个负样本文本对应的第二文本表示向量,yi表示第i个正样本文本对应的目标类别(即类别标签),表示该目标类别对应的决策中心向量,表示第一文本表示向量与其对应目标类别对应的决策中心向量之间的欧式距离,表示第i个负样本文本对应的第二文本表示向量与其对应目标类别对应的决策中心向量之间的欧式距离,表示第i个正样本文本对应的目标类别在意图分类模型中的决策半径,和分别是第i个正样本文本对应的目标类别的不同超参数,具体地,代表给定的扩展边界的超参数,代表给定的收缩边界超参数,两者均可以根据具体情况设置,一般情况下,收缩边界超参数是小于扩张边界超参数的,即
可以理解的是,上述负样本文本的损失函数的主要思路是,若负样本文本对应的第二文本表示向量距离决策边界很近(即负样本文本对应的第二文本表示向量与其对应目标类别对应的决策中心向量之间的欧式距离小于),则应该将决策边界缩小(即减小对应目标类别的决策半径);相反地,若负样本文本对应的第二文本表示向量距离决策边界很远(即负样本文本对应的第二文本表示向量与其对应目标类别对应的决策中心向量之间的欧式距离大于),则将决策边界扩大(即增加对应目标类别的决策半径)。
最后,根据正样本文本的损失函数和负样本文本的损失函数构建总损失函数,并使用总损失函数计算该目标类别在意图分类模型中决策边界的损失值。其中,上述的总损失(Total Loss)函数可以表示为Lt=Lp+Ln,Lt表示总损失(Total Loss)函数,Lp表示正样本文本(Positive Sample)的损失函数,Ln表示负样本文本(Negative Sample)的损失函数。
步骤S123:根据决策边界的损失值对意图分类模型进行训练。
上述步骤S123的实施方式具体可以包括:根据决策边界的损失值更新意图分类模型的模型参数,直到意图分类模型满足训练终止条件;其中,此处的训练终止条件可以是直到意图分类模型的准确率不再提升,模型参数包括:目标类别在意图分类模型中的决策半径。
在意图分类模型的训练过程中发现,如果根据待处理文本的文本表示向量与决策中心向量之间的距离来确定该文本表示向量在意图分类模型中决策边界的决策半径,导致部分文本表示向量的对应类别在过于远离决策中心时,这部分文本表示向量的对应类别可能会与其他类别有交叉,造成难以区分对应类别属于目标类别或者其他类别的情况。因此,使用属于目标类别的正样本文本和不属于目标类别的负样本文本对意图分类模型进行训练,能够很好地避免只根据正样本文本训练意图分类模型导致难以区分对应类别属于目标类别或者其他类别的情况。
在上述的实现过程中,通过使用属于目标类别的正样本文本和不属于目标类别的负样本文本对意图分类模型进行训练,使得在意图分类模型的训练过程中计算决策半径时,意图分类模型既能够根据正样本文本的分布调整模型的决策边界,同时能参考负样本文本的分布对该决策边界进行扩张或收缩,有效地避免了只根据正样本文本训练意图分类模型导致难以区分对应类别属于目标类别或者其他类别的情况,从而提高了意图分类模型对文本内容进行意图识别的准确率。
请参见图5示出的本申请实施例提供的对文本进行意图分类的流程示意图;可选地,在获得训练后的意图分类模型之后,还可以使用该意图分类模型对文本进行意图分类,对文本进行意图分类的实施方式可以包括:
步骤S210:获取待处理文本。
上述步骤S210的实施方式有很多种,包括但不限于:第一种获得方式,接收用户终端发送的声音文件流,对该声音文件流进行语音识别(Voice Recognition),获得待处理文本;第二种获得方式,接收其它设备(例如服务器)发送的待处理文本,将待处理文本存储至文件系统、数据库或移动存储设备中;第三种获得方式,获取预先存储的待处理文本,具体例如:从文件系统、数据库或移动存储设备中获取待处理文本。
步骤S220:使用训练后的意图分类模型确定待处理文本的意图类别。
上述步骤S220的实施方式具体可以包括:
步骤S221:使用训练后的意图分类模型计算待处理文本的文本表示向量。
其中,该步骤S221的实施原理和实施方式与步骤S121的实施原理和实施方式是类似的,因此,这里不再说明其实施原理和实施方式,如有不清楚的地方,可以参考对步骤S121的描述。
步骤S222:计算待处理文本的文本表示向量与意图分类模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离。
上述步骤S222的实施方式例如:计算待处理文本的文本表示向量与意图分类模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离,此处的向量距离具体可以采用余弦距离、欧氏距离(Euclidean Distance)或者汉明距离(Hamming Distance)等等。
步骤S223:判断多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在意图分类模型中的决策半径。
步骤S224:若多个向量距离中的最小向量距离小于该最小向量距离对应类别在意图分类模型中的决策半径,则将待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
步骤S225:若多个向量距离中的最小向量距离不小于该最小向量距离对应类别在意图分类模型中的决策半径,则将待处理文本的意图类别确定为未知意图类别。
在上述的实现过程中,通过根据多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在意图分类模型中的决策半径,来确定是否是未知意图类别,从而避免了传统分类模型难以识别出未知意图类别的情况,有效地提高了意图分类模型对文本内容进行意图识别的准确率。
请参见图6示出的本申请实施例提供的基于正负样本的意图分类模型训练装置的结构示意图。本申请实施例提供了一种基于正负样本的意图分类模型训练装置300,包括:
训练数据获取模块310,用于获取训练数据,训练数据包括:目标类别、正样本文本和负样本文本,正样本文本是属于目标类别的文本,负样本文本是不属于目标类别的文本。
分类模型获得模块320,用于获取未经训练的意图分类模型,并使用目标类别、正样本文本和负样本文本对意图分类模型进行训练,获得训练后的意图分类模型。
可选地,在本申请实施例中,分类模型获得模块,包括:
表示向量计算模块,用于分别计算正样本文本的第一文本表示向量和负样本文本的第二文本表示向量。
向量损失确定模块,用于根据第一文本表示向量和第二文本表示向量确定目标类别在意图分类模型中决策边界的损失值,决策边界是以目标类别在意图分类模型中的决策中心为圆中心点,以目标类别在意图分类模型中的决策半径为圆半径的圆形。
分类模型训练模块,用于根据决策边界的损失值对意图分类模型进行训练。
可选地,在本申请实施例中,向量损失确定模块,包括:
向量距离计算模块,用于分别计算出第一文本表示向量与目标类别在意图分类模型中的决策中心向量之间的第一向量距离,以及第二文本表示向量与目标类别在意图分类模型中的决策中心向量之间的第二向量距离,决策中心向量是意图分类模型计算出目标类别的所有文本表示向量的向量均值。
向量损失计算模块,用于根据第一向量距离和第二向量距离计算决策边界的损失值。
可选地,在本申请实施例中,分类模型训练模块,包括:
模型参数更新模块,用于根据决策边界的损失值更新意图分类模型的模型参数,直到意图分类模型满足训练终止条件,模型参数包括:目标类别在意图分类模型中的决策半径。
可选地,在本申请实施例中,意图分类模型训练装置,还包括:
处理文本获取模块,用于获取待处理文本。
意图类别确定模块,用于使用训练后的意图分类模型确定待处理文本的意图类别。
可选地,在本申请实施例中,意图类别确定模块,包括:
文本向量计算模块,用于使用训练后的意图分类模型计算待处理文本的文本表示向量。
向量距离获得模块,用于计算待处理文本的文本表示向量与意图分类模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离。
向量距离判断模块,用于判断多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在意图分类模型中的决策半径。
已知意图确定模块,用于若多个向量距离中的最小向量距离小于该最小向量距离对应类别在意图分类模型中的决策半径,则将待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
可选地,在本申请实施例中,意图类别确定模块,包括:
未知意图确定模块,用于若多个向量距离中的最小向量距离不小于该最小向量距离对应类别在意图分类模型中的决策半径,则将待处理文本的意图类别确定为未知意图类别。
应理解的是,该装置与上述的意图分类模型训练方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
本申请实施例提供的一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上的方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法。其中,计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种基于正负样本的意图分类模型训练方法,其特征在于,包括:
获取训练数据,所述训练数据包括:目标类别、正样本文本和负样本文本,所述正样本文本是属于所述目标类别的文本,所述负样本文本是不属于所述目标类别的文本;
获取未经训练的意图分类模型,并使用所述目标类别、所述正样本文本和所述负样本文本对所述意图分类模型进行训练,获得训练后的意图分类模型。
2.根据权利要求1所述的方法,其特征在于,所述使用所述目标类别、所述正样本文本和所述负样本文本对所述意图分类模型进行训练,包括:
分别计算所述正样本文本的第一文本表示向量和所述负样本文本的第二文本表示向量;
根据所述第一文本表示向量和所述第二文本表示向量确定所述目标类别在所述意图分类模型中决策边界的损失值,所述决策边界是以所述目标类别在所述意图分类模型中的决策中心为圆中心点,以所述目标类别在所述意图分类模型中的决策半径为圆半径的圆形;
根据所述决策边界的损失值对所述意图分类模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一文本表示向量和所述第二文本表示向量确定所述目标类别在所述意图分类模型中决策边界的损失值,包括:
分别计算出所述第一文本表示向量与所述目标类别在所述意图分类模型中的决策中心向量之间的第一向量距离,以及所述第二文本表示向量与所述目标类别在所述意图分类模型中的决策中心向量之间的第二向量距离,所述决策中心向量是所述意图分类模型计算出所述目标类别的所有文本表示向量的向量均值;
根据所述第一向量距离和所述第二向量距离计算所述决策边界的损失值,包括:
根据所述第一向量距离构建正样本文本的损失函数,此处的正样本文本的损失函数如下:
其中,Lp表示所述正样本文本(Positive Sample)的损失函数,N表示训练数据中所有样本文本的数量,δi表示该目标类别是否在决策边界内部,zi表示第i个正样本文本的第一文本表示向量,yi表示第i个正样本文本对应的目标类别,表示该目标类别对应的决策中心向量,表示第i个正样本文本对应的目标类别在意图分类模型中的决策半径;
根据所述第二向量距离构建负样本文本的损失函数,此处的负样本文本的损失函数如下:
其中,Ln表示所述负样本文本(Negative Sample)的损失函数,zi表示第i个正样本文本的第一文本表示向量,表示第i个负样本文本对应的第二文本表示向量,η为负样本文本的损失函数所占比例,N表示训练数据中所有样本文本的数量,αi为负样本文本是否在扩张区的权重,βi为负样本文本是否在收缩区的权重,和分别是第i个正样本文本对应的目标类别的不同超参数;
根据所述正样本文本的损失函数和所述负样本文本的损失函数构建总损失函数,并使用所述总损失函数计算该目标类别在所述意图分类模型中决策边界的损失值。
4.根据权利要求2所述的方法,其特征在于,所述根据所述决策边界的损失值对所述意图分类模型进行训练,包括:
根据所述决策边界的损失值更新所述意图分类模型的模型参数,直到所述意图分类模型满足训练终止条件,所述模型参数包括:所述目标类别在所述意图分类模型中的决策半径。
5.根据权利要求1-4任一所述的方法,其特征在于,在所述获得训练后的意图分类模型之后,还包括:
获取待处理文本;
使用所述训练后的意图分类模型确定所述待处理文本的意图类别。
6.根据权利要求5所述的方法,其特征在于,所述使用所述训练后的意图分类模型确定所述待处理文本的意图类别,包括:
使用所述训练后的意图分类模型计算所述待处理文本的文本表示向量;
计算所述待处理文本的文本表示向量与所述意图分类模型中每个类别对应的决策中心向量之间的向量距离,获得多个向量距离;
判断所述多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在所述意图分类模型中的决策半径;
若是,则将所述待处理文本的意图类别确定为该最小向量距离对应的已知意图类别。
7.根据权利要求6所述的方法,其特征在于,在所述判断所述多个向量距离中的最小向量距离是否小于该最小向量距离对应类别在所述意图分类模型中的决策半径之后,还包括:
若所述多个向量距离中的最小向量距离不小于该最小向量距离对应类别在所述意图分类模型中的决策半径,则将所述待处理文本的意图类别确定为未知意图类别。
8.一种基于正负样本的意图分类模型训练装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括:目标类别、正样本文本和负样本文本,所述正样本文本是属于所述目标类别的文本,所述负样本文本是不属于所述目标类别的文本;
分类模型获得模块,用于获取未经训练的意图分类模型,并使用所述目标类别、所述正样本文本和所述负样本文本对所述意图分类模型进行训练,获得训练后的意图分类模型。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210306598.1A CN114662601A (zh) | 2022-03-25 | 2022-03-25 | 基于正负样本的意图分类模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210306598.1A CN114662601A (zh) | 2022-03-25 | 2022-03-25 | 基于正负样本的意图分类模型训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114662601A true CN114662601A (zh) | 2022-06-24 |
Family
ID=82030879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210306598.1A Pending CN114662601A (zh) | 2022-03-25 | 2022-03-25 | 基于正负样本的意图分类模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114662601A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329063A (zh) * | 2022-10-18 | 2022-11-11 | 江西电信信息产业有限公司 | 一种用户的意图识别方法及系统 |
CN115934937A (zh) * | 2022-11-29 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本分类方法及装置 |
-
2022
- 2022-03-25 CN CN202210306598.1A patent/CN114662601A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329063A (zh) * | 2022-10-18 | 2022-11-11 | 江西电信信息产业有限公司 | 一种用户的意图识别方法及系统 |
CN115934937A (zh) * | 2022-11-29 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本分类方法及装置 |
CN115934937B (zh) * | 2022-11-29 | 2024-01-23 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853666B (zh) | 一种说话人分离方法、装置、设备及存储介质 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN111191450B (zh) | 语料清洗方法、语料录入设备及计算机可读存储介质 | |
CN111523640B (zh) | 神经网络模型的训练方法和装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN114662601A (zh) | 基于正负样本的意图分类模型训练方法及装置 | |
CN114490950B (zh) | 编码器模型的训练方法及存储介质、相似度预测方法及系统 | |
CN113094481A (zh) | 意图识别方法、装置、电子设备及计算机可读存储介质 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN114528383A (zh) | 基于对比学习的预训练语言模型处理方法和智能问答系统 | |
CN113963682A (zh) | 一种语音识别纠正方法、装置、电子设备及存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN113838462B (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN113178189B (zh) | 一种信息分类方法及装置、信息分类模型训练方法及装置 | |
CN116702765A (zh) | 一种事件抽取方法、装置及电子设备 | |
CN114707518B (zh) | 面向语义片段的目标情感分析方法、装置、设备及介质 | |
CN116663545A (zh) | 事件抽取方法及装置 | |
CN114661909A (zh) | 意图识别模型训练方法、装置、电子设备及存储介质 | |
CN115238068A (zh) | 语音转录文本聚类方法、装置、电子设备和存储介质 | |
CN111753519B (zh) | 一种模型训练和识别方法、装置、电子设备及存储介质 | |
CN112434133A (zh) | 一种意图分类方法、装置、智能终端及存储介质 | |
CN114595331A (zh) | 一种意图识别方法、装置、电子设备及存储介质 | |
CN114926272B (zh) | 基于端到端模型的行为逾期预测方法、系统、设备和介质 | |
CN116431757B (zh) | 基于主动学习的文本关系抽取方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |