CN116050428B - 意图识别方法、装置、设备及存储介质 - Google Patents
意图识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116050428B CN116050428B CN202310208501.8A CN202310208501A CN116050428B CN 116050428 B CN116050428 B CN 116050428B CN 202310208501 A CN202310208501 A CN 202310208501A CN 116050428 B CN116050428 B CN 116050428B
- Authority
- CN
- China
- Prior art keywords
- intention recognition
- intention
- standard
- unlabeled data
- intent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开了一种意图识别方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型;采用n个训练后的标准意图识别模型对无标签数据分别进行处理,得到无标签数据的n个初步意图识别结果;根据无标签数据的n个初步意图识别结果,确定无标签数据的最终意图识别结果;基于无标签数据以及无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型。本申请实施例提供的技术方案,能够通过小规模高质量样本,训练得到可对查询文本进行准确意图识别的轻量意图识别模型,从而降低了模型的训练成本。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种意图识别方法、装置、设备及存储介质。
背景技术
意图识别是指对于查询文本的意图(如购买、检索等)进行识别的过程,随着人工智能技术的发展,人工智能可有效应用于意图识别。
在相关技术中,通过构建一个分类模型(如二分类模型、多分类模型等),并通过大量的有标签数据(即标注有意图识别结果的样本文本)对该分类模型进行有监督训练,从而得到能够对查询文本的意图进行识别的分类模型。
然而,相关技术需要通过大规模的有标签数据对分类模型进行训练,耗时耗力,训练效率低下。
发明内容
本申请实施例提供了一种意图识别方法、装置、设备及存储介质,能够在提高模型的意图识别准确性的同时,降低模型的训练成本。所述技术方案可以包括如下内容。
根据本申请实施例的一个方面,提供了一种意图识别方法,所述方法包括:
采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型,所述带标签数据是指标注有意图识别结果的样本文本,n为大于1的整数;
采用所述n个训练后的标准意图识别模型对无标签数据分别进行处理,得到所述无标签数据的n个初步意图识别结果,所述无标签数据是指未标注有意图识别结果的样本文本;
根据所述无标签数据的n个初步意图识别结果,确定所述无标签数据的最终意图识别结果;
基于所述无标签数据以及所述无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型,所述训练后的轻量意图识别模型用于对查询文本进行处理得到所述查询文本的意图识别结果。
根据本申请实施例的一个方面,提供了一种意图识别装置,所述装置包括:
标准模型训练模块,用于采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型,所述带标签数据是指标注有意图识别结果的样本文本,n为大于1的整数;
初步结果获取模块,用于采用所述n个训练后的标准意图识别模型对无标签数据分别进行处理,得到所述无标签数据的n个初步意图识别结果,所述无标签数据是指未标注有意图识别结果的样本文本;
最终结果获取模块,用于根据所述无标签数据的n个初步意图识别结果,确定所述无标签数据的最终意图识别结果;
轻量模型训练模块,用于基于所述无标签数据以及所述无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型,所述训练后的轻量意图识别模型用于对查询文本进行处理得到所述查询文本的意图识别结果。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述意图识别方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述意图识别方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述意图识别方法。
本申请实施例提供的技术方案可以包括如下有益效果。
通过有标签数据对多个标准意图识别模型进行训练,再通过多个训练后的标准意图识别模型,获取无标签数据的最终意图识别结果,最后通过无标签数据和无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,使得轻量意图识别模型能够从多个训练后的标准意图识别模型中学习到先验知识,从而提高了轻量意图识别模型的意图识别准确性。
另外,由于可以借助无标签数据对轻量意图识别模型进行训练,而不受限于有标签数据,使得轻量意图识别模型的训练成本更低,以及训练后的轻量意图识别模型的泛化能力更强。同时,使得本申请实施例仅需小规模高质量样本对多个标准意图识别模型进行训练即可,从而进一步降低了模型的训练成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的第一标准意图识别模型的示意图;
图3是本申请一个实施例提供的第二标准意图识别模型的示意图;
图4是本申请一个实施例提供的轻量意图识别模型的部署示意图;
图5是本申请一个实施例提供的意图识别方法的流程图;
图6是本申请一个实施例提供的无标签数据的向量表示的获取示意图;
图7是本申请一个实施例提供的预测意图识别结果的获取方法的示意图;
图8和图9示例性示出了实验结果对比的直方图;
图10是本申请一个实施例提供的意图识别装置的框图;
图11是本申请另一个实施例提供的意图识别装置的框图;
图12是本申请一个实施例提供的计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的技术方案涉及人工智能的机器学习技术,利用机器学习技术基于有标签数据和无标签数据,对轻量意图识别模型进行训练,以得到可用于对查询文本进行意图识别的轻量意图识别模型。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(PersonalComputer,个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人、车载等终端设备;也可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
本申请实施例提供的技术方案适用于任何需要意图识别的场景中,诸如意图识别系统、查询系统、文本分类场景、检索场景、推荐场景、问询系统、购物场景等。本申请实施例提供的技术方案能够提高模型的意图识别准确性的同时,降低模型的训练成本。
在一个示例中,请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。
模型训练设备10可以是诸如PC、电脑、平板电脑、服务器、智能机器人、车载终端等电子设备,或者是其他一些具有较强计算能力的电子设备。模型训练设备10用于对轻量意图识别模型30进行训练。轻量意图识别模型30是一种用于对查询文本进行意图识别,得到查询文本的意图识别结果的神经网路模型。意图识别结果用于指示查询文本的意图,诸如购买、检索、收集、教育、娱乐等。
示例性地,该轻量意图识别模型30可以是采用轻量级的神经网络构建而成,诸如CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Networks,循环神经网络)、DNN(Deep Neural Networks,深度神经网络)等。轻量意图识别模型30的网络结构较为简单,运算复杂度较低,相对于轻量意图识别模型30,模型训练设备10中部署有网络结构较为复杂的标准意图识别模型40,也即标准意图识别模型40的网络结构复杂度高于轻量意图识别模型30的网络结构复杂度,使得标准意图识别模型40比轻量意图识别模型30具有更好的处理能力。可选地,标准意图识别模型40可以采用重量级的神经网络构建而成,诸如BERT(Bidirectional Encoder Representation from Transformers,双向Transformers的特征编码器)、Transformer(一种语言处理模型),以及任何可用于文本的语义提取的重量级神经网络。
考虑到标准意图识别模型40的运算耗时高但处理能力强,轻量意图识别模型30的运算耗时低但处理能力弱,本申请实施例采用标准意图识别模型40和轻量意图识别模型30相结合的方式,来对轻量意图识别模型30进行训练,通过将标准意图识别模型40的知识蒸馏至轻量意图识别模型30,来提高轻量意图识别模型30的处理能力,同时保留轻量意图识别模型30的运算耗时低的优点。
在本申请实施例中,每个轻量意图识别模型30用于识别一种意图(即二分类模型,输出只有是或不是),则针对每个轻量意图识别模型30,配置有用于识别对应意图的多个标准意图识别模型。参考图1,模型训练设备10中还部署有多个标准意图识别模型40,每个标准意图识别模型40具有不同的网络结构,如此有利于提高最终意图识别结果的准确性,以及使得轻量意图识别模型30学习到不同的先验知识。可选地,该多个标准意图识别模型40所需识别的意图与对应的轻量意图识别模型30所需识别的意图一致。
由于标准意图识别模型40的运算耗时高但处理能力强,可以采用少量高质量的有标签数据,先对n个标准意图识别模型40进行有监督训练,得到n个训练后的标准意图识别模型40,再通过n个训练后的标准意图识别模型40分别获取无标签数据的初步意图识别结果,该无标签数据的数据量可以根据经验值进行设置与调整。模型训练设备10根据n个初步意图识别结果,得到无标签数据的最终意图识别结果,即伪标签,伪标签是相对真实标签定义得到的,其为一个预测值。
模型训练设备10采用无标签数据和无标签数据的最终意图识别结果,对轻量意图识别模型30进行迭代训练,即可得到训练后的轻量意图识别模型30。可选地,模型训练设备10还可以采用有标签数据对训练后的轻量意图识别模型30进行优化,以得到识别准确性更高的训练完成的轻量意图识别模型30。
在一个示例中,以标准意图识别模型40基于BERT构建为例,对标准意图识别模型40的网络结构进行说明。
可选地,标准意图识别模型40可以是分类任务为拟合目标进行构建的。参考图2,标准意图识别模型40可以包括语义提取网络、全连接层W1、激活层Relu和全连接层W2。其中,语义提取网络是基于BERT构建的,其可用于获取样本文本的语义向量401。全连接层W1和全连接层W2用于将前层的输出映射到样本标记空间,其可以起到分类器的作用,全连接层W1和全连接层W2之间的网络结构、参数等不同,激活层Relu采用Relu函数对前层的输出进行特征空间映射。全连接层W2的输出即为分类结果,该分类结果的维度是2,用于表征属于目标类别和不属于目标类别的可能性。判断样本文本所属意图时,只需比较分类结果在0位置的值和在1位置的值的大小,若0位置的值大于1位置的值,则为负例(即样本文本不属于目标意图),否则为正例(即样本文本属于目标意图)。
模型训练设备10基于分类结果和样本文本的真实标签数据(即标注的意图识别结果),计算标准意图识别模型40的训练损失,以对标准意图识别模型40进行训练。
可选地,标准意图识别模型40也可以是回归任务为拟合目标进行构建的。参考图3,标准意图识别模型40可以包括语义提取网络、全连接层W1、激活层Gelu、全连接层W2、激活层Tanh和全连接层W3。其中,语义提取网络是基于BERT构建的,其可用于获取样本文本的语义向量401。全连接层W1、全连接层W2和全连接层W3用于将前层的输出映射到样本标记空间,其可以起到分类器的作用,全连接层W1、全连接层W2和全连接层W3之间的网络结构、参数等不同,激活层Gelu采用Gelu函数对前层的输出进行特征空间映射,激活层Tanh采用Tanh函数对前层的输出进行特征空间映射。全连接层W3的输出经过逻辑回归函数(如Sigmoid函数)处理,即可得到取值范围为0至1的回归结果,该回归结果的维度是1,用于表征属于目标意图的可能性。判断样本文本所属意图时,只需将回归结果和阈值进行比较,例如,若回归结果的值小于0.5,则为负例,否则为正例。
模型训练设备10基于回归结果和样本文本的真实标签数据(即标注的意图识别结果),计算标准意图识别模型40的训练损失,以对标准意图识别模型40进行训练。
需要说明的是,上述标准意图识别模型40的网络结构仅是示例性地,并不对标准意图识别模型40的网络结构造成限定。
上述训练完成的轻量意图识别模型30可部署在模型使用设备20中使用,以提供查询文本的意图识别服务。模型使用设备20可以是诸如手机、电脑、智能电视、多媒体播放设备、可穿戴设备、医疗设备等终端设备,也可以是服务器,本申请对此不作限定。
可选地,模型使用设备20可以部署某一个轻量意图识别模型30,以对指定意图进行识别,模型使用设备20也可以部署某多个轻量意图识别模型30,以对查询文本进行完整的多意图识别,本申请实施例对此不作限定。查询文本可以是指用户输入的用于查询的文本,诸如语句、词、关键字、字符串等。
示例性地,以意图识别系统为例,参考图4,模型使用设备20中部署有多个训练完成的轻量意图识别模型30,每个轻量意图识别模型30用于识别不同的意图。模型使用设备20在获取查询文本201之后,采用该多个轻量意图识别模型30分别对查询文本201进行意图识别,得到多个意图识别结果,模型使用设备20对多个意图识别结果进行组合,得到查询文本201对应的完整意图识别结果202,完整意图识别结果202可用于表征查询文本201对应的所有可能意图。
上文对本申请实施例的方案实施环境进行了详细说明,下文将通过方法实施例对本申请技术方案进行介绍说明。
请参考图5,其示出了本申请一个实施例提供的意图识别方法的流程图,该方法各步骤的执行主体可以是图1所示方案实施环境中的模型训练设备10,该方法可以包括如下几个步骤(501~504)。
步骤501,采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型,该带标签数据是指标注有意图识别结果的样本文本,n为大于1的整数。
样本文本是指用于对模型进行训练的文本,其可以是一个完整的短句、也可以是一些关键词的组合,还可以是一些字符串(如数字、英文字母、数学符号等)的组合,本申请实施例对此不作限定。带标签数据中的意图识别结果为样本文本的真实标签数据,以指示样本文本所属的真实意图。可以通过训练完成的模型或专业人员,来标注样本文本对应的意图识别结果,以获取高质量的带标签数据。可选地,带标签数据对应的样本文本可以被称之为第一样本文本,无标签数据对应的样本文本可以被称之为第二样本文本,以作区分。无标签数据是指未标注有意图识别结果的样本文本,也即第二样本文本没有真实标签数据。
标准意图识别模型与上述实施例介绍相同,本申请实施例未说明的内容,可以参考上述实施例,这里不再赘述。上述n个标准意图识别模型之间的网络结构互不相同,但每个标准意图识别模型均用于对同一目标意图进行识别。标准意图识别模型的训练方法将在下文作详细说明,这里不再赘述。
步骤502,采用n个训练后的标准意图识别模型对无标签数据分别进行处理,得到无标签数据的n个初步意图识别结果,该无标签数据是指未标注有意图识别结果的样本文本。
其中,初步意图识别结果用于指示无标签数据是否属于目标意图,不同的初步意图识别结果之间可能不相同,初步意图识别结果仅为某一个训练后的标准意图识别模型的识别结果。例如,设n为3,第1个初步意图识别结果指示无标签数据属于目标意图,第2个初步意图识别结果指示无标签数据属于目标意图,第3个初步意图识别结果指示无标签数据不属于目标意图。
对于每个训练后的标准意图识别模型,通过训练后的标准意图识别模型对无标签数据中的第二样本文本进行处理,即可得到无标签数据的初步意图识别结果。示例性地,参考图2,先获取第二样本文本的词向量,再通过训练后的标准意图识别模型根据第二样本文本的词向量,对第二样本文本进行语义提取,得到第二样本文本的语义向量。然后通过全连接层W1、激活层Relu和全连接层W2依次对第二样本文本的语义向量进行处理,即可得到无标签数据的初步意图识别结果。
步骤503,根据无标签数据的n个初步意图识别结果,确定无标签数据的最终意图识别结果。
无标签数据的最终意图识别结果用于敲定无标签数据是否属于目标意图,最终意图识别结果为多个训练后的标准意图识别模型所敲定的识别结果。由于训练后的标准意图识别模型的输出具有较高准确性,在此基础上,结合多个训练后的标准意图识别模型的输出,可以进一步提高最终意图识别结果的准确性,因此,在本申请实施例中,无标签数据的最终意图识别结果可用于作为无标签数据的伪标签数据。
在一个示例中,可采用求平均的方式,确定无标签数据的最终意图识别结果:根据无标签数据的n个初步意图识别结果分别对应的分值的平均值,确定无标签数据的最终意图识别结果;其中,n个初步意图识别结果中的第i个初步意图识别结果对应的分值,是由n个标准意图识别模型中的第i个标准意图识别模型得到的,用于确定无标签数据是否属于目标意图的分值,i为小于或等于n的整数。
可选地,初步意图识别结果对应的分值用于指示无标签数据属于目标意图的可能性(如下文中的第一类别的分值和回归任务的分值),该分值越大,无标签数据属于目标意图的可能性越大。对n个初步意图识别结果分别对应的分值进行求平均,即可得到无标签数据的最终意图识别结果对应的分值。例如,第1个初步意图识别结果对应的分值为0.6,第2个初步意图识别结果对应的分值为0.7,第3个初步意图识别结果对应的分值为0.8,则最终意图识别结果对应的分值为0.7。
根据最终意图识别结果对应的分值即可确定最终意图识别结果。示例性地,在无标签数据的n个初步意图识别结果分别对应的分值的平均值大于第一阈值的情况下,确定无标签数据的最终意图识别结果为属于目标意图;或者,在无标签数据的n个初步意图识别结果分别对应的分值的平均值小于第一阈值的情况下,确定无标签数据的最终意图识别结果为不属于目标意图。其中,第一阈值可以根据经验值进行设置与调整。
在另一个示例中,可采用投票的方式,确定无标签数据的最终意图识别结果:在无标签数据的n个初步意图识别结果中,属于目标意图的结果数量大于不属于目标意图的结果数量的情况下,确定无标签数据的最终意图识别结果为属于目标意图;或者,在无标签数据的n个初步意图识别结果中,属于目标意图的结果数量小于不属于目标意图的结果数量的情况下,确定无标签数据的最终意图识别结果为不属于目标意图。
示例性地,设第1个初步意图识别结果指示无标签数据属于目标意图,第2个初步意图识别结果指示无标签数据属于目标意图,第3个初步意图识别结果指示无标签数据不属于目标意图,则属于目标意图的结果数量为2,不属于目标意图的结果数量为1,属于目标意图的结果数量大于不属于目标意图的结果数量,因此,无标签数据的最终意图识别结果为属于目标意图。
可选地,在无标签数据的n个初步意图识别结果中,属于目标意图的结果数量等于不属于目标意图的结果数量的情况下,将n个初步意图识别结果中的第j个初步意图识别结果,确定为无标签数据的最终意图识别结果,j为小于或等于n的整数。
其中,第j个初步意图识别结果可以是指第j个训练后的标准意图识别模型的输出,该第j个训练后的标准意图识别模型可以根据经验值指定的训练后的标准意图识别模型,该第j个训练后的标准意图识别模型可以随机选定的训练后的标准意图识别模型,本申请实施例对此不作限定。
在一个可行示例中,在获取n个训练后的标准意图识别模型的过程中,若发现目标训练后的标准意图识别模型的表现较为优异(即意图识别准确性较高),则可以先通过该目标训练后的标准意图识别模型,获取无标签数据的目标初步意图识别结果,在该目标初步意图识别结果对应的分值大于或等于指定阈值(如0.95)的情况下,可以将该目标初步意图识别结果,直接确定为无标签数据的最终意图识别结果,无需再采用剩余的n-1个训练后的标准意图识别模型对无标签数据分别进行处理。在该目标初步意图识别结果对应的分值小于指定阈值(如0.95)的情况下,则需要采用剩余的n-1个训练后的标准意图识别模型对无标签数据分别进行处理,得到无标签数据的n-1个初步意图识别结果,并采取上述求平均的方式或投票的方式对目标初步意图识别结果和n-1个初步意图识别结果进行处理,来获取无标签数据的最终意图识别结果。如此,在上述目标初步意图识别结果大于或等于指定阈值的情况下,仅需采用一个训练后的标准意图识别模型对无标签数据进行处理,即可得到无标签数据的最终意图识别结果,从而有利于降低模型的运算量,进而提高最终意图识别结果的确定效率,有利于提高轻量意图识别模型的训练效率。
步骤504,基于无标签数据以及无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型,该训练后的轻量意图识别模型用于对查询文本进行处理得到查询文本的意图识别结果。
相对于上述标准意图识别模型,轻量意图识别模型的参数规模更小、网络结构更简单。轻量意图识别模型与上述实施例介绍相同,本申请实施例未说明的内容,可以参考上述实施例,这里不再赘述。
在一个示例中,轻量意图识别模型的训练过程可以包括如下内容。
1、获取无标签数据的向量表示。
无标签数据的向量表示用于表征无标签数据,在本申请实施例中,向量表示也可以被称之为词向量、词嵌入等。
在一个示例中,可以对无标签数据进行分词处理,得到至少一个词;获取至少一个词分别对应的词向量;对至少一个词分别对应的词向量进行拼接,得到无标签数据的向量表示。
示例性地,设无标签数据中的第二样本文本为词A和词B的组合,则对无标签数据进行分词,可以得到分词A和分词B,通过查找词表,得到分词A的标识和分词B的标识,在分词的数量不足最大分词数量的情况下,用0补足。再根据标识,从预先训练好的词向量集合中,获取分词A和分词B分别对应的词向量,最后对分词A对应的词向量和分词B对应的词向量依次拼接,得到无标签数据的向量表示。若每个词向量的维度为100,最大分词数量为10,则无标签数据的向量表示为[10,100]。可选地,也可以通过独热编码、Word2vec等来获取分词的词向量。
在另一个示例中,可以通过语义提取网络,得到无标签数据的语义向量,以及无标签数据中包含的各个字符分别对应的语义向量;将无标签数据的语义向量,分别与各个字符分别对应的语义向量进行拼接,得到各个字符分别对应的拼接向量;将各个字符分别对应的拼接向量进行整合,得到无标签数据的向量表示。
其中,字符用于指代字、字母等。语义提取网络可以与标准意图识别模型中的语义提取网络相同,如基于BERT构建。语义向量用于表征样本文本的语义。
示例性地,参考图6,通过语义提取网络601对无标签数据中的第二样本文本进行语义提取,得到无标签数据的语义向量602,以及无标签数据中包含的各个字符分别对应的语义向量,将语义向量602与各个字符分别对应的语义向量进行拼接,得到各个字符分别对应的拼接向量,将各个字符分别对应的拼接向量依次进行拼接,即可得到无标签数据的向量表示。
2、通过轻量意图识别模型根据无标签数据的向量表示,得到无标签数据的预测意图识别结果。
可选地,通过轻量意图识别模型根据无标签数据的向量表示,对无标签数据进行意图识别,即可得到无标签数据的预测意图识别结果。预测意图识别结果是指对无标数据的意图进行预测得到的结果,其为一个预测值,用于预测无标签数据是否属于目标意图。
示例性地,参考图6,通过轻量意图识别模型603对无标签数据的向量表示进行预测,即可得到无标签数据的预测意图识别结果。
参考图7,轻量意图识别模型603包括卷积层、池化层和全连接层。其中,卷积层包括3套卷积核,分别为[128,2,1]、[128,3,1]和[128,4,1]。池化层采用MaxPooling(最大池化)。全连接层的输出维度为1。采用卷积层、池化层和全连接层依次对无标签数据的向量表进行处理,即可得到无标签数据的预测意图识别结果。
3、根据无标签数据的预测意图识别结果和无标签数据的最终意图识别结果,计算第三损失函数的值。
可选地,第三损失函数可以为均方差函数(即MSE函数)、焦点损失函数(即FocalLoss)等,本申请实施例对此不作限定。示例性地,采用MSE函数,根据无标签数据的预测意图识别结果和无标签数据的最终意图识别结果之间的差异,即可计算得到第三损失函数的值。
在一个可行示例中,在采用求平均的方式,获取最终意图识别结果的情况下,优选采用MSE函数,计算第三损失函数的值;在采用投票的方式,获取最终意图识别结果的情况下,优选采用焦点损失函数,计算第三损失函数的值,本申请实施例对此不作限定。
4、根据第三损失函数的值对轻量意图识别模型的参数进行调整,得到训练后的轻量意图识别模型。
可选地,以最小化第三损失函数的值,对轻量意图识别模型的参数进行迭代优化,即可得到训练后的轻量意图识别模型。
在一个示例中,在得到训练后的轻量意图识别模型之后,还可以采用带标签数据对训练后的轻量意图识别模型的参数进行调整,得到最终训练后的轻量意图识别模型(即上述训练完成的轻量意图识别模型),如此可以进一步提高轻量意图识别模型的意图识别准确性。
综上所述,本申请实施例提供的技术方案,通过有标签数据对多个标准意图识别模型进行训练,再通过多个训练后的标准意图识别模型,获取无标签数据的最终意图识别结果,最后通过无标签数据和无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,使得轻量意图识别模型能够从多个训练后的标准意图识别模型中学习到先验知识,从而提高了轻量意图识别模型的意图识别准确性。
另外,由于可以借助无标签数据对轻量意图识别模型进行训练,而不受限于有标签数据,使得轻量意图识别模型的训练成本更低,以及训练后的轻量意图识别模型的泛化能力更强。同时,使得本申请实施例仅需小规模高质量样本对多个标准意图识别模型进行训练即可,从而进一步降低了模型的训练成本。
另外,本申请实施例支持将轻量意图识别模型的网络结构简单化、参数小规模化,有利于提高轻量意图识别模型的训练效率。
在一个示例性实施例中,标准意图识别模型的训练过程可以包括如下内容。
可选地,上述n个标准意图识别模型中可以包括第一标准意图识别模型和第二标准意图识别模型为例,第一标准意图识别模型用于执行分类任务,第二标准意图识别模型用于执行回归任务。在本申请实施例中,分类任务是指判断输入属于目标意图的可能性和不属于目标意图的可能性的任务,回归任务是指判断输入属于目标意图的可能性的任务。目标意图可以是指任一意图。
每个第一标准意图识别模型之间的网络结构不相同,每个第二标准意图识别模型之间的网络结构不相同,但每个第一标准意图识别模型的训练方法相同,每个第二标准意图识别模型的训练方法相同,下文将分别以第一标准意图识别模型和第二标准意图识别模型为例,对标准意图识别模型进行说明。
示例性地,第一标准意图识别模型的训练过程可以包括如下内容。
1、通过第一标准意图识别模型提取第一样本文本的语义向量,根据第一样本文本的语义向量,得到第一样本文本的第一意图识别结果。
其中,语义向量用于表征样本文本的语义,第一意图识别结果包括:第一类别的分值和第二类别的分值,第一类别对应于属于目标意图,第二类别对应于不属于目标意图。第一样本文本具有标注的意图识别结果(即真实标签数据)。
可选地,先获取第一样本文本的词向量,再通过第一标准意图识别模型根据第一样本文本的词向量,提取得到第一样本文本的语义向量,再通过第一标准意图识别模型根据第一样本文本的语义向量,对第一样本文本进行分类,得到第一样本文本的第一意图识别结果。
示例性地,参考图2,可以通过查找词表,得到第一样本文本中每个字分别对应的标识,即Tok 1至Tok n,然后将[CLS]符号对应的标识、第一样本文本中每个字分别对应的标识、分隔符号[SEP]对应的标识以及填充符号[PAD]对应的标识依次拼接,得到第一样本文本的词向量,再将第一样本文本的词向量输入第一标准意图识别模型的语义提取网络,编码得到第一样本文本的语义向量401,即T(CLS),以及第一样本文本中每个字分别对应的语义向量,即T1-Tn。可选地,本申请实施例中的语义向量的维度可以根据实际使用需求进行设置与调整,诸如T(CLS)和T1-Tn的维度均为768。其中,标准意图识别模型的输入设置有最大输入长度,在样本文本的词向量不足最大输入长度的情况下,采用填充符号[PAD]对应的标识进行补齐。可选地,也可以通过独热编码、Word2vec等来获取第一样本文本的词向量。
再通过全连接层W1(输出的维度可以为[768,768])、激活层Relu和全连接层W2(输出的维度可以为[768,2])依次对第一样本文本的语义向量401进行处理(后一层以前一层的输出为输入),即可得到第一样本文本的第一意图识别结果(即分类结果)。
2、根据第一意图识别结果和标注的意图识别结果,计算第一损失函数的值。
第一损失函数的值用于表征第一意图识别结果和标注的意图识别结果之间的差异性。考虑到意图识别场景中,正样本(即上述正例)的数量往往少于负样本(即上述负例)的数量,正样本属于偏难学样本,因此,本申请实施例针对正负样本数据分布不均衡的情况,设置了两种损失函数,该两种损失函数可以根据实际使用需求进行选择,本申请实施例对此不作限定。
上述第一损失函数可以为焦点损失函数(即Focal Loss),也可以为交叉熵损失函数(即Cross Entropy Loss)。其中,交叉熵损失函数中正样本的权重系数大于负样本的权重系数。
焦点损失函数可使正样本的损失权重小,负样本的损失权重大,实现正负样本的自动均衡。示例性地,焦点损失函数的值可以表示如下:
交叉熵损失函数通过调整正样本的权重系数和负样本的权重系数,来实现正负样本的自动均衡。示例性地,交叉熵损失函数的值可以表示如下:
其中,y第一样本文本对应标注的意图识别结果,a为正样本的权重系数,b为负样本的权重系数,a大于b。
可选地,相比于交叉熵损失函数,焦点损失函数更有利于对困难样本进行学习,其可以为有一个优选方案。
可选地,可以将上述第一类别在第一损失函数下的值,确定为第一损失函数的值,也可以对上述第一类别在第一损失函数下的值,与第二类别在第一损失函数下的值进行求和,得到第一损失函数的值,本申请实施例对此不作限定。
3、根据第一损失函数的值对第一标准意图识别模型的参数进行调整,得到训练后的第一标准意图识别模型。
可可选地,以最小化第一损失函数的值,对第一标准意图识别模型的参数进行迭代调整,即可得到训练后的第一标准意图识别模型,训练后的第一标准意图识别模型对意图的识别准确性,高于训练前的第一标准意图识别模型对意图的识别准确性。
示例性地,第二标准意图识别模型的训练过程可以包括如下内容。
1、通过第二标准意图识别模型提取第一样本文本的语义向量,根据第一样本文本的语义向量,得到第一样本文本的第二意图识别结果。
其中,第一样本文本具有标注的意图识别结果,第二意图识别结果包括回归任务的分值,回归任务的分值大于第二阈值对应于属于目标意图,回归任务的分值小于第二阈值对应于不属于目标意图。
示例性地,参考图3,先获取第一样本文本的词向量,再通过第二标准意图识别模型中的语义提取网络根据第一样本文本的词向量,对第一样本文本进行语义提取,得到第一样本文本的语义向量401,再通过全连接层W1(输出的维度可以为[768,768])、激活层Gelu、全连接层W2(输出的维度可以为[768,768])、激活层Tanh和全连接层W3(输出的维度可以为[768,1])依次对第一样本文本的语义向量401进行处理,即可得到第一样本文本的第二意图识别结果(即回归结果)。
2、根据第二意图识别结果和标注的意图识别结果,计算第二损失函数的值。
第二损失函数的值用于表征第二意图识别结果和标注的意图识别结果之间的差异性。
在一个示例中,第二损失函数可以为均方差函数(即MSE函数)、L1损失函数、L2损失函数等。示例性地,可以采用均方差函数,基于第二意图识别结果中回归任务的分值,与标注的意图识别结果之间的差异,来计算第二损失函数的值。回归任务的分值为概率值,其范围为0-1。
3、根据第二损失函数的值对第二标准意图识别模型的参数进行调整,得到训练后的第二标准意图识别模型。
可选地,以最小化第二损失函数的值,对第二标准意图识别模型的参数进行迭代调整,即可得到训练后的第二标准意图识别模型,训练后的第二标准意图识别模型对意图的识别准确性,高于训练前的第二标准意图识别模型对意图的识别准确性。
在一个可行示例中,考虑到用户输入的查询文本较为简短、趋向于口语化表达,为了使得标准意图识别模型贴合查询文本这些特点,在对标准意图识别模型进行训练之前,本申请实施例还可选取预训练语料,对标准意图识别模型进行预训练。其中,预训练语料可以从查询文本语料中选取。
示例性地,在采用预训练语料对n个标准意图识别模型进行预训练的过程中,可控制标准意图识别模型执行以下任务中的至少之一,得到n个预训练后的标准意图识别模型。
1、屏蔽词预测任务:在通过标准意图识别模型中的语义提取网络进行预训练语料的语义向量提取过程中,对预训练语料中的部分词进行遮掩,再将语义提取网络所获取的该部分词的语义向量,与该部分词的词向量进行比对,来预训练标准意图识别模型。为了更好地训练标准意图识别模型,本申请实施例还可以使用分词的边界信息。示例性地,先对预训练语料进行分词,则在随机遮掩分词的过程中,可以先获取该分词的边界信息,再根据边界信息对该分词进行遮掩。
2、下一语句预测任务:通过标准意图识别模型预测预训练语料对应的下一个句子,得到预测句子,再将预测句子与预训练语料对应的下一个真实句子进行比对,来预训练标准意图识别模型。
3、有监督的分类任务:通过标准意图识别模型对预训练语料进行意图识别,得到预训练语料的预测意图识别结果,再将预训练语料的预测意图识别结果与预训练语料的真实标签数据进行比对,来预训练标准意图识别模型。
在得到n个预训练后的标准意图识别模型,再采用带标签数据对n个预训练后的标准意图识别模型进行训练,得到n个训练后的标准意图识别模型。
综上所述,通过采用预训练语料对标准意图识别模型进行预训练,可以使得训练后的标准意图识别模型更贴合查询文本的特点,从而使得训练后的轻量意图识别模型更贴合,进而提高了训练后的轻量意图识别模型的意图识别准确性。
在一个示例性实施例中,以部署有用于教育意图识别的轻量意图识别模型1、用于汽车意图识别的轻量意图识别模型2、用于购物意图识别的轻量意图识别模型3、用于文学意图识别的轻量意图识别模型4和用于游戏意图识别的轻量意图识别模型5的搜索系统为例,对轻量意图识别模型的使用方法进行说明,其可以包括如下内容。
在获取用户输入的查询文本之后,对查询文本进行分词,得到至少一个词,获取至少一个词分别对应的词向量,对至少一个词分别对应的词向量进行拼接,得到查询文本的向量表示。
通过轻量意图识别模型1根据查询文本的向量表示,确定查询文本是否属于教育意图,通过轻量意图识别模型2根据查询文本的向量表示,确定查询文本是否属于汽车意图,通过轻量意图识别模型3根据查询文本的向量表示,确定查询文本是否属于购物意图,通过轻量意图识别模型4根据查询文本的向量表示,确定查询文本是否属于文学意图,通过轻量意图识别模型5根据查询文本的向量表示,确定查询文本是否属于游戏意图。上述意图识别过程可以是同步进行,也可以是依次进行,本申请实施例对此不作限定。
其中,教育意图和汽车意图可代表通用的意图类别,购物意图可代表口语化偏重的意图类别,文学意图和游戏意图则可代表重度资源依赖型的意图类别。
可选地,若查询文本属于某个意图,该意图可以标记为1,否则被标记为0。示例性地,针对查询文本的意图识别结果可以表示如下述表1。
表1
将被标记为1的意图挑选出来并进行组合,即可得到查询文本的完整意图识别结果。例如,参考图4,查询文本的完整意图识别结果202包括教育意图和购物意图。
在一个示例性实施例中,立足于高质量小样本数据场景,本申请实施例针对每个意图类型,按照搜索次数分布,从人工精标的1万样本文本中,挑选出4千-8千之间数据量的有标签数据,以构建较高质量、能真实反馈实际应用场景的测评数据(即高质量小样本)。
参考下述表2,表2为基于不同质量和规模下的测试数据,分别单独对轻量意图识别模型和第一标准意图识别模型进行训练,所得到的实验结果对比。本申请实施例采用正样本对应的F1值来衡量模型的精确率和召回率。
表2
从表2和图8(为表2对应的直方图)中可以看出,第一标准意图识别模型对训练数据的质量要求较高,在噪音较多的场景下(低质量大样本),轻量意图识别模型的效果基本优于第一标准意图识别模型,而在高质量小样本的场景下,第一标准意图识别模型可以在大多数情况下,实现明显的效果提升。因此,第一标准意图识别模型仅需构造高质量小样本,即可实现效果提升。
参考下述表3,表3为基于高质量小样本,分别单独对轻量意图识别模型、第一标准意图识别模型、第二标准意图识别模型,以及本申请实施例提供的技术方案(以下简称本申请)进行训练,所得到的实验结果对比。
表3
从表3和图9(为表3对应的直方图)中可以看出,除汽车意图外,其他意图对应的F1值均有较明显提升,平均提升约9%。分析汽车意图的结果发现,本申请实施例中针对汽车意图的标准意图识别结果的F1值并没有超过轻量标准意图识别模型很多,故采用本申请实施例提供的技术方案,针对汽车意图的提升效果并不明显。
综上所述,本申请实施例提供的技术方案,通过有标签数据对多个标准意图识别模型进行训练,再通过多个训练后的标准意图识别模型,获取无标签数据的最终意图识别结果,最后通过无标签数据和无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,使得轻量意图识别模型能够从多个训练后的标准意图识别模型中学习到先验知识,从而提高了轻量意图识别模型的意图识别准确性。
另外,由于可以借助无标签数据对轻量意图识别模型进行训练,而不受限于有标签数据,使得轻量意图识别模型的训练成本更低,以及训练后的轻量意图识别模型的泛化能力更强。同时,使得本申请实施例仅需小规模高质量样本对多个标准意图识别模型进行训练即可,从而进一步降低了模型的训练成本。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
参考图10,其示出了本申请一个实施例提供的意图识别装置的框图。该装置可用于实现上述意图识别方法。该装置1000可以包括:标准模型训练模块1001、初步结果获取模块1002、最终结果获取模块1003和轻量模型训练模块1004。
标准模型训练模块1001,用于采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型,所述带标签数据是指标注有意图识别结果的样本文本,n为大于1的整数。
初步结果获取模块1002,用于采用所述n个训练后的标准意图识别模型对无标签数据分别进行处理,得到所述无标签数据的n个初步意图识别结果,所述无标签数据是指未标注有意图识别结果的样本文本。
最终结果获取模块1003,用于根据所述无标签数据的n个初步意图识别结果,确定所述无标签数据的最终意图识别结果。
轻量模型训练模块1004,用于基于所述无标签数据以及所述无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型,所述训练后的轻量意图识别模型用于对查询文本进行处理得到所述查询文本的意图识别结果。
在一些实施例中,所述初步意图识别结果用于指示所述无标签数据是否属于目标意图;所述最终结果获取模块1003,用于根据所述无标签数据的n个初步意图识别结果分别对应的分值的平均值,确定所述无标签数据的最终意图识别结果;其中,所述n个初步意图识别结果中的第i个初步意图识别结果对应的分值,是由所述n个标准意图识别模型中的第i个标准意图识别模型得到的,用于确定所述无标签数据是否属于所述目标意图的分值,i为小于或等于n的整数。
在一些实施例中,所述最终结果获取模块1003,还用于:
在所述无标签数据的n个初步意图识别结果分别对应的分值的平均值大于第一阈值的情况下,确定所述无标签数据的最终意图识别结果为属于所述目标意图;
或者,在所述无标签数据的n个初步意图识别结果分别对应的分值的平均值小于第一阈值的情况下,确定所述无标签数据的最终意图识别结果为不属于所述目标意图。
在一些实施例中,所述初步意图识别结果用于指示所述无标签数据是否属于目标意图;所述最终结果获取模块1003,还用于:
在所述无标签数据的n个初步意图识别结果中,属于所述目标意图的结果数量大于不属于所述目标意图的结果数量的情况下,确定所述无标签数据的最终意图识别结果为属于所述目标意图;
或者,在所述无标签数据的n个初步意图识别结果中,属于所述目标意图的结果数量小于不属于所述目标意图的结果数量的情况下,确定所述无标签数据的最终意图识别结果为不属于所述目标意图。
在一些实施例中,所述最终结果获取模块1003,还用于:在所述无标签数据的n个初步意图识别结果中,属于所述目标意图的结果数量等于不属于所述目标意图的结果数量的情况下,将所述n个初步意图识别结果中的第j个初步意图识别结果,确定为所述无标签数据的最终意图识别结果,j为小于或等于n的整数。
在一些实施例中,如图11所示,所述装置1000,还包括:轻量模型调整模块1005。
所述轻量模型调整模块1005,用于采用所述带标签数据对所述训练后的轻量意图识别模型的参数进行调整,得到最终训练后的轻量意图识别模型。
在一些实施例中,所述n个标准意图识别模型中包括第一标准意图识别模型,所述第一标准意图识别模型用于执行分类任务;所述标准模型训练模块1001,用于:
通过所述第一标准意图识别模型提取第一样本文本的语义向量,根据所述第一样本文本的语义向量,得到所述第一样本文本的第一意图识别结果;其中,所述第一样本文本具有标注的意图识别结果,所述第一意图识别结果包括:第一类别的分值和第二类别的分值,所述第一类别对应于属于目标意图,所述第二类别对应于不属于目标意图;
根据所述第一意图识别结果和所述标注的意图识别结果,计算第一损失函数的值;
根据所述第一损失函数的值对所述第一标准意图识别模型的参数进行调整,得到训练后的第一标准意图识别模型。
在一些实施例中,所述第一损失函数为焦点损失函数;
或者,所述第一损失函数为交叉熵损失函数,且所述交叉熵损失函数中正样本的权重系数大于负样本的权重系数。
在一些实施例中,所述n个标准意图识别模型中包括第二标准意图识别模型,所述第二标准意图识别模型用于执行回归任务;所述标准模型训练模块1001,还用于:
通过所述第二标准意图识别模型提取第一样本文本的语义向量,根据所述第一样本文本的语义向量,得到所述第一样本文本的第二意图识别结果;其中,所述第一样本文本具有标注的意图识别结果,所述第二意图识别结果包括回归任务的分值,所述回归任务的分值大于第二阈值对应于属于目标意图,所述回归任务的分值小于第二阈值对应于不属于目标意图;
根据所述第二意图识别结果和所述标注的意图识别结果,计算第二损失函数的值;
根据所述第二损失函数的值对所述第二标准意图识别模型的参数进行调整,得到训练后的第二标准意图识别模型。
在一些实施例中,所述轻量模型训练模块1004,用于:
获取所述无标签数据的向量表示;
通过所述轻量意图识别模型根据所述无标签数据的向量表示,得到所述无标签数据的预测意图识别结果;
根据所述无标签数据的预测意图识别结果和所述无标签数据的最终意图识别结果,计算第三损失函数的值;
根据所述第三损失函数的值对所述轻量意图识别模型的参数进行调整,得到所述训练后的轻量意图识别模型。
在一些实施例中,所述轻量模型训练模块1004,还用于:
对所述无标签数据进行分词处理,得到至少一个词;获取所述至少一个词分别对应的词向量;对所述至少一个词分别对应的词向量进行拼接,得到所述无标签数据的向量表示;
或者,通过语义提取网络,得到所述无标签数据的语义向量,以及所述无标签数据中包含的各个字符分别对应的语义向量;将所述无标签数据的语义向量,分别与所述各个字符分别对应的语义向量进行拼接,得到所述各个字符分别对应的拼接向量;将所述各个字符分别对应的拼接向量进行整合,得到所述无标签数据的向量表示。
在一些实施例中,所述装置1000,还包括:标准模型预训练模块1006。
所述标准模型预训练模块1006,用于采用预训练语料对所述n个标准意图识别模型进行预训练,得到n个预训练后的标准意图识别模型;其中,在预训练过程中,所述标准意图识别模型执行以下任务中的至少之一:屏蔽词预测任务、下一语句预测任务、有监督的分类任务;所述带标签数据用于对所述n个预训练后的标准意图识别模型进行训练,得到所述n个训练后的标准意图识别模型。
综上所述,本申请实施例提供的技术方案,通过有标签数据对多个标准意图识别模型进行训练,再通过多个训练后的标准意图识别模型,获取无标签数据的最终意图识别结果,最后通过无标签数据和无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,使得轻量意图识别模型能够从多个训练后的标准意图识别模型中学习到先验知识,从而提高了轻量意图识别模型的意图识别准确性。
另外,由于可以借助无标签数据对轻量意图识别模型进行训练,而不受限于有标签数据,使得轻量意图识别模型的训练成本更低,以及训练后的轻量意图识别模型的泛化能力更强。同时,使得本申请实施例仅需小规模高质量样本对多个标准意图识别模型进行训练即可,从而进一步降低了模型的训练成本。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图12,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是任何具备数据计算、处理和存储功能的电子设备,该计算机设备可以实现成为图1所示方案实施环境中的模型训练设备10和模型使用设备20,具体来讲,其可以包括如下内容。
该计算机设备1200包括中央处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)1201、包括RAM(Random-Access Memory,随机存取存储器)1202和ROM(Read-Only Memory,只读存储器)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。该计算机设备1200还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System,I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
该基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中,该显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。该基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。该大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,该大容量存储设备1207可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本申请实施例,该计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在该系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,所述计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述意图识别方法。
在一些实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述意图识别方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一些实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序,所述处理器执行所述计算机程序,使得所述计算机设备执行上述意图识别方法。
需要说明的是,本申请所涉及的信息(包括但不限于对象设备信息、对象个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经对象授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的无标注数据、有标注数据、查询文本、样本文本等都是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种意图识别方法,其特征在于,所述方法包括:
采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型,所述带标签数据是指标注有意图识别结果的样本文本,所述n个标准意图识别模型具有不同的网络结构,n为大于1的整数;
采用所述n个训练后的标准意图识别模型对无标签数据分别进行处理,得到所述无标签数据的n个初步意图识别结果,所述无标签数据是指未标注有意图识别结果的样本文本;
根据所述无标签数据的n个初步意图识别结果,确定所述无标签数据的最终意图识别结果;
基于所述无标签数据以及所述无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型,所述训练后的轻量意图识别模型用于对查询文本进行处理得到所述查询文本的意图识别结果,所述轻量意图识别模型与所述标准意图识别模型不同,所述轻量意图识别模型的网络结构复杂度低于所述标准意图识别模型的网络结构复杂度。
2.根据权利要求1所述的方法,其特征在于,所述初步意图识别结果用于指示所述无标签数据是否属于目标意图;
所述根据所述无标签数据的n个初步意图识别结果,确定所述无标签数据的最终意图识别结果,包括:
根据所述无标签数据的n个初步意图识别结果分别对应的分值的平均值,确定所述无标签数据的最终意图识别结果;
其中,所述n个初步意图识别结果中的第i个初步意图识别结果对应的分值,是由所述n个标准意图识别模型中的第i个标准意图识别模型得到的,用于确定所述无标签数据是否属于所述目标意图的分值,i为小于或等于n的整数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述无标签数据的n个初步意图识别结果分别对应的分值的平均值,确定所述无标签数据的最终意图识别结果,包括:
在所述无标签数据的n个初步意图识别结果分别对应的分值的平均值大于第一阈值的情况下,确定所述无标签数据的最终意图识别结果为属于所述目标意图;
或者,
在所述无标签数据的n个初步意图识别结果分别对应的分值的平均值小于第一阈值的情况下,确定所述无标签数据的最终意图识别结果为不属于所述目标意图。
4.根据权利要求1所述的方法,其特征在于,所述初步意图识别结果用于指示所述无标签数据是否属于目标意图;
所述根据所述无标签数据的n个初步意图识别结果,确定所述无标签数据的最终意图识别结果,包括:
在所述无标签数据的n个初步意图识别结果中,属于所述目标意图的结果数量大于不属于所述目标意图的结果数量的情况下,确定所述无标签数据的最终意图识别结果为属于所述目标意图;
或者,
在所述无标签数据的n个初步意图识别结果中,属于所述目标意图的结果数量小于不属于所述目标意图的结果数量的情况下,确定所述无标签数据的最终意图识别结果为不属于所述目标意图。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述无标签数据的n个初步意图识别结果中,属于所述目标意图的结果数量等于不属于所述目标意图的结果数量的情况下,将所述n个初步意图识别结果中的第j个初步意图识别结果,确定为所述无标签数据的最终意图识别结果,j为小于或等于n的整数。
6.根据权利要求1所述的方法,其特征在于,所述基于所述无标签数据以及所述无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型之后,还包括:
采用所述带标签数据对所述训练后的轻量意图识别模型的参数进行调整,得到最终训练后的轻量意图识别模型。
7.根据权利要求1所述的方法,其特征在于,所述n个标准意图识别模型中包括第一标准意图识别模型,所述第一标准意图识别模型用于执行分类任务;
所述采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型,包括:
通过所述第一标准意图识别模型提取第一样本文本的语义向量,根据所述第一样本文本的语义向量,得到所述第一样本文本的第一意图识别结果;其中,所述第一样本文本具有标注的意图识别结果,所述第一意图识别结果包括:第一类别的分值和第二类别的分值,所述第一类别对应于属于目标意图,所述第二类别对应于不属于目标意图;
根据所述第一意图识别结果和所述标注的意图识别结果,计算第一损失函数的值;
根据所述第一损失函数的值对所述第一标准意图识别模型的参数进行调整,得到训练后的第一标准意图识别模型。
8.根据权利要求7所述的方法,其特征在于,
所述第一损失函数为焦点损失函数;
或者,
所述第一损失函数为交叉熵损失函数,且所述交叉熵损失函数中正样本的权重系数大于负样本的权重系数。
9.根据权利要求1所述的方法,其特征在于,所述n个标准意图识别模型中包括第二标准意图识别模型,所述第二标准意图识别模型用于执行回归任务;
所述采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型,包括:
通过所述第二标准意图识别模型提取第一样本文本的语义向量,根据所述第一样本文本的语义向量,得到所述第一样本文本的第二意图识别结果;其中,所述第一样本文本具有标注的意图识别结果,所述第二意图识别结果包括回归任务的分值,所述回归任务的分值大于第二阈值对应于属于目标意图,所述回归任务的分值小于第二阈值对应于不属于目标意图;
根据所述第二意图识别结果和所述标注的意图识别结果,计算第二损失函数的值;
根据所述第二损失函数的值对所述第二标准意图识别模型的参数进行调整,得到训练后的第二标准意图识别模型。
10.根据权利要求1所述的方法,其特征在于,所述基于所述无标签数据以及所述无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型,包括:
获取所述无标签数据的向量表示;
通过所述轻量意图识别模型根据所述无标签数据的向量表示,得到所述无标签数据的预测意图识别结果;
根据所述无标签数据的预测意图识别结果和所述无标签数据的最终意图识别结果,计算第三损失函数的值;
根据所述第三损失函数的值对所述轻量意图识别模型的参数进行调整,得到所述训练后的轻量意图识别模型。
11.根据权利要求10所述的方法,其特征在于,所述获取所述无标签数据的向量表示,包括:
对所述无标签数据进行分词处理,得到至少一个词;获取所述至少一个词分别对应的词向量;对所述至少一个词分别对应的词向量进行拼接,得到所述无标签数据的向量表示;
或者,
通过语义提取网络,得到所述无标签数据的语义向量,以及所述无标签数据中包含的各个字符分别对应的语义向量;将所述无标签数据的语义向量,分别与所述各个字符分别对应的语义向量进行拼接,得到所述各个字符分别对应的拼接向量;将所述各个字符分别对应的拼接向量进行整合,得到所述无标签数据的向量表示。
12.根据权利要求1所述的方法,其特征在于,所述采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型之前,还包括:
采用预训练语料对所述n个标准意图识别模型进行预训练,得到n个预训练后的标准意图识别模型;
其中,在预训练过程中,所述标准意图识别模型执行以下任务中的至少之一:屏蔽词预测任务、下一语句预测任务、有监督的分类任务;所述带标签数据用于对所述n个预训练后的标准意图识别模型进行训练,得到所述n个训练后的标准意图识别模型。
13.一种意图识别装置,其特征在于,所述装置包括:
标准模型训练模块,用于采用带标签数据对n个标准意图识别模型进行训练,得到n个训练后的标准意图识别模型,所述带标签数据是指标注有意图识别结果的样本文本,所述n个标准意图识别模型具有不同的网络结构,n为大于1的整数;
初步结果获取模块,用于采用所述n个训练后的标准意图识别模型对无标签数据分别进行处理,得到所述无标签数据的n个初步意图识别结果,所述无标签数据是指未标注有意图识别结果的样本文本;
最终结果获取模块,用于根据所述无标签数据的n个初步意图识别结果,确定所述无标签数据的最终意图识别结果;
轻量模型训练模块,用于基于所述无标签数据以及所述无标签数据的最终意图识别结果,对轻量意图识别模型进行训练,得到训练后的轻量意图识别模型,所述训练后的轻量意图识别模型用于对查询文本进行处理得到所述查询文本的意图识别结果,所述轻量意图识别模型与所述标准意图识别模型不同,所述轻量意图识别模型的网络结构复杂度低于所述标准意图识别模型的网络结构复杂度。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至12任一项所述的意图识别方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至12任一项所述的意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310208501.8A CN116050428B (zh) | 2023-03-07 | 2023-03-07 | 意图识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310208501.8A CN116050428B (zh) | 2023-03-07 | 2023-03-07 | 意图识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116050428A CN116050428A (zh) | 2023-05-02 |
CN116050428B true CN116050428B (zh) | 2023-06-09 |
Family
ID=86133321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310208501.8A Active CN116050428B (zh) | 2023-03-07 | 2023-03-07 | 意图识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050428B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114407A (zh) * | 2022-07-12 | 2022-09-27 | 平安科技(深圳)有限公司 | 意图识别方法、装置、计算机设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377899A (zh) * | 2020-03-09 | 2021-09-10 | 华为技术有限公司 | 意图识别方法及电子设备 |
CN113989549A (zh) * | 2021-10-21 | 2022-01-28 | 神思电子技术股份有限公司 | 一种基于伪标签的半监督学习图像分类优化方法及系统 |
CN114154530A (zh) * | 2021-10-26 | 2022-03-08 | 北京航空航天大学 | 一种心电时序信号房颤检测模型训练方法及装置 |
-
2023
- 2023-03-07 CN CN202310208501.8A patent/CN116050428B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114407A (zh) * | 2022-07-12 | 2022-09-27 | 平安科技(深圳)有限公司 | 意图识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116050428A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767405B (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN108334605B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN113177559B (zh) | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 | |
CN111783903A (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN111414746A (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112396091B (zh) | 社交媒体图像流行度预测方法、系统、存储介质及应用 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN113870863A (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN116050428B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
Bahrami et al. | Image concept detection in imbalanced datasets with ensemble of convolutional neural networks | |
CN114357152A (zh) | 信息处理方法、装置、计算机可读存储介质和计算机设备 | |
CN113610080A (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
WO2021159101A1 (en) | Fine-grained stochastic neural architecture search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40085720 Country of ref document: HK |