CN113673237A

CN113673237A - 模型训练、意图识别方法、装置、电子设备及存储介质

Info

Publication number: CN113673237A
Application number: CN202110809505.2A
Authority: CN
Inventors: 刘操; 龚彦韬; 袁家振; 杨帆; 蔡勋梁; 万广鲁; 牛瑞瑶
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-19

Abstract

本公开实施例提供了一种模型训练、意图识别方法、装置、电子设备及存储介质。模型训练方法包括：获取样本数据和预设的初始模型；在利用所述样本数据对预设初始模型进行训练的过程中，识别各所述样本数据的复杂程度，并调整不同复杂程度的样本数据的比例；响应于确定训练完成，得到训练完成的模型。本公开实施例中通过在模型训练过程中不断调整不同复杂程度的样本的比例，对不同复杂程度的样本赋予不同的关注程度，从而能够更有效地学习不同复杂程度的样本，提升模型的性能。

Description

模型训练、意图识别方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，特别是涉及一种模型训练、意图识别方法、装置、电子设备及存储介质。

背景技术

意图识别是通过分类的办法将用户输入的文本划分到相应的意图类别。意图识别是理解用户查询的关键部分，通常通过语义分类来预测意图类别，在搜索、任务型对话等领域有着广泛的应用场景。

意图识别模型是进行意图识别的一种常用工具。参照图1，示出了现有技术的一种意图识别模型的处理过程示意图。如图1所示，现有技术中，基于标准意图数据和用户表述得到带有意图标签的数据，对收集的数据进行随机等概率采样，训练得到意图识别模型，利用训练完成的意图识别模型对用户新表述进行预测，得到预测的意图。

但是，现有技术中在模型训练过程中，对每个样本赋予相同的关注程度，容易导致某些样本被过度学习，而某些样本无法充分学习，从而影响模型的性能。

发明内容

鉴于上述问题，本公开实施例提出一种模型训练、意图识别方法、装置、电子设备及存储介质，用以提升模型的性能。

根据本公开的实施例的第一方面，提供了一种模型训练方法，包括：

获取样本数据和预设的初始模型；

在利用所述样本数据对所述初始模型进行训练的过程中，识别各所述样本数据的复杂程度，并调整不同复杂程度的样本数据的比例；

响应于确定训练完成，得到训练完成的模型。

可选地，识别各所述样本数据的复杂程度，包括：提取各所述样本数据的特征向量；基于所述特征向量计算各所述样本数据的复杂程度。

可选地，提取各所述样本数据的特征向量，包括：针对每个样本数据，获取当前样本数据中包含的各分词的语义表示向量；将所述语义表示向量的平均值作为当前样本数据的特征向量。

可选地，基于所述特征向量计算各所述样本数据的复杂程度，包括：将属于同一类别的样本数据划分为一个样本集合；针对每个样本集合，基于当前样本集合中包含的各样本数据的特征向量，计算当前样本集合中包含的各样本数据的累积密度；基于当前样本集合中包含的各样本数据的累积密度，计算当前样本集合中包含的各样本数据的复杂程度。

可选地，基于当前样本集合中包含的各样本数据的特征向量，计算当前样本集合中包含的各样本数据的累积密度，包括：针对当前样本集合中的每两个样本数据，基于当前两个样本数据的特征向量计算当前两个样本数据之间的距离；基于所述距离确定参考距离；针对当前样本集合中包含的每个样本数据，基于当前样本数据与当前样本集合中包含的其他各样本数据之间的距离以及所述参考距离，计算当前样本数据的累积密度。

可选地，基于当前样本数据与当前样本集合中包含的其他各样本数据之间的距离以及所述参考距离，计算当前样本数据的累积密度，包括：如果当前样本数据与某个其他样本数据之间的距离小于所述参考距离，则确定当前样本数据与该其他样本数据之间的累积值为1；如果当前样本数据与某个其他样本数据之间的距离大于等于所述参考距离，则确定当前样本数据与该其他样本数据之间的累积值为0；将当前样本数据与当前样本集合中包含的其他各样本数据之间的累积值的总和，作为当前样本数据的累积密度。

可选地，基于所述距离确定参考距离，包括：对所述距离进行升序排序；选取排序后位于预设位置的距离作为所述参考距离。

可选地，基于当前样本集合中包含的各样本数据的累积密度，计算当前样本集合中包含的各样本数据的复杂程度，包括：按照预设的复杂程度种类数，基于所述累积密度将当前样本集合划分为所述复杂程度种类数的聚类簇；按照累积密度与复杂程度负相关的关系，基于所述聚类簇中包含的样本数据的累积密度，确定所述聚类簇中包含的样本数据的复杂程度。

可选地，调整不同复杂程度的样本数据的比例，包括：针对每种复杂程度，获取当前复杂程度对应的样本数据的第一数量，以及当前复杂程度对应的调度函数；所述调度函数与基于当前训练轮数确定的权重值相关；将所述调度函数与所述第一数量的乘积，作为当前复杂程度对应的样本数据的目标数量。

可选地，在调整不同复杂程度的样本数据的比例之前，还包括：获取本轮训练中复杂程度最高的样本数据的第二数量，以及前一轮训练中复杂程度最高的样本数据的第三数量，并比较所述第二数量和所述第三数量；调整不同复杂程度的样本数据的比例，包括：如果所述第二数量小于所述第三数量，则调整不同复杂程度的样本数据的比例。

根据本公开的实施例的第二方面，提供了一种意图识别方法，包括：

获取待处理数据和预先训练的意图识别模型；所述意图识别模型通过如上任一项所述的模型训练方法训练得到；

将所述待处理数据输入所述意图识别模型，得到所述意图识别模型的输出结果，所述输出结果为所述待处理数据对应的意图信息。

根据本公开的实施例的第三方面，提供了一种模型训练装置，包括：

第一获取模块，用于获取样本数据和预设的初始模型；

训练模块，用于在利用所述样本数据对所述初始模型进行训练的过程中，识别各所述样本数据的复杂程度，并调整不同复杂程度的样本数据的比例；

确定模块，用于响应于确定训练完成，得到训练完成的模型。

可选地，所述训练模块包括：提取子模块，用于提取各所述样本数据的特征向量；第一计算子模块，用于基于所述特征向量计算各所述样本数据的复杂程度。

可选地，所述提取子模块包括：向量获取单元，用于针对每个样本数据，获取当前样本数据中包含的各分词的语义表示向量；向量计算单元，用于将所述语义表示向量的平均值作为当前样本数据的特征向量。

可选地，所述第一计算子模块包括：集合划分单元，用于将属于同一类别的样本数据划分为一个样本集合；密度计算单元，用于针对每个样本集合，基于当前样本集合中包含的各样本数据的特征向量，计算当前样本集合中包含的各样本数据的累积密度；程度计算单元，用于基于当前样本集合中包含的各样本数据的累积密度，计算当前样本集合中包含的各样本数据的复杂程度。

可选地，所述密度计算单元包括：距离计算子单元，用于针对当前样本集合中的每两个样本数据，基于当前两个样本数据的特征向量计算当前两个样本数据之间的距离；参考确定子单元，用于基于所述距离确定参考距离；累积计算子单元，用于针对当前样本集合中包含的每个样本数据，基于当前样本数据与当前样本集合中包含的其他各样本数据之间的距离以及所述参考距离，计算当前样本数据的累积密度。

可选地，所述累积计算子单元，具体用于如果当前样本数据与某个其他样本数据之间的距离小于所述参考距离，则确定当前样本数据与该其他样本数据之间的累积值为1；如果当前样本数据与某个其他样本数据之间的距离大于等于所述参考距离，则确定当前样本数据与该其他样本数据之间的累积值为0；将当前样本数据与当前样本集合中包含的其他各样本数据之间的累积值的总和，作为当前样本数据的累积密度。

可选地，所述参考确定子单元，具体用于对所述距离进行升序排序；选取排序后位于预设位置的距离作为所述参考距离。

可选地，所述程度计算单元包括：样本聚类子单元，用于按照预设的复杂程度种类数，基于所述累积密度将当前样本集合划分为所述复杂程度种类数的聚类簇；程度确定子单元，用于按照累积密度与复杂程度负相关的关系，基于所述聚类簇中包含的样本数据的累积密度，确定所述聚类簇中包含的样本数据的复杂程度。

可选地，所述训练模块包括：第二计算子模块，用于针对每种复杂程度，获取当前复杂程度对应的样本数据的第一数量，以及当前复杂程度对应的调度函数；所述调度函数与基于当前训练轮数确定的权重值相关；第三计算子模块，用于将所述调度函数与所述第一数量的乘积，作为当前复杂程度对应的样本数据的目标数量。

可选地，所述装置还包括：比较模块，用于获取本轮训练中复杂程度最高的样本数据的第二数量，以及前一轮训练中复杂程度最高的样本数据的第三数量，并比较所述第二数量和所述第三数量；所述训练模块，具体用于如果所述第二数量小于所述第三数量，则调整不同复杂程度的样本数据的比例。

根据本公开的实施例的第四方面，提供了一种意图识别装置，包括：

第二获取模块，用于获取待处理数据和预先训练的意图识别模型；所述意图识别模型通过如上任一项所述的模型训练方法训练得到；

识别模块，用于将所述待处理数据输入所述意图识别模型，得到所述意图识别模型的输出结果，所述输出结果为所述待处理数据对应的意图信息。

根据本公开的实施例的第五方面，提供了一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个计算机可读存储介质；当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一项所述的模型训练方法，或者，执行如上任一项所述的意图识别方法。

根据本公开的实施例的第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行如上任一项所述的模型训练方法，或者，执行如上任一项所述的意图识别方法。

本公开实施例中，通过获取样本数据和预设的初始模型；在利用所述样本数据对所述初始模型进行训练的过程中，识别各所述样本数据的复杂程度，并调整不同复杂程度的样本数据的比例；响应于确定训练完成，得到训练完成的模型。因此，针对现有技术中由于平等对待训练样本，导致简单样本过度学习而复杂样本未能充分学习的问题，本公开实施例中通过在模型训练过程中不断调整不同复杂程度的样本的比例，对不同复杂程度的样本赋予不同的关注程度，从而能够更有效地学习不同复杂程度的样本，提升模型的性能。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例的一些附图，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术的一种意图识别模型的处理过程示意图。

图2是本公开实施例的一种模型训练方法的步骤流程图。

图3是本公开实施例的另一种模型训练方法的步骤流程图。

图4是本公开实施例的一种划分复杂程度的示意图。

图5是本公开实施例的一种复杂程度与错误率的关系的示意图。

图6是本公开实施例的一种意图识别方法的步骤流程图。

图7是本公开实施例的一种模型训练装置的结构框图。

图8是本公开实施例的一种意图识别装置的结构框图。

具体实施方式

下面将结合本公开的实施例中的附图，对本公开的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本公开的一部分实施例，而不是本公开的全部实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开实施例中的模型可以应用于各种自然语言处理(Natural LanguageProcessing，NLP)业务场景中。

可选地，NLP业务场景包括但不限于以下场景：

1、语义分析：对于给定的文本，进行分词、词性标记、命名实体识别、句法分析、语义识别、词义消歧，等等。

2、信息抽取：从给定文本中抽取目标信息，比如，时间、地点、人物、数字、日期、专有名词，等等。

3、文本挖掘：对于给定的文本，进行文本聚类、分类、摘要、情感分析、意图识别，等等。

4、机器翻译：把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同，可以包括文本翻译、语音翻译，等等。

5、信息检索：对大规模的文档进行索引，可应用于信息推荐等场景。对文档中的词汇建立索引，在查询的时候，对输入的查询信息进行分析，然后在索引里面查找匹配的候选文档，再根据排序机制把候选文档排序，输出排序得分最高的文档。

6、自动问答：对自然语言表达的问题，由问答系统给出精准的答案。需要对自然语言查询语句进行某种程度的语义分析，形成逻辑表达式，然后到知识库中查找可能的候选答案，并通过排序机制找出最佳的答案。

7、对话系统：系统通过一系列的对话，跟用户进行聊天、回答、完成某项任务，等等。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。

参照图2，示出了本公开实施例的一种模型训练方法的步骤流程图。

如图2所示，模型训练方法可以包括以下步骤：

步骤201，获取样本数据和预设的初始模型。

在实现中，可以从互联网上获取大量数据，从这些数据中选取样本数据。针对不同的NLP业务场景，样本数据可以为任意适用形式的数据。可选地，样本数据可以包括但不限于：用户在历史搜索过程中输入的查询信息(query)，用户在历史与客服沟通过程中的沟通信息，等等。其中，查询信息的形式可以包括但不限于：文本、语音，等等。沟通信息可以包括但不限于：文档、问题、答案，等等。

初始模型是指还未完成训练的模型。针对不同的NLP业务场景，初始模型可以为任意适用形式的模型。可选地，初始模型可以包括但不限于：意图识别模型、情感分类模型、命名实体识别模型、语义识别模型、阅读理解模型、翻译模型，等等。

步骤202，在利用所述样本数据对所述初始模型进行训练的过程中，识别各所述样本数据的复杂程度，并调整不同复杂程度的样本数据的比例。

在利用样本数据对初始模型进行训练的过程中，针对每个样本数据，可以识别得到该样本数据的复杂程度。然后基于各样本数据的复杂程度，调整训练过程中不同复杂程度的样本数据的比例。

考虑到复杂程度越高的样本数据在模型训练过程中的贡献性越大，因此在训练过程中，可以逐渐减少复杂程度低的样本数据，增加复杂程度高的样本数据，也即逐渐减少的样本数据的复杂程度低于逐渐增加的样本数据的复杂程度，从而充分学习复杂程度高的样本数据，并降低对复杂程度低的样本数据的过度学习。

步骤203，响应于确定训练完成，得到训练完成的模型。

针对现有技术中由于平等对待训练样本，导致简单样本过度学习而复杂样本未能充分学习的问题，本公开实施例中通过在模型训练过程中不断调整不同复杂程度的样本的比例，对不同复杂程度的样本赋予不同的关注程度，从而能够更有效地学习不同复杂程度的样本，提升模型的性能。

参照图3，示出了本公开实施例的另一种模型训练方法的步骤流程图。

如图3所示，模型训练方法可以包括以下步骤：

步骤301，获取样本数据。

可选地，在获取样本数据后，可以对样本数据进行标注，得到样本数据对应的样本标签。样本标签用于表征样本数据所属的类别。

可选地，样本标签可以为样本数据属于各预设类别的实际概率。比如，可以将样本数据所属的真实类别的实际概率设置为1，将样本数据属于其他类别的实际概率设置为0。

以意图识别模型为例，样本数据对应的样本标签可以表征该样本数据所属的意图类别。具体地，样本标签可以为该样本数据属于各预设意图类别的实际概率。可选地，意图类别可以包括但不限于：美食、外卖、打车、酒店、车票、门票、旅游、电影，等等。

步骤302，将样本数据输入初始模型。

可选地，初始模型可以包括但不限于：分词层、嵌入层、语义学习层、全连接层、概率计算层、归一化层，等等。

分词层用于对样本数据进行标记切分处理，得到样本数据中包含的各分词(也可称为token)。可选地，分词层可以选用分词模型等进行分词处理。分词模型可以包括但不限于：HMM(Hidden Markov Model，隐马尔可夫)模型，CRF(Conditional Random Field，条件随机场)模型，Jieba模型，等等。对于分词的具体过程，本公开实施例在此不再详细论述。

嵌入层用于生成样本数据中包含的各分词对应的嵌入向量。可选地，针对任意一个分词，生成该分词对应的嵌入向量的过程可以包括：获取该分词对应的字嵌入向量(Token Embedding)、分割嵌入向量(Segment Embedding)和位置嵌入向量(PositionEmbedding)；将所述字嵌入向量、分割嵌入向量和位置嵌入向量相加，得到该分词对应的嵌入向量。其中，字嵌入向量表示分词对应的词向量。分割嵌入向量用于区分两个句子。位置嵌入向量表示分词的位置信息。对于获取字嵌入向量、分割嵌入向量和位置嵌入向量的具体过程，本公开实施例在此不再详细论述。

语义学习层用于基于样本数据中包含的各分词对应的嵌入向量，生成样本数据中包含的各分词对应的语义表示向量。可选地，在语义学习层采用的模型可以包括但不限于：BERT(BidirectionalEncoder Representations from Transformer，基于转化器的双向编码器表征)模型，Roberta(A Robustly Optimized BERT，强化的BERT)模型，ELMo(Embeddings from Language Models，语言模型嵌入)模型，GPT(Generative Pre-trainedTransformer，生成式预训练转化器)模型，LSTM(Long Short-Term Memory，长短期记忆网络)模型，CNN(Convolutional Neural Network，卷积神经网络)模型，等等。

全连接层用于基于样本数据中包含的各分词对应的语义表示向量进行卷积计算。

概率计算层用于计算样本数据属于各预设类别的预测概率。可选地，在概率计算层可以采用余弦相似度、点积相似度等方式计算预测概率。

归一化层用于对预测概率进行归一化操作。可选地，在归一化层可以利用softmax函数等，将预测概率映射到(0，1)区间内。

步骤303，提取各样本数据的特征向量。

在对样本数据的复杂程度的定义中，可以通过样本数据的特征向量的累积密度来定义样本数据的复杂程度。

可选地，提取各样本数据的特征向量的过程，可以包括：针对每个样本数据，获取当前样本数据中包含的各分词的语义表示向量；将当前样本数据中包含的各分词的语义表示向量的平均值作为当前样本数据的特征向量。其中，语义表示向量可以为初始模型中的语义学习层输出的语义表示向量(比如BERT模型中最后一层输出的各分词的语义表示向量)。

为了降低计算量，在获取当前样本数据中包含的各分词的语义表示向量之后，还可以对各分词的语义表示向量进行奇异值分解(Singular Value Decomposition，SVD)操作，然后再计算奇异值分解操作后的语义表示向量的平均值。通过奇异值分解操作可以降低语义表示向量的维度，避免维度过大而导致计算量过大。

假设一个样本数据为S_k，被切分后得到的各分词为{w₁,w₂,…,w_n}，利用BERT等模型抽取各分词对应的语义表示向量为{v₁,v₂,…,v_n}，然后使用奇异值分解来减少维度，则样本数据S_k的特征向量V_k通过如下公式一计算：

其中，n表示标记切分数组的长度(也即分词的个数)，v_i表示第i个分词的语义表示向量，n为正整数。

步骤304，基于所述特征向量计算各样本数据的复杂程度。

在得到各样本数据的特征向量后，基于特征向量空间中对应的累积密度关系判断样本数据的复杂程度。特征向量分布越密集的样本数据的复杂程度越低，特征向量分布越稀疏的样本数据的复杂程度越高。

可选地，基于所述特征向量计算各所述样本数据的复杂程度的过程，可以包括以下步骤A1～A3：

步骤A1，将属于同一类别的样本数据划分为一个样本集合。

考虑到属于同一类别的样本数据的特征向量之间的相似度较大，属于不同类别的样本数据的特征向量之间的相似度较小，如果全部样本一起处理会弱化样本数据之间的相关性，效果较差，因此，本公开实施例中可以以类别进行划分，针对每个类别的样本数据分别进行处理。

可选地，由于样本数据对应的样本标签用于表征样本数据所属的类别，因此基于样本数据对应的样本标签，可以将属于同一类别的样本数据划分为一个样本集合。

步骤A2，针对每个样本集合，基于当前样本集合中包含的各样本数据的特征向量，计算当前样本集合中包含的各样本数据的累积密度。

可选地，步骤A2可以包括以下子步骤A21～A23：

子步骤A21，针对当前样本集合中的每两个样本数据，基于当前两个样本数据的特征向量计算当前两个样本数据之间的距离。

计算当前两个样本数据的特征向量之间的距离，将该距离作为当前两个样本数据之间的距离。其中，距离可以包括但不限于：曼哈顿距离、欧氏距离、马氏距离、明氏距离、切比雪夫距离、海明距离，等等。

以曼哈顿距离为例，一个样本数据的特征向量P与另一个样本数据的特征向量Q之间的曼哈顿距离d_PQ，可以通过如下公式二计算：

其中，m表示特征向量的维数，x_Pi是特征向量P中的第i维数据，x_Qi是特征向量Q中的第i维数据。

子步骤A22，基于所述距离确定参考距离。

在一种可选实施方式中，计算得到当前样本集合中每两个样本数据之间的距离后，可以对所述距离进行升序排序，选取排序后位于预设位置的距离作为参考距离。

比如，距离数组为{d₁₂,d₁₃,…,d_pq,…,d_s(s-1)}，S表示当前集合中的样本数据的总数量。选择上述数组中位于特定位置的距离，作为参考距离d_flag。

对于预设位置，可以根据实际经验选取任意适用的数值，比如预设位置可以为50％的位置，60％的位置，等等，本公开实施例对此不做限制。

在另一种可选实施方式中，计算得到当前样本集合中每两个样本数据之间的距离后，可以计算这些距离的平均值，将该平均值作为参考距离。

子步骤A23，针对当前样本集合中包含的每个样本数据，基于当前样本数据与当前样本集合中包含的其他各样本数据之间的距离以及所述参考距离，计算当前样本数据的累积密度。

对于同一类别中的每个样本数据，如果其与该类别中其他样本数据之间的距离小于参考距离时，则该样本数据的累积密度可以累加1，通过该种方式可以得到样本数据的累积密度。

可选地，基于当前样本数据与当前样本集合中包含的其他各样本数据之间的距离以及所述参考距离，计算当前样本数据的累积密度的过程，可以包括：如果当前样本数据与某个其他样本数据之间的距离小于所述参考距离，则确定当前样本数据与该其他样本数据之间的累积值为1；如果当前样本数据与某个其他样本数据之间的距离大于等于所述参考距离，则确定当前样本数据与该其他样本数据之间的累积值为0；将当前样本数据与当前样本集合中包含的其他各样本数据之间的累积值的总和，作为当前样本数据的累积密度。

比如，样本数据P的累积密度D_P，可以通过如下公式三和公式四计算：

其中，d_PQ表示样本数据P和样本数据Q之间的距离，d_flag表示参考距离，Z_PQ表示样本数据P和样本数据Q之间的累积值，S表示当前集合中的样本数据的总数量。

步骤A3，基于当前样本集合中包含的各样本数据的累积密度，计算当前样本集合中包含的各样本数据的复杂程度。

可选地，步骤A3可以包括：按照预设的复杂程度种类数，基于所述累积密度将当前样本集合划分为所述复杂程度种类数的聚类簇；按照累积密度与复杂程度负相关的关系，基于所述聚类簇中包含的样本数据的累积密度，确定所述聚类簇中包含的样本数据的复杂程度。

可选地，预先设置复杂程度种类数L。比如，L为3，则包含3种复杂程度，3种复杂程度可以为低，中，高，等等。

针对每个样本集合，根据该样本集合中包含的样本数据的累积密度，可以利用Kmeans聚类等方式，将该样本集合划分为L(复杂程度种类数)个聚类簇。累积密度接近的样本数据更有可能聚类在一起。划分之后，累积密度较高的样本数据所属的聚类簇的复杂程度较低，而累积密度较低的样本数据所属的聚类簇的复杂程度较高。

参照图4，示出了本公开实施例的一种划分复杂程度的示意图。如图4所示，预先设置复杂程度种类数为3，分别为低(Simple)，中(Medium)，高(Complex)，则将一个样本集合中的样本数据划分为3个聚类簇，各聚类簇中包含的样本数据的复杂程度依次为低(Simple)，中(Medium)，高(Complex)。

除了使用直观的可视化图来验证区分样本复杂程度的有效性，还可以使用具体数据计算样本错误率来验证。样本的错误率表示在相同复杂程度种类数下，样本被分错的数目占全体样本的数目。

参照图5，示出了本公开实施例的一种复杂程度与错误率的关系的示意图。如图5所示，在设置不同复杂程度种类数L的情况下，复杂程度低样本的错误率相比复杂程度高的样本的错误率显著更低，说明了基于样本累积密度区分样本复杂程度的有效性。

步骤305，调整不同复杂程度的样本数据的比例。

在获取了各样本数据的复杂程度后，设计动态的课程学习策略，通过改变不同复杂程度的样本数据的比例，对它们施加不同的关注度，充分利用不同复杂程度的样本数据。

可选地，调整不同复杂程度的样本数据的比例的过程，包括以下步骤B1～B2：

步骤B1，针对每种复杂程度，获取当前复杂程度对应的样本数据的第一数量，以及当前复杂程度对应的调度函数。

获取当前复杂程度对应的样本数据的数量，作为第一数量。

针对每种复杂程度，可以预先设置当前复杂程度对应的调度函数，不同复杂程度对应的调度函数不同。

可选地，调度函数可以为线性函数，调度函数与基于当前训练轮数确定的权重值相关。比如，基于当前训练轮数确定的权重值为w_t，则调度函数为f_l(w_t)，f_l(w_t)为关于w_t的线性函数。可选地，可以使用λ^(-epoch)作为权重值调整函数，也即，可以设置w_t＝λ^(-epoch)，其中epoch表示当前训练轮数，从而使得样本数据的数目在后期变化波动幅度较小。

比如，复杂程度种类数为3，分别为低，中，高，在实现中，复杂程度为低时对应的调度函数可以为f_l(w_t)＝1+a·w_t，复杂程度为中时对应的调度函数可以为f_l(w_t)＝1-b·w_t，复杂程度为高时对应的调度函数可以为f_l(w_t)＝1-c·w_t，等等。

步骤B2，将所述调度函数与所述第一数量的乘积，作为当前复杂程度对应的样本数据的目标数量。

当前复杂程度对应的样本数据的目标数量N′_l可以通过如下公式五计算：

N′_l＝f_l(w_t)N_l，l∈(1,2,…,L) 公式五

其中，l表示复杂程度，L表示最高的复杂程度，w_t表示基于当前训练轮数确定的权重值为，f_l(w_t)表示当前复杂程度对应的调度函数，N_l表示当前复杂程度对应的样本数据的第一数量。

可选地，在调整不同复杂程度的样本数据的比例之前，还可以获取本轮训练中复杂程度最高的样本数据的数量作为第二数量，以及前一轮训练中复杂程度最高的样本数据的数量作为第三数量，并比较所述第二数量和所述第三数量。如果所述第二数量小于所述第三数量，则执行调整不同复杂程度的样本数据的比例的过程。如果所述第二数量不小于所述第三数量，则保持本轮训练中不同复杂程度的样本数据的比例，与前一轮训练中不同复杂程度的样本数据的比例一致，从而进一步简化处理过程。

步骤306，获取模型结果。

针对每种复杂程度，得到当前复杂程度对应的样本数据的目标数量后，从每种复杂程度的样本数据中选取对应目标数量的样本数据，继续进行初始模型后续部分的处理，得到初始模型的输出结果。初始模型的输出结果可以为样本数据属于各预设意图类别的预测概率。

步骤307，判断是否训练完成。若否，则执行步骤308；若是，则执行步骤309。

在一种可选实施方式中，可以预设终止轮数，判断当前是否达到终止轮数。如果达到，则确定训练完成；如果未达到，则确定训练未完成。

在另一种可选实施方式中，可以基于样本数据属于各预设意图类别的预测概率，以及样本数据属于各预设意图类别的实际概率，计算本轮训练的损失函数。损失函数是用来估量模型的预测值与真实值的不一致程度。若损失函数很小，表明机器学习模型与数据真实分布很接近，则模型性能良好；若损失函数很大，表明机器学习模型与数据真实分布差别较大，则模型性能不佳。训练模型的主要任务就是使用优化方法来寻找损失函数最小化对应的模型参数。因此，在损失函数达到优化目标(比如损失函数小于一定阈值)的情况下，可以确定训练完成；在损失函数未达到优化目标的情况下，可以确定训练未完成。

其中，损失函数可以包括但不限于：交叉熵损失函数(Cross Entropy Loss)、指数损失函数(Exponential Loss)、合页损失函数(Hinge Loss)，等等。

步骤308，响应于确定训练未完成，更新初始模型的参数，并返回步骤302。

响应于确定未训练完成，可以更新初始模型的参数，继续进行训练，直到训练完成。

步骤309，响应于确定训练完成，得到训练完成的模型。

本公开实施例中，主要解决目前模型训练过程中平等地对待训练样本，导致简单样本过度学习而复杂样本未能充分学习的问题，通过引入基于特征密度判断样本复杂程度的动态课程学习方法，在训练过程中对不同复杂程度的样本进行区分，并改变其比例，逐渐减少复杂程度低的样本，增加复杂程度高的样本，从而更好的学习不同样本，达到更优的性能。

可选地，上述提到的模型可以为意图识别模型。意图识别，是指针对用户输入的查询信息，确定输入该查询信息所希望达到的意图。示例性的，比如，输入的查询信息为“今天的天气如何？”，此时所表达的是查询天气，那么查询天气就是这个输入查询信息的意图。

参照图6，示出了本公开实施例的一种意图识别方法的步骤流程图。

如图6所示，意图识别方法可以包括以下步骤：

步骤601，获取待处理数据和预先训练的意图识别模型。

其中，意图识别模型通过如上任一实施例所述的模型训练方法训练得到。

步骤602，将所述待处理数据输入所述意图识别模型，得到所述意图识别模型的输出结果，所述输出结果为所述待处理数据对应的意图信息。

将所述待处理数据输入所述意图识别模型，经过意图识别模型内部对待处理数据的处理，意图识别模型可以输出待处理数据对应的意图信息。其中，意图信息可以为待处理数据属于各预设意图类别的预测概率。

参照图7，示出了本公开实施例的一种模型训练装置的结构框图。

如图7所示，模型训练装置可以包括以下模块：

第一获取模块701，用于获取样本数据和预设的初始模型；

训练模块702，用于在利用所述样本数据对所述初始模型进行训练的过程中，识别各所述样本数据的复杂程度，并调整不同复杂程度的样本数据的比例；

确定模块703，用于响应于确定训练完成，得到训练完成的模型。

可选地，所述训练模块702包括：提取子模块，用于提取各所述样本数据的特征向量；第一计算子模块，用于基于所述特征向量计算各所述样本数据的复杂程度。

可选地，所述训练模块702包括：第二计算子模块，用于针对每种复杂程度，获取当前复杂程度对应的样本数据的第一数量，以及当前复杂程度对应的调度函数；所述调度函数与基于当前训练轮数确定的权重值相关；第三计算子模块，用于将所述调度函数与所述第一数量的乘积，作为当前复杂程度对应的样本数据的目标数量。

可选地，所述装置还包括：比较模块，用于获取本轮训练中复杂程度最高的样本数据的第二数量，以及前一轮训练中复杂程度最高的样本数据的第三数量，并比较所述第二数量和所述第三数量；所述训练模块702，具体用于如果所述第二数量小于所述第三数量，则调整不同复杂程度的样本数据的比例。

参照图8，示出了本公开实施例的一种意图识别置的结构框图。

如图8所示，意图识别装置可以包括以下模块：

第二获取模块801，用于获取待处理数据和预先训练的意图识别模型；所述意图识别模型通过如上任一实施例所述的模型训练方法训练得到；

识别模块802，用于将所述待处理数据输入所述意图识别模型，得到所述意图识别模型的输出结果，所述输出结果为所述待处理数据对应的意图信息。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本公开的实施例中，还提供了一种电子设备。该电子设备可以包括一个或多个处理器，以及其上存储有指令的一个或多个计算机可读存储介质，指令例如应用程序。当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一实施例的模型训练方法，或者，执行如上任一实施例的意图识别方法。

在本公开的实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序可由电子设备的处理器执行，当所述计算机程序被处理器执行时，使得所述处理器执行如上任一实施例的模型训练方法，或者，执行如上任一实施例的意图识别方法。

上述提到的处理器可以是通用处理器，可以包括但不限于：中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)、数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，等等。

上述提到的计算机可读存储介质可以包括但不限于：只读存储器(Read OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、光盘只读储存器(Compact Disc ReadOnly Memory，简称CD-ROM)、电可擦可编程只读存储器(ElectronicErasable Programmable ReadOnly Memory，简称EEPROM)、硬盘、软盘、闪存，等等。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开的实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的实施例的内容，并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

本公开的实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本公开的实施例的具体实施方式，但本公开的实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的实施例的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取样本数据和预设的初始模型；

响应于确定训练完成，得到训练完成的模型。

2.根据权利要求1所述的方法，其特征在于，识别各所述样本数据的复杂程度，包括：

提取各所述样本数据的特征向量；

基于所述特征向量计算各所述样本数据的复杂程度。

3.根据权利要求2所述的方法，其特征在于，提取各所述样本数据的特征向量，包括：

针对每个样本数据，获取当前样本数据中包含的各分词的语义表示向量；

将所述语义表示向量的平均值作为当前样本数据的特征向量。

4.根据权利要求2所述的方法，其特征在于，基于所述特征向量计算各所述样本数据的复杂程度，包括：

将属于同一类别的样本数据划分为一个样本集合；

针对每个样本集合，基于当前样本集合中包含的各样本数据的特征向量，计算当前样本集合中包含的各样本数据的累积密度；

基于当前样本集合中包含的各样本数据的累积密度，计算当前样本集合中包含的各样本数据的复杂程度。

5.根据权利要求4所述的方法，其特征在于，基于当前样本集合中包含的各样本数据的特征向量，计算当前样本集合中包含的各样本数据的累积密度，包括：

针对当前样本集合中的每两个样本数据，基于当前两个样本数据的特征向量计算当前两个样本数据之间的距离；

基于所述距离确定参考距离；

针对当前样本集合中包含的每个样本数据，基于当前样本数据与当前样本集合中包含的其他各样本数据之间的距离以及所述参考距离，计算当前样本数据的累积密度。

6.根据权利要求5所述的方法，其特征在于，基于当前样本数据与当前样本集合中包含的其他各样本数据之间的距离以及所述参考距离，计算当前样本数据的累积密度，包括：

如果当前样本数据与某个其他样本数据之间的距离小于所述参考距离，则确定当前样本数据与该其他样本数据之间的累积值为1；

如果当前样本数据与某个其他样本数据之间的距离大于等于所述参考距离，则确定当前样本数据与该其他样本数据之间的累积值为0；

将当前样本数据与当前样本集合中包含的其他各样本数据之间的累积值的总和，作为当前样本数据的累积密度。

7.根据权利要求5所述的方法，其特征在于，基于所述距离确定参考距离，包括：

对所述距离进行升序排序；

选取排序后位于预设位置的距离作为所述参考距离。

8.根据权利要求4所述的方法，其特征在于，基于当前样本集合中包含的各样本数据的累积密度，计算当前样本集合中包含的各样本数据的复杂程度，包括：

按照预设的复杂程度种类数，基于所述累积密度将当前样本集合划分为所述复杂程度种类数的聚类簇；

按照累积密度与复杂程度负相关的关系，基于所述聚类簇中包含的样本数据的累积密度，确定所述聚类簇中包含的样本数据的复杂程度。

9.根据权利要求1所述的方法，其特征在于，调整不同复杂程度的样本数据的比例，包括：

针对每种复杂程度，获取当前复杂程度对应的样本数据的第一数量，以及当前复杂程度对应的调度函数；所述调度函数与基于当前训练轮数确定的权重值相关；

将所述调度函数与所述第一数量的乘积，作为当前复杂程度对应的样本数据的目标数量。

10.根据权利要求1所述的方法，其特征在于，

在调整不同复杂程度的样本数据的比例之前，还包括：获取本轮训练中复杂程度最高的样本数据的第二数量，以及前一轮训练中复杂程度最高的样本数据的第三数量，并比较所述第二数量和所述第三数量；

调整不同复杂程度的样本数据的比例，包括：如果所述第二数量小于所述第三数量，则调整不同复杂程度的样本数据的比例。

11.一种意图识别方法，其特征在于，包括：

获取待处理数据和预先训练的意图识别模型；所述意图识别模型通过如权利要求1-10中任一项所述的模型训练方法训练得到；

12.一种模型训练装置，其特征在于，包括：

第一获取模块，用于获取样本数据和预设的初始模型；

13.一种意图识别装置，其特征在于，包括：

第二获取模块，用于获取待处理数据和预先训练的意图识别模型；所述意图识别模型通过如权利要求1-10中任一项所述的模型训练方法训练得到；

14.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质；

当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如权利要求1至10任一项所述的模型训练方法，或者，执行如权利要求11所述的意图识别方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10任一项所述的模型训练方法，或者，执行如权利要求11所述的意图识别方法。