CN111198938A

CN111198938A - 一种样本数据处理方法、样本数据处理装置及电子设备

Info

Publication number: CN111198938A
Application number: CN201911370094.0A
Authority: CN
Inventors: 黄日星; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-26
Anticipated expiration: 2039-12-26
Also published as: CN111198938B

Abstract

本申请公开了一种样本数据处理方法、装置、电子设备及计算机可读存储介质，该方法包括：获取用于训练预设的意图识别模型的所有样本数据；根据每一样本数据的意图标签及语言模型标签，确定每一样本数据所属的意图类别及语言模型类别；统计各个意图类别下的样本数据的数量，各个语言模型类别下的样本数据的数量以及所有样本数据的总数量，并基于此计算每一意图类别的意图权重及每一语言模型类别的语言模型权重；基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定意图识别模型的损失函数，并以此对意图识别模型进行训练。通过本申请方案，可减小大数据量样本数据与小数据量样本数据对意图识别模型的影响差异，保障训练的有效性。

Description

一种样本数据处理方法、样本数据处理装置及电子设备

技术领域

本申请属于数据处理技术领域，尤其涉及一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质。

背景技术

现在已经有越来越多的智能设备具备有人机交互功能。上述人机交互功能的基础是智能设备需要先理解用户的意图，因而，智能设备的意图识别的能力一定程度上影响到了智能设备的人机交互功能的优劣。当前，在对智能设备所采用的意图识别模型进行训练时，经常会出现不同的意图类别所对应的训练语料的数量差异较大的情况，例如，某些常见意图类别有成百上千条训练语料，而某些非常见意图类别只有寥寥几条训练语料，其中的差异可能会有成百上千倍，这会出现因样本数据不平衡而导致训练失败的情况。

发明内容

有鉴于此，本申请提供了一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质，可减小大数据量样本数据与小数据量样本数据对意图识别模型的影响差异，保障训练的有效性。

本申请的第一方面提供了一种样本数据处理方法，包括：

获取用于训练预设的意图识别模型的所有样本数据；

根据每一样本数据的意图标签及语言模型标签，确定每一样本数据所属的意图类别及语言模型类别，其中，上述语言模型类别包括正样本及负样本；

统计各个意图类别下的样本数据的数量，以及统计各个语言模型类别下的样本数据的数量，以及统计所有样本数据的总数量；

根据每一意图类别下的样本数据的数量及上述总数量，计算每一意图类别的意图权重；

根据每一语言模型类别下的样本数据的数量及上述总数量，计算每一语言模型类别的语言模型权重；

基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定上述意图识别模型的损失函数；

基于上述损失函数对上述意图识别模型进行训练。

本申请的第二方面提供了一种样本数数据处理装置，包括：

获取单元，用于获取用于训练预设的意图识别模型的所有样本数据；

类别确定单元，用于根据每一样本数据的意图标签及语言模型标签，确定每一样本数据所属的意图类别及语言模型类别，其中，上述语言模型类别包括正样本及负样本；

统计单元，用于统计各个意图类别下的样本数据的数量，以及统计各个语言模型类别下的样本数据的数量，以及统计所有样本数据的总数量；

第一计算单元，用于根据每一意图类别下的样本数据的数量及上述总数量，计算每一意图类别的意图权重；

第二计算单元，用于根据每一语言模型类别下的样本数据的数量及上述总数量，计算每一语言模型类别的语言模型权重；

损失函数确定单元，用于基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定上述意图识别模型的损失函数；

训练单元，用于基于上述损失函数对上述意图识别模型进行训练。

本申请的第三方面提供了一种电子设备，上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

本申请的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

本申请的第五方面提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

由上可见，在本申请方案中，在获取到用于训练预设的意图识别模型的所有样本数据后，先根据每一样本数据的意图标签及语言模型标签，确定每一样本数据所属的意图类别及语言模型类别，其中，上述语言模型类别包括正样本及负样本，然后统计各个意图类别下的样本数据的数量，以及统计各个语言模型类别下的样本数据的数量，以及统计所有样本数据的总数量，接下来根据每一意图类别下的样本数据的数量及上述总数量，计算每一意图类别的意图权重，并根据每一语言模型类别下的样本数据的数量及上述总数量，计算每一语言模型类别的语言模型权重，再基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定上述意图识别模型的损失函数，最后基于上述损失函数对上述意图识别模型进行训练。通过本申请方案，根据样本数据中各个类别的样本数据的数据量来设定意图识别模型的损失函数，可减小大数据量样本数据与小数据量样本数据对意图识别模型的影响差异，保障训练的有效性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的样本数据处理方法的一种实现流程示意图；

图2是本申请实施例提供的样本数据处理方法中，意图识别模型的训练过程示意图；

图3是本申请实施例提供的样本数据处理装置的结构框图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请上述的技术方案，下面通过具体实施例来进行说明。

实施例一

下面对本申请实施例提供的一种样本数据处理方法进行描述，请参阅图1，本申请实施例中的样本数据处理方法包括：

步骤101，获取用于训练预设的意图识别模型的所有样本数据；

在本申请实施例中，电子设备可以在预设的意图识别模型的训练阶段，先获取用于训练该意图识别模型的所有的样本数据。可选地，上述样本数据可以是语料人员所设置的数据，或者，也可以是语料人员先设定若干条样本数据后，由开发人员触发电子设备基于这些已设定好的样本数据继续生成其它样本数据，此处不对上述样本数据的来源作出限定。具体地，上述样本数据的形式为模板语料，上述模板语料指的是对一自然语句中所包含的实体词语进行了词槽替换后所得到的语料。例如，自然语句“我要听五月天的阿宝专辑”，可以对“五月天”进行词槽替换，得到语料“我要听singer的阿宝专辑”，则该语料即可作为模板语料。需要注意的是，在进行替换时，有两种极端的替换方式，一种是所有实体词语都不替换，也即被替换的实体词语的数量为零；另一种是所有实体词语(在不重叠的情况下)都被替换。也即，上述自然语句“我要听五月天的阿宝专辑”自身也可作为一模板语料。当然，也可以基于该自然语料生成其它模板语料，例如“我要听五月天的singer专辑”、“我要听singer的album专辑等”。

步骤102，根据每一样本数据的意图标签及语言模型标签，确定每一样本数据所属的意图类别及语言模型类别；

在本申请实施例中，每一样本数据预先已设定好两个标签，分别为意图标签(intent_label)及语言模型标签(language model label，LM_label)，其中，上述意图标签用于指示一样本数据所属的意图类别，上述语言模型标签用于指示上述样本数据是否存在语句错误。以下通过表1所给出的具体实例解释上述两种标签：

样本数据	意图标签intent_label	语言模型标签LM_label
			我想听city	听音乐	错误
我想听成都	听音乐	错误
			我想听song	听音乐	正确
我想去成都	去城市	错误
			我要去city	去城市	正确
我要去song	去城市	错误
			你好，朋友	闲聊	正确
你好，song	闲聊	错误

表1

上述例子中，由于“成都”这一实体词语有可能指的是“城市city”，也可能指的是“歌曲song”，因而根据“我想听成都”这一自然语句可得到的模板语料有“我想听city”、“我想听成都”及“我想听song”这三条。语料人员可知基于这三个模板语料所来源的自然语句，其意图为“听音乐”，因而，语料人员可将这三个模板语料的意图标签均设定为“听音乐”；而这三个模板语料中，语料人员将进一步再选定唯一的一个模板语料为正确的语料，因而，只有“我想听song”这一模板语料的语言模型标签被设定为“正确”，而其它模板语料，也即模板语料“我想听成都”以及“我想听city”的语言模型标签将被设定为“错误”：同样的，基于自然语句“我想去成都”，可得到三个模板语料“我想去成都”、“我想去city”及“我想去song”，这三个模板语料的意图标签将被设定为“去城市”；且这三个模板语料中，只有一个模板语料的语言模型标签将被设定为“正确”，因而，只有“我想去city”这一模板语料的语言模型标签被设定为“正确”，而其它模板语料，也即模板语料“我想去成都”以及“我想去song”的语言模型标签将被设定为“错误”。

进一步地，上述意图标签种还有“闲聊”标签，指的是没有正确回答的语料，也可看作为不带有目的性的语料。可以认为，样本数据的意图有两大类，一类为“闲聊”，“闲聊”意图的意图标签为固定值，例如，可以为0；另一类为“非闲聊”，“非闲聊”意图下又有多个具体的意图类别，例如“听音乐”、“去城市”及“问天气”等，而每一意图类别又分别与唯一的一个意图标签对应。

需要注意的是，上述各个样本数据的意图标签与语言模型标签都是预先设定好的，也即，上述意图标签及语言模型标签是每一样本数据的固有属性。通过获取样本数据的意图标签及语言模型标签，即可确定各个样本数据所属的意图类别及语言模型类别。其中，语言模型类别包括正样本及负样本。具体地，当一个样本数据的语言模型标签为“正确”时，该样本数据的语言模型类别即可被确定为正样本；而当一个样本数据的语言模型标签为“错误”时，该样本数据的语言模型类别即可被确定为负样本。

步骤103，统计各个意图类别下的样本数据的数量，以及统计各个语言模型类别下的样本数据的数量，以及统计所有样本数据的总数量；

在本申请实施例中，可以认为语言模型类别及意图类别是评估样本数据的类别的两个不同评估维度。因而，可以基于意图类别这一评估维度，统计各个意图类别下的样本数据的数量，例如，统计属于“闲聊”这一意图类别的样本数据的数量、统计属于“听音乐”这一意图类别的样本数据的数量、统计属于“去城市”这一意图类别的样本数据的数量及统计属于“问天气”这一意图类别的样本数据的数量等，由于意图类别的种类较多，此处不作穷举。同时，还可以基于语言模型这一评估维度，统计各个语言模型类别下的样本数据的数量，具体为统计正样本的数量及负样本的数量，也即统计语言模型标签为“正确”的样本数据的数量以及语言模型标签为“错误”的样本数据的数量。并且，还需要统计所有样本数据的总数量。

步骤104，根据每一意图类别下的样本数据的数量及上述总数量，计算每一意图类别的意图权重；

步骤105，根据每一语言模型类别下的样本数据的数量及上述总数量，计算每一语言模型类别的语言模型权重；

在本申请实施例中，可通过赋予权重的方式来实现样本数据的平衡，其权重赋予的主要思想为：当某一类别的样本数量较多时，该类别的样本数据参与训练的次数也就越多，因而需要减小其在训练过程中对意图识别模型的影响，具体为减少该类别的样本数据的权重；反之，当某一类别的样本数量较少时，该类别的样本数据参与训练的次数也就越少，因而需要增大其在训练过程中对意图识别模型的影响，具体为增加该类别的样本数据的权重。基于此，可在意图类别这一评估维度及语言模型类别这一评估维度分别计算总数量与各个类别的样本数据的数量的比值，以此来计算每一类别所对应的权重，也即，基于每一意图类别下的样本数据的数量及上述总数量，计算每一意图类别的意图权重；以及基于每一语言模型类别下的样本数据的数量及上述总数量，计算每一语言模型类别的语言模型权重。

步骤106，基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定上述意图识别模型的损失函数；

在本申请实施例中，在得到了各个意图类别的意图权重及各个语言模型类别的语言模型权重后，可以构建该意图识别模型的损失函数。具体地，该损失函数由两部分组成，分别为意图损失部分及语言模型损失部分，且该损失函数采用交叉熵。

步骤107，基于上述损失函数对上述意图识别模型进行训练。

在本申请实施例中，可参阅图2，图2示出了意图识别模型在训练时的工作流程：意图识别模型可基于循环神经网络(Recurrent Neural Network，RNN)或卷积神经网络(Convolutional Neural Networks,CNN)而构建；在训练过程中，样本数据输入至意图识别模型后，意图识别模型将输出该样本数据所属的意图类别与语言模型类别，这两个类别是意图识别模型所预测而得的，因而，此处为了与样本数据自身的标签所指示的类别相区分，将意图识别模型输出的结果记为预测意图类别及预测语言模型类别，将样本数据的固有属性(也即标签所指示的类别)记为原意图类别及原语言模型类别；随后，基于步骤106所确定的损失函数，计算意图识别模型的损失，并基于该损失更新意图识别模型的模型参数，等待下一次训练。进一步地，可基于上述损失函数对上述意图识别模型进行训练直至达到预设的训练停止条件为止。具体地，上述训练停止条件与当前训练轮次有关，也与意图识别模型的损失(包括意图损失及语言模型损失)有关，此处不作限定。

可选地，上述步骤104具体包括：

A1、计算上述总数量与目标意图类别下的样本数据的数量的比值，作为上述目标意图类别的数量比值，其中，上述目标意图类别为任一意图类别；

A2、将上述目标意图类别的数量比值的平方根确定为上述目标意图类别的意图权重。

在本申请实施例中，假设共有N个意图类别，则可通过如下公式计算每一意图类别的意图权重：

其中，num_sample为样本数据的总数量；intent_sample(i)为第i个意图类别下的样本数据的数量；intent_weight(i)为第i个意图类别的意图权重；i的取值范围为小于N+1的正整数。通过上式可以看出，当一个意图类别下的样本数据的数量越多时，该意图类别所对应的意图权重越小；反之，当一个意图类别下的样本数据的数量越少时，该意图类别所对应的意图权重越大。

可选地，上述步骤105具体包括：

B1、计算上述总数量与上述正样本下的样本数据的数量的比值，作为上述正样本的数量比值；

B2、计算上述总数量与上述负样本下的样本数据的数量的比值，作为上述负样本的数量比值；

B3、将上述正样本的数量比值的平方根确定为上述正样本的语言模型权重，将上述负样本的数量比值的平方根确定为上述负样本的语言模型权重。

在本申请实施例中，由于只有两种语言模型类别(分别为正样本及负样本)，因而，可通过如下公式计算这两种语言模型类别的语言模型权重：

其中，num_sample与之前的公式一样，仍为样本数据的总数量；pos_sample为正样本的数量；neg_sample为负样本的数量；LM_weight(pos)为正样本的语言模型权重；LM_weight(neg)为负样本的语言模型权重。通过上式可以看出，当一个语言模型类别下的样本数据的数量越多时，该语言模型类别所对应的语言模型权重越小；反之，当一个语言模型类别下的样本数据的数量越少时，该语言模型类别所对应的语言模型权重越大。

可选地，上述步骤106具体包括：

C1、分别获取各个意图类别的损失以及各个语言模型类别的损失；

C2、基于各个意图类别所对应的意图权重，对各个意图类别的损失进行加权求和计算，得到上述意图识别模型的意图损失；

C3、基于各个语言模型类别所对应的语言模型权重，对各个语言模型类别的损失进行加权求和计算，得到上述意图识别模型的语言模型损失；

C4、基于上述意图损失及上述语言模型损失构建上述意图识别模型的损失函数。

在本申请实施例中，意图识别模型的损失函数由两部分组成，分别为意图损失及语言模型损失。具体地，意图损失的计算公式如下所示：

其中，intent_loss为意图识别模型的意图损失；N为意图类别的数量；intent_weight(i)为第i个意图类别的意图权重；intent_loss(i)为第i个意图类别的损失。

具体地，语言模型损失的计算公式如下所示：

LM_loss＝LM_weight(neg)*LM_loss(neg)+LM_weight(pos)*LM_loss(pos)

其中，LM_loss为意图识别模型的语言模型损失；LM_weight(pos)为正样本的语言模型权重；LM_weight(neg)为负样本的语言模型权重；LM_loss(pos)为正样本的损失；LM_loss(neg)为负样本的损失。

可选地，步骤107具体包括：

D1、获取上述意图识别模型的当前训练轮次；

D2、当上述当前训练轮次已达到预设的训练轮次阈值时，检测上述意图损失是否小于预设的意图损失阈值，且上述语言模型损失是否小于预设的语言模型损失阈值；或者，检测上述意图损失及上述语言模型损失是否均已达到收敛；

D3、若上述意图损失小于预设的意图损失阈值，且上述语言模型损失小于预设的语言模型损失阈值；或者，上述意图损失及上述语言模型损失均已达到收敛，则停止对上述意图识别模型的训练。

在本申请实施例中，上述意图识别模型的训练停止条件由当前训练轮次、意图损失及语言模型损失共同决定。这其中，当前训练轮次是训练停止的基础，可由研发人员预先设定一训练轮次阈值，只有在当前训练轮次已达到预设的训练轮次阈值时，才需要基于意图损失及语言模型损失进行进一步判定。

在基于意图损失及语言模型损失进行进一步判定时，可以是由研发人员预先设定一意图损失阈值及一语言模型损失阈值，并判定本轮训练后所得到的意图损失是否小于上述意图损失阈值，以及本轮训练后所得到的语言模型损失是否小于上述语言模型损失阈值；若本轮所得意图损失小于上述意图损失阈值，且本轮所得语言模型损失小于上述语言模型损失阈值，则认为满足停止条件，此时可以停止对上述意图识别模型的训练。

或者，在基于意图损失及语言模型损失进行进一步判定时，也可以是检测上述意图损失及上述语言模型损失是否均已达到收敛；也即，检测上述意图损失和上述语言模型损失是否均已连续M轮没有继续减少，其中，上述M为预设的正整数；若上述意图损失及上述语言模型损失均已连续M轮没有继续减少，则认为上述意图损失及上述语言模型损失均已达到收敛，也即已经满足训练停止条件，此时可以停止对上述意图识别模型的训练。

可选地，除了通过调整各个意图类别所对应的意图权重以及调整各个语言模型类别所对应的语言模型权重来调节意图识别模型的损失函数，以此实现样本数据的数据平衡外，还可以通过负例采样的方式实现样本数据的数据平衡，则上述样本数据处理方法还包括：

在每一轮次的训练开始前，对上述负样本进行采样；

相应地，上述基于上述损失函数对上述意图识别模型进行训练，包括：

将所有正样本以及当前轮次的训练开始前采样所得的负样本作为上述意图识别模型当前轮次的训练的输入数据，并基于上述损失函数对上述意图识别模型进行训练。

在本申请实施例中，一条自然语句可以生成多条样本数据，然而这其中只有一条样本数据的语言模型标签会被设置为“正确”；也即，一条自然语句所生成的X条样本数据中，只有1条样本数据是正样本，另外的X-1条样本数据均为负样本。可见，本申请实施例中的正负样本的数量差异较大，二者之间及其不平衡。基于此，负样本往往过于冗余，可以适当的削减负样本的数量。因而，在训练过程中，针对负样本，每一训练轮次开始前，都先对负样本进行采样，并只将采样所得的负样本输入至意图识别模型中进行训练；而针对正样本，由于正样本的数据量较小，因而，所有的正样本都会被输入至意图识别模型中进行训练。也即，每一轮次输入至意图识别模型中的数据为所有的正样本及采样所得的负样本。具体地，可先计算上述负样本的数量与上述正样本的数量的样本比值，随后计算上述样本比值的平方根与上述正样本的数量的乘积，将乘积的结果作为取样数量，接着基于上述取样数量，在上述负样本中进行随机采样。例如，样本数据中，正样本共有20000条，负例有700000条。那么，负样本在每个轮次中对负样本的取样数量为

约120000条；也即，在每一轮训练时，对于负样本来说，只投入约120000条负样本对意图识别模型进行训练，而不是投入所有的(700000条)负样本进行训练，这极大的提高了训练效率，避免了负样本的冗余。

由上可见，通过本申请方案，可通过调整各个意图类别所对应的意图权重以及调整各个语言模型类别所对应的语言模型权重来调节意图识别模型的损失函数，以此实现训练过程中样本数据的数据平衡；并且，考虑到负样本的冗余较多，还可以对负样本进行随机采样，避免每轮对意图识别模型进行训练时都投入所有的负样本，大大减轻了负样本的冗余，提升了意图识别模型的训练效率，进一步保障了训练过程中样本数据的数据平衡。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例二

本申请实施例二提供了一种样本数据处理装置，上述样本数据处理装置可集成于电子设备中，如图3所示，本申请实施例中的样本数据处理装置300包括：

获取单元301，用于获取用于训练预设的意图识别模型的所有样本数据；

类别确定单元302，用于根据每一样本数据的意图标签及语言模型标签，确定每一样本数据所属的意图类别及语言模型类别，其中，上述语言模型类别包括正样本及负样本；

统计单元303，用于统计各个意图类别下的样本数据的数量，以及统计各个语言模型类别下的样本数据的数量，以及统计所有样本数据的总数量；

第一计算单元304，用于根据每一意图类别下的样本数据的数量及上述总数量，计算每一意图类别的意图权重；

第二计算单元305，用于根据每一语言模型类别下的样本数据的数量及上述总数量，计算每一语言模型类别的语言模型权重；

损失函数确定单元306，用于基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定上述意图识别模型的损失函数；

训练单元307，用于基于上述损失函数对上述意图识别模型进行训练。

可选地，上述第一计算单元304，包括：

第一数量比值计算子单元，用于计算上述总数量与目标意图类别下的样本数据的数量的比值，作为上述目标意图类别的数量比值，其中，上述目标意图类别为任一意图类别；

意图权重确定子单元，用于将上述目标意图类别的数量比值的平方根确定为上述目标意图类别的意图权重。

可选地，上述第二计算单元305，包括：

第二数量比值计算子单元，用于上述总数量计算与上述正样本下的样本数据的数量的比值，作为上述正样本的数量比值，计算上述总数量与上述负样本下的样本数据的数量的比值，作为上述负样本的数量比值；

语言模型权重确定子单元，用于将上述正样本的数量比值的平方根确定为上述正样本的语言模型权重，将上述负样本的数量比值的平方根确定为上述负样本的语言模型权重。

可选地，上述损失函数确定单元306，包括：

损失获取子单元，用于分别获取各个意图类别的损失以及各个语言模型类别的损失；

意图损失计算子单元，用于基于各个意图类别所对应的意图权重，对各个意图类别的损失进行加权求和计算，得到上述意图识别模型的意图损失；

语言模型损失计算子单元，用于基于各个语言模型类别所对应的语言模型权重，对各个语言模型类别的损失进行加权求和计算，得到上述意图识别模型的语言模型损失；

损失函数构建子单元，用于基于上述意图损失及上述语言模型损失构建上述意图识别模型的损失函数。

可选地，上述训练单元307，包括：

当前训练轮次获取子单元，用于获取上述意图识别模型的当前训练轮次；

损失检测子单元，用于当上述当前训练轮次已达到预设的训练轮次阈值时，检测上述意图损失是否小于预设的意图损失阈值，且上述语言模型损失是否小于预设的语言模型损失阈值；或者，检测上述意图损失及上述语言模型损失是否均已达到收敛；

训练控制子单元，用于若上述意图损失小于预设的意图损失阈值，且上述语言模型损失小于预设的语言模型损失阈值；或者，上述意图损失及上述语言模型损失均已达到收敛，则停止对上述意图识别模型的训练。

可选地，上述样本数据处理装置300还包括：

采样单元，用于在每一轮次的训练开始前，对上述负样本进行采样；

相应地，上述训练单元307，具体用于将所有正样本以及当前轮次的训练开始前采样所得的负样本作为上述意图识别模型当前轮次的训练的输入数据，并基于上述损失函数对上述意图识别模型进行训练。

可选地，上述采样单元，包括：

样本比值计算子单元，用于计算上述负样本的数量与上述正样本的数量的样本比值；

取样数量计算子单元，用于计算上述样本比值的平方根与上述正样本的数量的乘积，得到取样数量；

随机采样子单元，用于基于上述取样数量，在上述负样本中进行随机采样。

由上可见，通过本申请方案，样本数据处理装置可通过调整各个意图类别所对应的意图权重以及调整各个语言模型类别所对应的语言模型权重来调节意图识别模型的损失函数，以此实现训练过程中样本数据的数据平衡；并且，考虑到负样本的冗余较多，还可以对负样本进行随机采样，避免每轮对意图识别模型进行训练时都投入所有的负样本，大大减轻了负样本的冗余，提升了意图识别模型的训练效率，进一步保障了训练过程中样本数据的数据平衡。

实施例三

本申请实施例三提供了一种电子设备，请参阅图4，本申请实施例中的电子设备4包括：存储器401，一个或多个处理器402(图4中仅示出一个)及存储在存储器401上并可在处理器上运行的计算机程序。其中：存储器401用于存储软件程序以及模块，处理器402通过运行存储在存储器401的软件程序以及单元，从而执行各种功能应用以及数据处理，以获取上述预设事件对应的资源。具体地，处理器402通过运行存储在存储器401的上述计算机程序时实现以下步骤：

获取用于训练预设的意图识别模型的所有样本数据；

基于上述损失函数对上述意图识别模型进行训练。

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，上述根据每一意图类别下的样本数据的数量及上述总数量，计算每一意图类别的意图权重，包括：

计算上述总数量与目标意图类别下的样本数据的数量的比值，作为上述目标意图类别的数量比值，其中，上述目标意图类别为任一意图类别；

将上述目标意图类别的数量比值的平方根确定为上述目标意图类别的意图权重。

在上述第一种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述根据每一语言模型类别下的样本数据的数量及上述总数量，计算每一语言模型类别的语言模型权重，包括：

计算上述总数量与上述正样本下的样本数据的数量的比值，作为上述正样本的数量比值；

计算上述总数量与上述负样本下的样本数据的数量的比值，作为上述负样本的数量比值；

将上述正样本的数量比值的平方根确定为上述正样本的语言模型权重，将上述负样本的数量比值的平方根确定为上述负样本的语言模型权重。

在上述一种可能的实施方式作为基础而提供的第四种可能的实施方式中，上述基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定上述意图识别模型的损失函数，包括：

分别获取各个意图类别的损失以及各个语言模型类别的损失；

基于各个意图类别所对应的意图权重，对各个意图类别的损失进行加权求和计算，得到上述意图识别模型的意图损失；

基于各个语言模型类别所对应的语言模型权重，对各个语言模型类别的损失进行加权求和计算，得到上述意图识别模型的语言模型损失；

基于上述意图损失及上述语言模型损失构建上述意图识别模型的损失函数。

在上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述基于上述损失函数对上述意图识别模型进行训练，包括：

获取上述意图识别模型的当前训练轮次；

当上述当前训练轮次已达到预设的训练轮次阈值时，检测上述意图损失是否小于预设的意图损失阈值，且上述语言模型损失是否小于预设的语言模型损失阈值；或者，检测上述意图损失及上述语言模型损失是否均已达到收敛；

若上述意图损失小于预设的意图损失阈值，且上述语言模型损失小于预设的语言模型损失阈值；或者，上述意图损失及上述语言模型损失均已达到收敛，则停止对上述意图识别模型的训练。

在上述第一种可能的实施方式作为基础，或者上述第二种可能的实施方式作为基础，或者上述第三种可能的实施方式作为基础，或者上述第四种可能的实施方式作为基础，或者上述第五种可能的实施方式作为基础而提供的第六种可能的实施方式中，处理器402通过运行存储在存储器401的上述计算机程序时还实现以下步骤：

在每一轮次的训练开始前，对上述负样本进行采样；

在上述第六种可能的实施方式作为基础而提供的第七种可能的实施方式中，上述对上述负样本进行采样，包括：

计算上述负样本的数量与上述正样本的数量的样本比值；

计算上述样本比值的平方根与上述正样本的数量的乘积，得到取样数量；

基于上述取样数量，在上述负样本中进行随机采样。

应当理解，在本申请实施例中，所称处理器402可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Arra4，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器401可以包括只读存储器和随机存取存储器，并向处理器402提供指令和数据。存储器401的一部分或全部还可以包括非易失性随机存取存储器。例如，存储器401还可以存储设备类别的信息。

由上可见，通过本申请方案，电子设备可通过调整各个意图类别所对应的意图权重以及调整各个语言模型类别所对应的语言模型权重来调节意图识别模型的损失函数，以此实现训练过程中样本数据的数据平衡；并且，考虑到负样本的冗余较多，还可以对负样本进行随机采样，避免每轮对意图识别模型进行训练时都投入所有的负样本，大大减轻了负样本的冗余，提升了意图识别模型的训练效率，进一步保障了训练过程中样本数据的数据平衡。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关联的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种样本数据处理方法，其特征在于，包括：

获取用于训练预设的意图识别模型的所有样本数据；

根据每一样本数据的意图标签及语言模型标签，确定每一样本数据所属的意图类别及语言模型类别，其中，所述语言模型类别包括正样本及负样本；

根据每一意图类别下的样本数据的数量及所述总数量，计算每一意图类别的意图权重；

根据每一语言模型类别下的样本数据的数量及所述总数量，计算每一语言模型类别的语言模型权重；

基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定所述意图识别模型的损失函数；

基于所述损失函数对所述意图识别模型进行训练。

2.如权利要求1所述的样本数据处理方法，其特征在于，所述根据每一意图类别下的样本数据的数量及所述总数量，计算每一意图类别的意图权重，包括：

计算所述总数量与目标意图类别下的样本数据的数量的比值，作为所述目标意图类别的数量比值，其中，所述目标意图类别为任一意图类别；

将所述目标意图类别的数量比值的平方根确定为所述目标意图类别的意图权重。

3.如权利要求1所述的样本数据处理方法，其特征在于，所述根据每一语言模型类别下的样本数据的数量及所述总数量，计算每一语言模型类别的语言模型权重，包括：

计算所述总数量与所述正样本下的样本数据的数量的比值，作为所述正样本的数量比值；

计算所述总数量与所述负样本下的样本数据的数量的比值，作为所述负样本的数量比值；

将所述正样本的数量比值的平方根确定为所述正样本的语言模型权重，将所述负样本的数量比值的平方根确定为所述负样本的语言模型权重。

4.如权利要求1所述的样本数据处理方法，其特征在于，所述基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定所述意图识别模型的损失函数，包括：

基于各个意图类别所对应的意图权重，对各个意图类别的损失进行加权求和计算，得到所述意图识别模型的意图损失；

基于各个语言模型类别所对应的语言模型权重，对各个语言模型类别的损失进行加权求和计算，得到所述意图识别模型的语言模型损失；

基于所述意图损失及所述语言模型损失构建所述意图识别模型的损失函数。

5.如权利要求4所述的样本数据处理方法，其特征在于，所述基于所述损失函数对所述意图识别模型进行训练，包括：

获取所述意图识别模型的当前训练轮次；

当所述当前训练轮次已达到预设的训练轮次阈值时，检测所述意图损失是否小于预设的意图损失阈值，且所述语言模型损失是否小于预设的语言模型损失阈值；或者，检测所述意图损失及所述语言模型损失是否均已达到收敛；

若所述意图损失小于预设的意图损失阈值，且所述语言模型损失小于预设的语言模型损失阈值；或者，所述意图损失及所述语言模型损失均已达到收敛，则停止对所述意图识别模型的训练。

6.如权利要求1至5任一项所述的样本数据处理方法，其特征在于，所述样本数据处理方法还包括：

在每一轮次的训练开始前，对所述负样本进行采样；

相应地，所述基于所述损失函数对所述意图识别模型进行训练，包括：

将所有正样本以及当前轮次的训练开始前采样所得的负样本作为所述意图识别模型当前轮次的训练的输入数据，并基于所述损失函数对所述意图识别模型进行训练。

7.如权利要求6所述的样本数据处理方法，其特征在于，所述对所述负样本进行采样，包括：

计算所述负样本的数量与所述正样本的数量的样本比值；

计算所述样本比值的平方根与所述正样本的数量的乘积，得到取样数量；

基于所述取样数量，在所述负样本中进行随机采样。

8.一种样本数据处理装置，其特征在于，包括：

类别确定单元，用于根据每一样本数据的意图标签及语言模型标签，确定每一样本数据所属的意图类别及语言模型类别，其中，所述语言模型类别包括正样本及负样本；

第一计算单元，用于根据每一意图类别下的样本数据的数量及所述总数量，计算每一意图类别的意图权重；

第二计算单元，用于根据每一语言模型类别下的样本数据的数量及所述总数量，计算每一语言模型类别的语言模型权重；

损失函数确定单元，用于基于各个意图类别的意图权重及各个语言模型类别的语言模型权重，确定所述意图识别模型的损失函数；

训练单元，用于基于所述损失函数对所述意图识别模型进行训练。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。