CN114610851A

CN114610851A - 意图识别模型的训练方法、意图识别方法、设备及介质

Info

Publication number: CN114610851A
Application number: CN202210325806.2A
Authority: CN
Inventors: 陈丹; 李震震; 顾志松
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-10

Abstract

本申请涉及一种意图识别模型的训练方法、意图识别方法、设备及介质，属于计算机技术领域，该方法包括：获取第一样本数据；获取各个意图类别对应的样本频率；将第一文本数据输入预先创建的初始网络模型，得到类别预测信息；将类别预测信息、意图类别和样本频率输入分类损失函数，得到分类损失值；基于分类损失值更新初始网络模型的模型参数，以训练得到意图识别模型，可以解决训练得到的意图识别模型对某些意图类别识别的准确性较低的问题；由于将样本频率加入到分类损失函数中，从而计算出带有该分布情况的先验知识的损失值，可以使初始网络模型对不同意图类别的特征的学习程度相同，因此，可以提高训练得到的意图识别模型对意图识别的准确性。

Description

意图识别模型的训练方法、意图识别方法、设备及介质

【技术领域】

本申请涉及一种意图识别模型的训练方法、意图识别方法、设备及介质，属于计算机技术领域。

【背景技术】

随着自然语言处理(Natural Language Processing,NLP)技术的不断发展和计算机运算能力的快速提升，自然语言处理技术被广泛应用于情感分析、意图识别、机器翻译等场景中。

以意图识别为例，传统的意图识别方法，包括：先使用样本数据对初始网络模型进行训练，得到意图识别模型。在进行意图识别的过程中，将目标文本数据输入意图识别模型，得到目标文本数据对应的意图类别。

然而，在使用样本数据对初始网络模型训练的过程中，样本数据通常是随机获取的，这就会导致初始网络模型对不同意图类别的特征的学习程度不同的问题，从而导致训练得到的意图识别模型对某些意图类别识别的准确性较低的问题。

【发明内容】

本申请提供了意图识别模型的训练方法、意图识别方法、设备及介质，可以解决初始网络模型对不同意图类别的特征的学习程度不同，从而导致训练得到的意图识别模型对某些意图类别识别的准确性较低的问题。本申请提供如下技术方案：

第一方面，提供一种意图识别模型的训练方法，所述意图识别模型用于识别文本数据的意图，所述方法包括：

获取第一样本数据，所述第一样本数据包括第一文本数据和所述第一文本数据对应的意图类别；

获取各个意图类别对应的样本频率；

将所述第一文本数据输入预先创建的初始网络模型，得到类别预测信息；

将所述类别预测信息、所述意图类别和所述样本频率输入分类损失函数，得到分类损失值；

基于所述分类损失值更新所述初始网络模型的模型参数，以训练得到所述意图识别模型。

可选地，所述获取各个意图类别对应的样本频率，包括：

对于每个目标意图类别，确定所述第一样本数据中意图类别为所述目标意图类别的第一文本数据的类别样本数量；

将所述类别样本数量与所述第一样本数据中第一文本数据的总样本数量的比值，确定为所述样本频率。

可选地，所述将所述类别预测信息、所述意图类别和所述样本频率输入分类损失函数，得到分类损失值，通过下式表示：

其中，L为所述分类损失值；y为所述意图类别；p(y)为意图类别y对应的样本频率；f_y(x；θ)为所述类别预测信息指示的所述第一文本数据为y类别的概率；f_i(x；θ)为所述类别预测信息指示的所述第一文本数据为第i个意图类别的概率；p(i)为第i个意图类别对应的样本频率；K为意图类别的个数；x为所述第一文本数据；θ所述初始网络模型的模型参数。

可选地，所述初始网络模型包括嵌入层；所述嵌入层用于将文本数据中的字转换成字向量；

所述将所述第一文本数据输入预先创建的初始网络模型，得到类别预测信息之前，还包括：

获取使用第二文本数据预训练得到的嵌入层，所述预训练后的嵌入层的权重参数矩阵与通用字汇表中的初始字对应；所述通用字汇表包括所述第二文本数据中的字；所述第二文本数据与第一文本数据不同；

基于所述权重参数矩阵初始化行业字汇表中的行业字对应的权重参数；所述行业字汇表包括所述第一文本数据中的字，所述行业字汇表与所述通用字汇表部分相同；

基于所述行业字对应的权重参数建立所述初始网络模型。

可选地，所述基于所述权重参数矩阵初始化行业字汇表中的行业字对应的权重参数，包括：

获取在所述行业字汇表中，且不在所述通用字汇表中的新增字；

对于每个新增字，确定所述新增字在预设的通用语料库中的第一频数；

对于每个初始字，确定所述初始字在所述通用语料库中的第二频数；

确定与所述第一频数差距最小的第二频数对应的目标初始字；

基于所述目标初始字对应的权重参数初始化所述新增字对应的权重参数。

可选地，所述方法还包括：

确定预设的行业语料库中每个字出现的第三频数；

将所述第三频数大于预设频数阈值的字加入所述行业字汇表。

可选地，所述将所述第一文本数据输入预先创建的初始网络模型，包括：

基于所述第一文本数据、所述意图类别和意图类别的数量，获取各个意图类别的第一文本数据对应的样本权重；

按照所述样本权重从所述第一样本数据中抽取所述第一文本数据输入预先创建的初始网络模型。

可选地，所述初始网络模型包括至少一个隐藏层，所述初始网络模型中隐藏层的数量少于BERT模型中隐藏层的数量。

第二方面，提供一种意图识别方法，所述方法包括：

获取目标文本数据；

将所述目标文本数据输入预先训练的意图识别模型，得到所述目标文本数据对应的意图类别；

其中，所述意图识别模型是基于分类损失值更新预先创建的初始网络模型的模型参数得到的；所述分类损失值是将类别预测信息、第一文本数据对应的意图类别和所述意图类别对应的样本频率输入分类损失函数得到的；所述类别预测信息是将所述第一文本数据输入所述初始网络模型得到的。

可选地，将所述目标文本数据输入预先训练的意图识别模型，包括：

通过数据生成器将所述目标文本数据输入预先训练的意图识别模型。

第三方面，提供一种电子设备，所述设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面提供的意图识别模型的训练方法，或者，第二方面提供的意图识别方法。

第四方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序被处理器执行时用于实现第一方面提供的意图识别模型的训练方法，或者，第二方面提供的意图识别方法。

本申请的有益效果至少包括：通过获取第一样本数据，第一样本数据包括第一文本数据和第一文本数据对应的意图类别；获取各个意图类别对应的样本频率；将第一文本数据输入预先创建的初始网络模型，得到类别预测信息；将类别预测信息、意图类别和样本频率输入分类损失函数，得到分类损失值；基于分类损失值更新初始网络模型的模型参数，以训练得到意图识别模型，可以解决初始网络模型对不同意图类别的特征的学习程度不同，从而导致训练得到的意图识别模型对某些意图类别识别的准确性较低的问题；由于将不同意图类别对应的样本频率输入分类损失函数后，可以使得分类损失函数融合第一样本数据中不同意图类别的数据的分布情况，从而计算出带有该分布情况的先验知识的损失值，可以从损失函数的层面使初始网络模型对不同意图类别的特征的学习程度相同，因此，可以提高训练得到的意图识别模型对意图识别的准确性。

另外，由于样本频率是基于第一样本数据计算得到的，因此，基于样本频率确定出的各个意图类别的第一文本数据的分布情况与第一样本数据中各个类别的第一文本数据的分布情况相同，从而可以提高确定出的分类损失值的准确性，提高训练得到的意图识别模型对意图类别识别的准确性。

另外，由于基于权重参数矩阵初始化行业字汇表中的行业字对应的权重参数，并基于行业字对应的权重参数建立初始网络模型，因此，可以充分利用预训练的嵌入层中的权重参数，缩短对初始网络模型进行训练的时间，提高训练得到的意图识别模型对意图类别识别的准确性。

另外，由于字频差距最小的字的权重参数也相近，因此，基于字频差距最小的初始字的权重参数初始化新增字的权重参数，可以使新增字的权重参数的初始化值与实际值尽可能接近，因此，可以减小初始网络模型的训练难度，提升初始网络模型的训练速度。

另外，由于将行业语料库中第三频数大于预设频数阈值的字加入行业字汇表，因此，可以使行业字汇表包括行业特征字，从而使得在初始网络模型能学习到行业特征字的特征，可以提升训练得到的意图识别模型对意图识别的准确性。

另外，由于按照样本权重从第一样本数据中抽取第一文本数据输入预先创建的初始网络模型，因此，可以从数据层面均衡不同意图类别的样本数据，加快模型训练速度，提高训练得到的意图识别模型对意图类别识别的准确性。

另外，由于初始网络模型中隐藏层的数量少于BERT模型中隐藏层的数量，而意图识别模型的模型结构与初始网络模型的模型结构相同，因此，可以提升使用训练得到的意图识别模型进行意图识别的速度。

另外，由于数据生成器可以在一次调用的过程中不断的维护变量并返回结果，因此，可以减少意图识别过程中意图识别模型加载和卸载的次数，提升意图识别的速度。

另外，由于使用数据生成器输入目标数据可以实现一边输入一边进行意图识别，不用将所有目标文本数据一次性就生成一个很大的集合，因此，可以节约中央处理器的存储空间。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的意图识别模型的训练方法的流程图；

图2是本申请一个实施例提供的BERT模型和RoBERTa-tiny-clue模型的模型结构示意图；

图3是本申请一个实施例提供的意图识别方法的流程图；

图4是本申请一个实施例提供的意图识别模型的训练装置的框图；

图5是本申请一个实施例提供的意图识别方法的框图；

图6本申请一个实施例提供的电子设备的框图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请实施例涉及的若干名词进行介绍。

意图识别：是从一个文本中抽取它所表达的意图，即，识别文本数据的意图。意图识别主要包括两个步骤，首先，要划分不同的意图类别，然后，通过自然语言处理(NLP)的分类算法对文本的意图进行分类，得到文本对应的意图类别。

BERT模型：一类大型的预训练语言模型，用于对自然语言处理。这类预训练模型通常计算开销大，内存占用也大，因此很难在一些资源紧张的设备上执行。

TinyBERT模型：对使用BERT-base模型作为教师teacher模型，通过知识蒸馏(transformer)的方法得到小型学生student TinyBERT模型，TinyBERT的模型大小仅为BERT的13.3％，12层隐藏层数量减少到4层，推理速度为BERT的9.4倍。TinyBERT模型包括：ALBERT-tiny模型和RoBERTa-tiny-clue。

ALBERT-tiny模型：预训练时使用30G的大规模训练语料，采用Google字汇表，通过将12层隐藏层数量减少到4层隐藏层，隐藏层维度(hiden_size)等向量维度大幅减少，模型大小为BERT模型的1/25，训练和推理速度相较于BERT模型提升约10倍，精度略有下降。

RoBERTa-tiny-clue模型：预训练时使用100G的大规模训练语料，采用clue_vocab字汇表，通过将12层隐藏层数量减少到4层隐藏层，隐藏层维度(hiden_size)等向量维度大幅减少，模型大小为BERT模型的1/10，训练和推理速度相较于BERT模型提升7-8倍。

可选地，本申请以各个实施例提供的意图识别模型的训练方法和意图识别方法用于电子设备中为例进行说明，该电子设备为终端或服务器，终端可以为视频会议终端、手机、计算机、平板电脑、扫描仪、电子眼等，本实施例不对电子设备的类型作限定。

图1是本申请一个实施例提供的意图识别模型的训练方法的流程图，意图识别模型用于识别文本数据的意图，该方法至少包括以下几个步骤：

步骤101，获取第一样本数据。

其中，第一样本数据包括第一文本数据和第一文本数据对应的意图类别。

可选地，第一文本数据可以为中文，或者也可以为英文，在第一文本数据为中文时，第一文本数据可以为简体中文，或者，也可以为繁体中文，本实施例不对第一文本数据的类型作限定。

在一个示例中，第一文本数据为一个，或者两个以上的字组成的语句。

可选地，第一样本数据为特定领域的样本数据。比如：第一样本数据为视频会议领域的样本数据，此时，第一样本数据是在视频会议过程中采集的。

本实施例中，获取第一样本数据，包括：获取第一文本数据；对第一文本数据的意图进行标注，得到第一文本数据对应的意图类别。

可选地，获取第一文本数据，包括：获取音频数据；将音频数据转换为文本数据。

在一个示例中，音频数据是在视频会议的过程中采集的。

在实际实现时，也可以采取其它方式获取第一文本数据，比如：对书籍进行扫描，得到第一文本数据，或者，输入组件输入的第一文本数据，本实施例不对获取第一文本数据的方式作限定。

可选地，对第一文本数据的意图进行标注的方式可以是人工标注，或者，也可以是机器标注，本实施例不对第一文本数据的意图进行标注的方式作限定。

可选地，意图类别的划分方式包括但不限于以下几种方式：

第一种，基于控制的内容进行划分，此时，意图类别可以划分为音频控制、视频控制、会议流程控制等类别。具体地，音频控制可以划分为调大音量、调小音量、静音、打开麦克风权限、关闭麦克风权限等类别；视频控制可以划分为切换摄像头、开启摄像头权限、关闭摄像头权限等类别；会议流程控制可以划分为结束会议、开始会议、加入会议等类别。

比如：第一文本数据为“请调大音量”或“声音太小了，我听不清”，此时，第一文本数据对应的意图类别为“调大音量”。

又比如：第一文本数据为“请关闭摄像头”、“我的发言结束了”或“会议结束”，第一文本数据对应的意图类别为“关闭摄像头”。

第二种，基于查询的内容进行划分，此时，意图类别可以划分为查询与会人员、查询会议议程、查询会议持续时间、查询会议结束时间等。

比如：第一文本数据为“查询与会人员”、“大家都到齐了吗”或者“还有谁没来的吗”，此时，第一文本数据对应的意图类别为“查询与会人员”。

又比如：第一文本数据为“会议几点结束”、“我等下还有个会”，此时，第一文本数据对应的意图类别为“查询会议结束时间”。

在其它实施例中，也可以采取其它方式划分意图类别，比如：根据不同的领域划分意图类别，本实施例不对意图类别的划分方式和意图类别的类型作限定。

步骤102，获取各个意图类别对应的样本频率。

可选地，样本频率可以是基于第一样本数据计算得到的，或者，也可以是预先设定的经验值，本实施例不对获取意图类别对应的样本频率的方式作限定。

在一个示例中，样本频率是基于第一样本数据计算得到的，此时，获取各个意图类别对应的样本频率，包括：对于每个目标意图类别，确定第一样本数据中意图类别为目标意图类别的第一文本数据的类别样本数量；将类别样本数量与第一样本数据中第一文本数据的总样本数量的比值，确定为样本频率。

可选地，将类别样本数量与第一样本数据中第一文本数据的总样本数量的比值，确定为样本频率，通过下式表示：

其中，p(y)为意图类别y对应的样本频率；n_y为意图类别y的类别样本数量；N为第一样本数据中第一文本数据的总样本数量。

由于样本频率是基于第一样本数据计算得到的，因此，基于样本频率确定出的各个意图类别的第一文本数据的分布情况与第一样本数据中各个类别的第一文本数据的分布情况相同，从而可以提高确定出的分类损失值的准确性，提高训练得到的意图识别模型对意图类别识别的准确性。

步骤103，将第一文本数据输入预先创建的初始网络模型，得到类别预测信息。

本实施例中，初始网络模型包括嵌入层(Embedding)、隐藏层(ENCODER)和分类层。其中，嵌入层用于将文本数据中的字转换成字向量，得到文本数据对应的第一字向量；隐藏层用于对第一字向量进行增强，得到文本数据对应的第二字向量；分类层用于基于第二字向量对文本数据进行分类，得到文本数据对应的意图类别。

可选地，初始网络模型可以是基于TinyBERT模型构建的，或者，也可以是基于BERT模型构建的，或者，还可以是基于其它自然语言处理模型构建的，本实施例不对初始网络模型的类型作限定。

在一个示例中，初始网络模型包括至少一个隐藏层，初始网络模型中隐藏层的数量少于BERT模型中隐藏层的数量。

由于初始网络模型中隐藏层的数量少于BERT模型中隐藏层的数量，而意图识别模型的模型结构与初始网络模型的模型结构相同，因此，可以提升使用训练得到的意图识别模型进行意图识别的速度。

本实施例中，以初始网络模型基于RoBERTa-tiny-clue模型构建为例进行说明。

参考图2，图2a为BERT模型的模型结构示意图，图2b为RoBERTa-tiny-clue模型的模型结构示意图。根据图2a可知，BERT模型包括一个嵌入层和十二个隐藏层，而根据图2b可知，RoBERTa-tiny-clue模型包括一个嵌入层和四个隐藏层，RoBERTa-tiny-clue模型的隐藏层数量仅为BERT模型的隐藏层数量的三分之一，因此，基于RoBERTa-tiny-clue模型建立初始网络模型可以提升使用训练得到的意图识别模型进行意图识别的速度。

由于在使用样本数据对初始网络模型训练的过程中，输入模型的样本数据通常是随机获取的，这就会导致在使用样本数据对初始网络模型进行训练的过程中训练速度慢，训练得到的意图识别模型对某些意图类别识别的准确性较低的问题。

基于上述技术问题，本实施例中，将第一文本数据输入预先创建的初始网络模型，包括：基于第一文本数据、意图类别和意图类别的数量，获取各个意图类别的第一文本数据对应的样本权重；按照样本权重从第一样本数据中抽取第一文本数据输入预先创建的初始网络模型。

由于按照样本权重从第一样本数据中抽取第一文本数据输入预先创建的初始网络模型，因此，可以从数据层面均衡不同意图类别的样本数据，加快模型训练速度，提高训练得到的意图识别模型对意图类别识别的准确性。

另外，由于在计算样本权重的过程中考虑了意图类别的数量对样本权重的影响，可以避免不同在意图类别的数量较多的情况下，样本数量较少的意图类别的第一文本数据对应的样本权重与其它意图类别的第一文本数据对应的样本权重差异过大的问题，因此，可以平衡各个意图类别的第一样本数据的样本权重差异，提高训练得到的意图识别模型对意图类别识别的准确性。

可选地，基于第一文本数据、意图类别和意图类别的数量，获取各个意图类别的第一文本数据对应的样本权重，包括：对于每个目标意图类别，确定第一样本数据中意图类别为目标意图类别的第一文本数据的类别样本数量；确定样本数据中第一文本数据的总样本数量；基于总样本数量、类别样本数量和意图类别的数量获取各个意图类别的第一文本数据的样本权重。

在一个示例中，目标意图类别的第一文本数据的样本权重与目标意图类别对应的类别样本数量呈负相关，即，目标意图类别对应的类别样本数量越大，目标意图类别的第一文本数据的样本权重就越小。

相应地，第一文本数据被抽到的概率与样本权重呈正相关，即，样本权重越大，第一文本数据被抽到的概率就越大。

可选地，基于总样本数量、类别样本数量和意图类别的数量获取各个意图类别的第一文本数据的样本权重，通过下式表示：

其中，w(y)为意图类别y的第一文本数据的样本权重；n_y为意图类别y的类别样本数量；N为总样本数量；M为意图类别的数量。

在实际实现时，也可以采用其它方式计算各个意图类别的第一样本数据的样本权重，比如：将类别样本数量与总样本数量的比值确定为样本权重，本实施例不对样本权重的计算方式作限定。

在第一样本数量较少的情况下，为了提升训练得到的意图识别模型对意图类别识别的准确性，可以使用与第一文本数据不同的第二文本数据对嵌入层和隐藏层进行预训练，然后使用预训练后的嵌入层和隐藏层建立初始网络模型，这样，由于预训练后的嵌入层和隐藏层已经预先学习了将文字转换为词向量、并对词向量进行增强的知识，因此，在对初始网络模型进行训练的过程中，只需要微调嵌入层和隐藏层的参数，并训练分类层的参数即可，这样可以减小初始网络模型的训练难度，减少训练过程需要的第一样本的数量，同时还可以加快初始网络模型的训练速度，提升训练得到的意图识别模型对意图类别识别的准确性。

可选地，预训练后的嵌入层的权重参数矩阵与通用字汇表中的初始字对应，通用字汇表包括第二文本数据中的字。

可选地，权重参数矩阵为词向量矩阵，用于存储不同字对应的词向量。

在一个示例中，字对应的权重参数为词向量矩阵中字对应的词向量。

由于第二文本数据与第一文本数据不同，而行业字汇表包括第一文本数据中的字，因此，行业字汇表与通用字汇表部分相同，即行业字汇表中包括通用字汇表中没有的字，这会就导致预训练得到的嵌入层的权重参数矩阵与初始网络模型所需要的嵌入层的权重参数矩阵不完全相同，因此，在基于预训练的嵌入层建立初始网络模型的过程中需要对预训练的嵌入层的权重参数矩阵进行初始化。

然而，传统的初始化方式是将权重参数矩阵进行随机初始化，这就会导致了意图识别模型的训练速度慢，训练得到的意图识别模型对意图类别识别的准确性低的问题。

基于上述技术问题，本实施例中，将第一文本数据输入预先创建的初始网络模型，得到类别预测信息之前，还包括：获取使用第二文本数据预训练得到的嵌入层，预训练后的嵌入层的权重参数矩阵与通用字汇表中的初始字对应；基于权重参数矩阵初始化行业字汇表中的行业字对应的权重参数；基于行业字对应的权重参数建立初始网络模型。

由于基于权重参数矩阵初始化行业字汇表中的行业字对应的权重参数，并基于行业字对应的权重参数建立初始网络模型，因此，可以充分利用预训练的嵌入层中的权重参数，缩短对初始网络模型进行训练的时间，提高训练得到的意图识别模型对意图类别识别的准确性。

在一个示例中，基于权重参数矩阵初始化行业字汇表中的行业字对应的权重参数，包括：获取在行业字汇表中，且不在通用字汇表中的新增字；对于每个新增字，确定新增字在预设的通用语料库中的第一频数；对于每个初始字，确定初始字在通用语料库中的第二频数；确定与第一频数差距最小的第二频数对应的目标初始字；基于目标初始字对应的权重参数初始化新增字对应的权重参数。

由于字频差距最小的字的权重参数也相近，因此，基于字频差距最小的初始字的权重参数初始化新增字的权重参数，可以使新增字的权重参数的初始化值与实际值尽可能接近，因此，可以减小初始网络模型的训练难度，提升初始网络模型的训练速度。

可选地，通用语料数据库可以为预先收集的语料库，或者，也可以为开源语料库，本实施例不对通用语料库的类型作限定。

可选地，第一频数与第二频数的差距的确定方式包括点不限于以下几种：

第一种，基于第一频数与第二频数差值的绝对值确定第一频数与第二频数差距，此时，第二频数与第一频数的差值的绝对值最小越小，第二频数与第一频数的差距越小。

第二种，基于第一频数与第二频数之间的比值确定第一频数与第二频数差距，第二频数与第一频数之间的比值越近于1，第二频数与第一频数的差距越小。

在其它实施例中，第一频数与第二频数的差距也可以根据其它方式确定，本实施例不对第一频数与第二频数的差距的确定方式作限定。

在一个实例中，通用语料库为百度百科语料库，通用词汇表为RoBERTa-tiny-clue的Vocabulary字典，新增字与目标初始的对应关系如下：

表1新增字与目标字的对应关系

新增字	第一频数	目标初始字	第二频数
				V	18716	##bee	18713
I	18361	##data	18320
				R	16181	淅	16182
G	9165	##iki	9157
				H	7010	祢	7011
余	478	銭	478
				赟	396	##skip	419
乾	232	##onsored	214
				覆	222	##onsored	214
锴	206	③	209
				謝	22	##α	19
興	21	##α	19

在另一个示例中，基于权重参数矩阵初始化行业字汇表中的行业字对应的权重参数，包括：获取在行业字汇表中，且不再通用字汇表中的新增字；对于每个新增字，确定新增字与各个初始字的字音和/或字意的相似度；确定与新增字字音和/或字意相似度最大的目标初始字；基于目标初始字对应的权重参数初始化新增字对应的权重参数。

由于字音和/或字意相似度大的字的权重参数相近，因此，基于与新增字字音和/或字意相似度最大的初始字的权重参数初始化新增字的权重参数，可以使新增字的权重参数的初始化值与实际值尽可能接近，因此，可以减小初始网络模型的训练难度，提升初始网络模型的训练速度。

可选地，基于目标初始字的权重参数初始化新增字的权重参数，包括：将目标初始字的权重参数确定为新增字的权重参数。

可选地，行业字汇表的获取方式，包括：确定预设的行业语料库中每个字出现的第三频数；将第三频数大于预设频数阈值的字加入行业字汇表。

可选地，预设频率阈值预先存储在电子设备中。

可选地，行业语料库中的语料包括行业特征语料，比如：视频会议行业的行业语料库可以包括视频会议中的对话信息。行业语料数据库可以为预先收集的行业语料库，或者，也可以为开源行业语料库，本实施例不对行业语料库的类型作限定。

可选地，不同行业的行业语料库相同或不同。

在一个示例中，第一样本数据包括行业语料库中的数据。

由于将行业语料库中第三频数大于预设频数阈值的字加入行业字汇表，因此，可以使行业字汇表包括行业特征字，从而使得初始网络模型能学习到行业特征字的特征，可以提升训练得到的意图识别模型对意图识别的准确性。

在一个示例中，行业字汇表是对通用字汇表进行修改得到的。

可选地，对通用字汇表进行修改得到行业字汇表的方式包括但不限于以下几种：

第一种，在通用字汇表的基础上加入新的字。比如：将不在通用字汇表中的行业领域的常用字加入通用字汇表，得到行业字汇表。

相应地，基于行业字对应的权重参数建立初始网络模型，包括：获取在行业字汇表中，且不在通用字汇表中的新增字；将新增字对应的权重参数加入预训练后的嵌入层的权重参数矩阵中，得到初始网络模型的嵌入层的权重参数矩阵，以使得初始网络模型的嵌入层的权重参数矩阵与行业字汇表中的行业字对应。

可选地，将不在通用字汇表中的行业领域的常用字加入行业字汇表，包括：确定预设的行业语料库中每个字出现的第三频数；将第三频数大于预设频数阈值且不在通用字汇表中的字加入通用字汇表，得到行业字汇表。

第二种，将通用字汇表中的部分初始字删除。比如：将通用字汇表中的行业领域非必要字删除，得到行业字汇表。

相应地，基于行业字对应的权重参数建立初始网络模型，包括：获取在通用字汇表中，且不在行业字汇表中的删除字；将删除字对应的权重参数从预训练后的嵌入层的权重参数矩阵中删除，或者，将删除字对应的权重参数设置为未知(UnKnown)，得到初始网络模型的嵌入层的权重参数矩阵，以使得初始网络模型的嵌入层的权重参数矩阵与行业字汇表中的行业字对应。

在一个示例中，意图识别模型只需要对中英文进行识别，此时，将通用字汇表中的行业领域非必要字从行业字汇表中删除，包括：将通用字汇表中的除中文字和英文字以外的其它语言以及其它语言符号(Other Tokens)删除，得到行业字汇表。

在一个实例中，不同字汇表的字汇分布情况如表二所示。其中，第一通用字汇中的字汇为21128个，包括韩文、日文等中文无用字汇。第二通用字汇表针对中文文本对第一通用字汇表进行了改进，以使得第二通用字汇表更贴合中文通用文本的需要，并降低了字汇的个数。行业字汇表是在第二通用字汇表的基础上结合历年存储的行业问答文本中出现频数大于预设频数阈值的字汇总得到的，并且，考虑到意图识别的过程中使用的是中文和英文文本，标点符号是去除的，因此，去除了第二通用字汇表中的其它语言符号，增加了针对视频会议场景的字，从而得到行业字汇表。行业字汇表中的字汇数量为7345，约为第一通用字汇表中字汇数量的三分之一，因此，可以提高对初始网络模型进行训练的速度，同时，也可以提升使用训练得到的意图识别模型进行意图识别的速度。

表二不同字汇表的字汇分布情况

步骤104，将类别预测信息、意图类别和样本频率输入分类损失函数，得到分类损失值。

在一个示例中，分类损失函数为softmax损失函数，此时，将类别预测信息、意图类别和样本频率输入分类损失函数，得到分类损失值，通过下式表示：

其中，L为分类损失值；y为意图类别；p(y)为意图类别y对应的样本频率；f_y(x；θ)为类别预测信息指示的第一文本数据为y类别的概率；f_i(x；θ)为类别预测信息指示的第一文本数据为第i个意图类别的概率；p(i)为第i个意图类别对应的样本频率；K为意图类别的个数；x为第一文本数据；θ初始网络模型的模型参数。

由上述分类损失函数可以看出，将样本频率取对数以后加入分类损失函数中，相当于在分类原损失函数的基础上增加了样本数据中各个意图类别的样本分布作为偏置(bias)，从而可以使训练得到的意图识别模型能做到“能靠先验知识解决的分类就依靠先验知识，先验知识解决不了的部分用意图识别模型解决”，因此，可以提升使用训练得到的意图识别模型进行意图识别的速度。

由于将不同意图类别对应的样本频率输入分类损失函数后，可以使得分类损失函数融合第一样本数据中不同意图类别的数据的分布情况，从而计算出带有该分布情况的先验知识的损失值，可以从损失函数的层面使初始网络模型对不同意图类别的特征的学习程度相同，因此，可以提高训练得到的意图识别模型对意图识别的准确性。

步骤105，基于分类损失值更新初始网络模型的模型参数，以训练得到意图识别模型。

在一个示例中，基于分类损失值更新初始网络模型的模型参数，包括：响应于分类损失值大于或等于预设损失度阈值，基于分类损失值使用随机梯度下降法更新初始网络模型的模型参数；并再次执行将类别预测信息、意图类别和样本频率输入分类损失函数，得到分类损失值，即步骤104，直至总损失值小于预设损失度阈值时停止，得到意图识别模型。

可选地，预设损失度阈值预先存储在电子设备中。

在另一个示例中，基于分类算是只更新初始网络模型的模型参数，包括：响应于迭代训练次数为达到预设迭代次数，基于分类损失值使用随机梯度下降法更新初始网络模型的模型参数；并再次执行将类别预测信息、意图类别和样本频率输入分类损失函数，得到分类损失值，即步骤104，直至迭代次数达到预设迭代次数时停止，得到意图识别模型。

可选地，预设迭代次数预先存储在电子设备中。

综上，本实施例提供的意图识别模型的训练方法，通过获取第一样本数据，第一样本数据包括第一文本数据和第一文本数据对应的意图类别；获取各个意图类别对应的样本频率；将第一文本数据输入预先创建的初始网络模型，得到类别预测信息；将类别预测信息、意图类别和样本频率输入分类损失函数，得到分类损失值；基于分类损失值更新初始网络模型的模型参数，以训练得到意图识别模型，可以解决初始网络模型对不同意图类别的特征的学习程度不同，从而导致训练得到的意图识别模型对某些意图类别识别的准确性较低的问题；由于将不同意图类别对应的样本频率输入分类损失函数后，可以使得分类损失函数融合第一样本数据中不同意图类别的数据的分布情况，从而计算出带有该分布情况的先验知识的损失值，可以从损失函数的层面使初始网络模型对不同意图类别的特征的学习程度相同，因此，可以提高训练得到的意图识别模型对意图识别的准确性。

图3是本申请一个实施例提供的意图识别方法的流程图，该方法至少包括以下几个步骤：

步骤301，获取目标文本数据。

可选地，获取目标文本数据，包括：获取目标音频数据；将目标音频数据转换为目标文本数据。

在一个示例中，目标音频数据是在视频会议的过程中采集的。

在实际实现时，也可以采取其它方式获取目标文本数据，比如：对书籍进行扫描，得到目标文本数据，或者，输入组件输入的目标文本数据，本实施例不对获取目标文本数据的方式作限定。

步骤302，将目标文本数据输入预先训练的意图识别模型，得到目标文本数据对应的意图类别。

其中，意图识别模型是基于分类损失值更新预先创建的初始网络模型的模型参数得到的；分类损失值是将类别预测信息、第一文本数据对应的意图类别和意图类别对应的样本频率输入分类损失函数得到的；类别预测信息是将第一文本数据输入初始网络模型得到的。

在一个示例中，将目标文本数据输入预先训练的意图识别模型，包括：通过数据生成器将目标文本数据输入预先训练的意图识别模型。

由于数据生成器可以在一次调用的过程中不断的维护变量并返回结果，因此，可以通过将数据生成器维护的变量修改为目标文本数据，不断地得到目标文本数据对应的意图类别，可以在避免对多个目标文本数据进行意图识别的过程中重复的加载和卸载意图识别模型，导致的意图识别速度慢的问题；由于只需要维护一个生成器的变量即可完成对多个目标文书数据的意图识别，因此，可以减少意图识别过程中意图识别模型加载和卸载的次数，提升意图识别的速度。

另外，由于使用数据生成器输入目标数据可以实现一边输入一边进行意图识别，不用将所有目标文本数据一次性就生成一个很大的集合，因此，可以节约中央处理器(Central Processing Unit，CPU)的存储空间。

可选地，通过数据生成器将目标文本数据输入预先创建的初始网络模型，包括：调用第一函数；采用第二函数将目标文本数据传入，从而让数据以生成器的方式输入意图识别模型。

在一个示例中，第一函数为TensorFlow的from_generator，第二函数为estimator.predict。

在实际实现时，也可以采用其它方法将目标文本数据输入意图识别模型，比如：基于文件数据的格式将目标文本数据传入意图识别模型，即，使用和训练相同的方式，只是设置batch_size＝1，即一次抓取的样本数量为1，本实施例不对将目标文本数据输入意图识别模型的方式作限定。

相关细节参考上述方法实施例。

综上所述，本实施例提供的意图识别方法，通过获取目标文本数据；将目标文本数据输入预先训练的意图识别模型，得到目标文本数据对应的意图类别；其中，意图识别模型是基于分类损失值更新预先创建的初始网络模型的模型参数得到的；分类损失值是将类别预测信息、第一文本数据对应的意图类别和意图类别对应的样本频率输入分类损失函数得到的；类别预测信息是将第一文本数据输入初始网络模型得到的，可以解决初始网络模型对不同意图类别的特征的学习程度不同，从而导致训练得到的意图识别模型对某些意图类别识别的准确性较低的问题；由于将不同意图类别对应的样本频率输入分类损失函数后，可以使得分类损失函数融合第一样本数据中不同意图类别的数据的分布情况，从而计算出带有该分布情况的先验知识的损失值，可以从损失函数的层面使初始网络模型对不同意图类别的特征的学习程度相同，因此，可以提高训练得到的意图识别模型对意图识别的准确性。

图4是本申请一个实施例提供的意图识别模型的训练装置的框图。该装置至少包括以下几个模块：样本获取模块410、频率获取模块420、类别预测模块430、损失计算模块440和参数更新模块450。

样本获取模块410，用于获取第一样本数据，第一样本数据包括第一文本数据和第一文本数据对应的意图类别；

频率获取模块420，用于获取各个意图类别对应的样本频率；

类别预测模块430，用于将第一文本数据输入预先创建的初始网络模型，得到类别预测信息；

损失计算模块440，将类别预测信息、意图类别和样本频率输入分类损失函数，得到分类损失值；

参数更新模块450，基于分类损失值更新初始网络模型的模型参数，以训练得到意图识别模型。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的意图识别模型的训练装置在进行意图识别模型的训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将意图识别模型的训练装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的意图识别模型的训练装置与意图识别模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本申请一个实施例提供的意图识别装置的框图。该装置至少包括以下几个模块：文本获取模块510和意图识别模块520。

文本获取模块510，用于获取目标文本数据；

意图识别模块520，用于将目标文本数据输入预先训练的意图识别模型，得到目标文本数据对应的意图类别；

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的意图识别装置在进行意图识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将意图识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的意图识别装置与意图识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6本申请一个实施例提供的电子设备的框图。该设备至少包括处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的意图识别模型的训练方法，或者，意图识别方法。

在一些实施例中，电子设备还可选包括有：外围设备接口和至少一个外围设备。处理器601、存储器602和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，电子设备还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的意图识别模型的训练方法，或者，意图识别方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的意图识别模型的训练方法，或者，意图识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种意图识别模型的训练方法，其特征在于，所述意图识别模型用于识别文本数据的意图，所述方法包括：

获取各个意图类别对应的样本频率；

2.根据权利要求1所述的方法，其特征在于，所述获取各个意图类别对应的样本频率，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述类别预测信息、所述意图类别和所述样本频率输入分类损失函数，得到分类损失值，通过下式表示：

4.根据权利要求1所述的方法，其特征在于，所述初始网络模型包括嵌入层；所述嵌入层用于将文本数据中的字转换成字向量；

基于所述行业字对应的权重参数建立所述初始网络模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述权重参数矩阵初始化行业字汇表中的行业字对应的权重参数，包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定预设的行业语料库中每个字出现的第三频数；

7.根据权利要求1所述的方法，其特征在于，所述将所述第一文本数据输入预先创建的初始网络模型，包括：

8.根据权利要求1所述的方法，其特征在于，所述初始网络模型包括至少一个隐藏层，所述初始网络模型中隐藏层的数量少于BERT模型中隐藏层的数量。

9.一种意图识别方法，其特征在于，所述方法包括：

获取目标文本数据；

10.根据权利要求9所述的方法，其特征在于，将所述目标文本数据输入预先训练的意图识别模型，包括：

11.一种电子设备，其特征在于，所述设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的意图识别模型的训练方法，或者，实现如权利要求9或10所述的意图识别方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至8任一项所述的意图识别模型的训练方法，或者，实现如权利要求9或10所述的意图识别方法。