CN116756294B

CN116756294B - 对话意图识别模型的构建方法、对话意图识别方法及系统

Info

Publication number: CN116756294B
Application number: CN202311017516.2A
Authority: CN
Inventors: 沈一
Original assignee: Beijing Smart Spirit Technology Co ltd
Current assignee: Beijing Smart Spirit Technology Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-12-26
Anticipated expiration: 2043-08-14
Also published as: CN116756294A

Abstract

本发明公开了一种对话意图识别模型的构建方法、对话意图识别方法及系统。该构建方法包括如下步骤：获取预训练样本集，并基于第一模型框架进行预训练，以形成预训练模型；针对多个意图类别，分别提取关键词，以形成关键词文本；将关键词文本输入第二模型框架，以输出对应于多个意图类别的旧样本集；获取新样本集，并与旧样本集进行拼接，形成拼接样本集；基于拼接样本集对第一模型框架再次进行模型训练，以形成最终的对话意图识别模型。利用该方法构建的对话意图识别模型无需存储预训练样本集的原始数据，只需要根据已有意图类别提取关键词样本即可进行不断迭代更新，从而节约了存储空间。

Description

对话意图识别模型的构建方法、对话意图识别方法及系统

技术领域

本发明涉及一种对话意图识别模型的构建方法，同时也涉及基于该模型的对话意图识别方法及识别系统，属于自然语言处理技术领域。

背景技术

近年来，随着人工智能技术和数字孪生技术的不断发展和普及，智能对话系统在医疗、电商、娱乐、自动驾驶等多个领域都得到了广泛的应用，如智能客服、数字医生、智能管家等。智能对话系统的核心在于精准地理解用户在对话中每一轮会话所表达的意图，该意图用于后续的流程控制和对话生成，因此对话意图识别成为智能对话系统的关键核心技术之一。

传统的对话意图识别技术通常属于静态意图识别，即需要预先定义好若干意图类别，针对后续的用户输入，通过构建分类模型将当前用户输入归类到已有的意图类别中。这种静态意图识别方式存在如下的局限性：（1）用户的意图通常会随着时间不断演化，可能会持续有新的意图产生；（2）当前对话机器人所支持的应用可能会出现功能的扩充，例如，假设一个用于银行客服的对话机器人已有激活账户、查询余额、预约取款等功能，现在需要增加一个银行卡挂失的功能，由于预先训练好的意图识别模型不支持这个类别，因此需要在新的训练数据上重新训练模型以兼容新功能对应的意图类别。

申请号为202210667651.0的中国专利申请中，公开了一种文本意图理解的连续学习方法。该方法包括如下步骤：当需要训练新模型时，获取训练数据；其中，训练数据包括新增标注数据和原模型已经采用的部分历史标注数据；依据新增标注数据和原模型已经采用的部分历史标注数据，构建训练批次数据；依据训练批次数据，以及原模型与新模型之间的分布约束，对新模型进行训练，得到新版本模型；从而通过利用少量历史标注数据，结合新增的标注数据来进行文本意图的连续学习。然而，上述方法中需要对每个旧的意图类别存储一定数量的样本，随着新类别数量的积累，需要的存储空间也将不断增大，从而降低识别效率和识别准确率。

发明内容

本发明所要解决的首要技术问题在于提供一种对话意图识别模型的构建方法。

本发明所要解决的另一技术问题在于提供一种基于上述模型的对话意图识别方法。

本发明所要解决的又一技术问题在于提供一种对话意图识别系统。

为实现上述技术目的，本发明采用以下的技术方案：

根据本发明实施例的第一方面，提供一种对话意图识别模型的构建方法，包括如下步骤：

获取预训练样本集，并基于第一模型框架进行预训练，以形成预训练模型；

针对多个意图类别，分别提取用于进行意图识别的关键词，以形成关键词文本；

将所述关键词文本输入第二模型框架，以输出对应于多个所述意图类别的旧样本集；其中，所述第一模型框架与所述第二模型框架的模型参数相同；

获取新样本集，并将所述新样本集与所述旧样本集进行拼接，形成拼接样本集；其中，所述新样本集对应于至少一个新增的意图类别；

基于所述拼接样本集对所述第一模型框架再次进行模型训练，以对所述预训练模型进行迭代更新，从而形成最终的对话意图识别模型。

其中较优地，所述获取预训练样本集，并基于第一模型框架进行预训练，以形成预训练模型，具体包括：

将多个意图识别文本依次输入第一模型框架的编码器内；

利用所述第一模型框架的解码器依次对多个所述意图识别文本进行自回归式预测，以获取意图预测结果；

通过调整所述第一模型框架的模型参数对所述意图预测结果进行拟合，以使所述意图预测结果逐渐趋近所述意图识别文本所对应的实际意图；

构建多个所述意图识别文本到所述意图预测结果的映射关系，以形成所述预训练模型。

其中较优地，所述第一模型框架的解码器的自回归式预测过程，包括如下子步骤：

预先定义第一起始符和第一结束符；

所述解码器接收到所述意图识别文本后，在第一时序输入第一起始符，并输出第一个预测词语；

在下一个时序中，前一个预测词语作为输入，并以强制教学的方式预测下一个词语，直至预测结束并输出第一结束符，以输出最终的意图预测结果；

其中，所述第一模型框架L₁的表达式如下：

其中，表示第一模型框架的模型参数；ANS表示第一起始符；EOS表示第一结束符；P（丨）表示条件概率，在L₁中表示在给定参数/>的情况下，由输入x生成ANS，y，EOS 这一输出的概率；x表示意图识别文本；y表示对应于x的意图预测结果。

其中较优地，所述针对多个所述意图类别，分别提取用于进行意图识别的关键词，以形成关键词文本，具体包括：

针对每一个所述意图类别，分别从对应的意图识别文本中按照TF-IDF算法抽取出预设数量的一组关键词；其中，TF-IDF表示一种用于信息检索与数据挖掘的加权算法；TF表示词频；IDF表示逆文本频率指数；

将多个所述意图类别对应的多组关键字进行排序，以形成关键词文本。

其中较优地，将所述关键词文本输入第二模型框架，以输出对应于多个所述意图类别的旧样本集，具体包括：

将已有的一个意图类别与对应于所述意图类别所提取的一组关键字通过分隔符进行拼接，并输入第二模型框架的编码器内；

利用所述第二模型框架的解码器对所述一组关键词进行自回归式预测，以获取对应于所述一组关键词的回归样本；

重复上述操作，以获取对应于多组关键词的多个回归样本；

其中，多个所述回归样本共同构成对应于多个所述意图类别的旧样本集。

其中较优地，所述第二模型框架的解码器的自回归式预测过程，包括如下子步骤：

预先定义第二起始符和第二结束符；

所述解码器接收到所述一组关键词后，在第一时序输入第二起始符，并以强制教学的方式生成如下形式的回归样本：

[BOS] x [ANS] y [EOS]；

其中，所述第二模型框架L₂的表达式如下：

其中，表示第二模型框架的模型参数；BOS 表示第二起始符；ANS表示第一起始符；EOS表示第一结束符；P（丨）表示条件概率，在L₂中表示在给定参数/>的情况下，由输入y，SEP，V_y生成BOS，x，ANS，y，EOS 这一输出的概率；x表示对应于原意图识别文本的回归样本；y表示对应于x的意图预测结果；V_y表示意图类别；SEP表示分隔符。

根据本发明实施例的第二方面，提供一种对话意图识别方法，包括如下步骤：

获取用户的待识别意图样本；

将所述待识别意图样本输入对话意图识别模型，以输出对应的意图类别标签；

其中，所述对话意图识别模型通过上述方法构建而成。

根据本发明实施例的第三方面，提供一种对话意图识别系统，包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行以下操作：

获取用户的待识别意图样本；

其中，所述对话意图识别模型通过上述方法构建而成。

与现有技术相比较，本发明具有以下的技术效果：

1. 利用该方法构建的对话意图识别模型，无需存储预训练样本集的原始数据，只需要根据已有意图类别提取关键词样本即可进行对话意图识别模型的不断迭代更新，从而极大地节约了存储空间，同时保证了数据的隐私性；

2. 关键词的提取数量以及回归样本的数量均可根据需要进行调整，从而提高了对话意图识别模型构建的便利性和适应性。

附图说明

图1为本发明第一实施例提供的一种对话意图识别模型的构建方法的流程图；

图2为本发明第一实施例中，第一模型框架的工作原理图；

图3为本发明第一实施例中，第二模型框架的工作原理图；

图4为本发明第二实施例提供的一种对话意图识别方法的流程图；

图5为本发明第三实施例提供的一种对话意图识别系统的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

第一实施例

如图1所示，本发明第一实施例提供的一种对话意图识别模型的构建方法，具体包括步骤S1～S5：

S1：获取预训练样本集，并基于第一模型框架进行预训练，以形成预训练模型。

其中，预训练样本集包括多个意图识别文本，每个意图识别文本分别对应一个意图类别。预训练样本集的数据格式为, 其中，/>表示一句需要进行意图识别的用户输入文本（即：意图识别文本），/>表示/>对应的真实意图类别，假设意图类别由n个（n为正整数，下同）标签词语组成，即/>。

可以理解的是，一般情况下，一个意图识别文本对应一个意图类别/>。但也有可能多个意图识别文本/>对应同一种意图类别/>，例如：“我要看昨天的血常规结果”和“把昨天的血常规结果给我看看”，虽然意图识别文本不同，但是意图是一样的。

如图2所示，第一模型框架是一个基于生成式语言模型BART的编解码（encoder-decoder）框架，包括编码器1和解码器2。具体的训练过程，包括如下步骤S11～S14：

S11：将多个意图识别文本依次输入第一模型框架的编码器内。

具体的，依次将每一个意图识别文本输入到编码器1内。

S12：利用第一模型框架的解码器依次对多个意图识别文本进行自回归式预测，以获取意图预测结果。

具体的，预先定义第一起始符ANS和第一结束符EOS。当解码器2接收到意图识别文本后，在第一时序输入第一起始符ANS，并输出第一个预测词语。然后，在下一个时序中，将前一个预测词语作为输入，并以强制教学的方式预测下一个词语，直至预测结束并输出第一结束符，以输出最终的意图预测结果。

作为一个示例，用户输入为“我要看昨天的血常规结果”，对应的意图为“查询化验结果”。那么第一模型框架在编码器1接收输入后，首先在解码器2部分第一个时序输入[ANS], 然后在第一个时序输出“查询”，然后将“查询”作为第二个时序的输入并在第二个时序输出“化验”，接着将“化验”作为第三个时序的输入并在第三个时序输出“结果”，最后在第四个时序输入“结果”并输出“[EOS]”。

其中，上述第一模型框架L1的表达式如下：

S13：通过调整第一模型框架的模型参数对意图预测结果进行拟合，以使意图预测结果逐渐趋近意图识别文本所对应的实际意图。

S14：构建多个意图识别文本到意图预测结果的映射关系，以形成预训练模型。

可以理解的是，此时的预训练模型能够对已有的多个意图类别进行意图识别，但无法识别新意图，若需要兼容新意图的识别，则需要对预训练模型进行迭代更新（详见步骤S2～S5）。

S2：针对多个意图类别，分别提取用于进行意图识别的关键词，以形成关键词文本。

具体的，包括步骤S21～S22：

S21：针对每一个意图类别，分别从对应的意图识别文本中按照TF-IDF算法抽取出预设数量的一组关键词。

本实施例中，一组关键词包括K个关键词，其中，K为正整数且数量可调，具体可根据需求进行适应性调整。TF-IDF表示一种用于信息检索与数据挖掘的加权算法；其中，TF（Term Frequency）表示词频；IDF（Inverse Document Frequency）表示逆文本频率指数。

S22：将多个意图类别对应的多组关键字进行排序，以形成关键词文本。

当针对每一个意图类别均抽取出K个关键词后，将多组关键字进行排序，即可形成关键词文本。

S3：将关键词文本输入第二模型框架，以输出对应于多个意图类别的旧样本集。

如图3所示，该第二模型框架是一个基于生成式语言模型BART的编解码（encoder-decoder）框架，包括编码器10和解码器20。并且，本实施例中，第一模型框架与第二模型框架的模型参数相同，输入和输出形式完全一样（都是由序列生成序列），因此可以将两者进行联合训练。

具体的，训练过程包括子步骤S31～S33：

S31：将已有的一个意图类别与对应于意图类别所提取的一组关键字通过分隔符进行拼接，并输入第二模型框架的编码器10内；

具体的，预先定义分隔符SEP，然后将已有的一个意图类别所包含的多个标签词语与该意图类别对应的K个关键字进行拼接，拼接结果为：/>[SEP] K个关键词。然后，将该拼接结果输入第二模型框架的编码器10内。

S32：利用第二模型框架的解码器对一组关键词进行自回归式预测，以获取对应于一组关键词的回归样本。

具体的，预先定义第二起始符BOS；然后，解码器20接收到一组关键词后，在第一时序输入第二起始符BOS，并以强制教学的方式生成如下形式的回归样本[BOS] x [ANS] y[EOS]；

其中，第二模型框架L₂的表达式如下：

S33：重复上述操作S31～S32，以获取对应于多组关键词的多个回归样本；其中，多个回归样本共同构成对应于多个意图类别的旧样本集。

可以理解的是，在该步骤S3中基于已有的多个意图类别，根据多组关键词可生成一批回归样本，并且，该回归样本的具体数量可根据需要进行适应性调整。由此，无需对之前的预训练样本集进行存储，直接提取多组关键词形成关键词样本即可，该关键词样本几乎不占用内存，从而极大地节约了存储空间。

S4：获取新样本集，并将新样本集与旧样本集进行拼接，形成拼接样本集。

具体的，当需要新增意图类别时，需要获取新样本集，该新样本集对应于至少一个新增的意图类别。然后，将新样本集与步骤S3中获取的旧样本集相拼接，从而形成拼接样本集。

S5：基于拼接样本集对第一模型框架再次进行模型训练，以对预训练模型进行迭代更新，从而形成最终的对话意图识别模型。

其中，对第一模型框架再次进行模型训练的过程与步骤S1相同，只是样本集不同，该步骤S5中的样本集为拼接样本集，而原步骤S1中的样本集为预训练样本集。

可以理解的是，由于拼接样本集不仅包括了通过关键词样本回归形成的旧样本集（对应于已有的多个意图类别），还包括新样本集（对应于新意图类别）。因此，最终的对话意图识别模型即能够识别已有的多个意图类别，还能够识别新的意图类别。

此外，利用该方法构建的对话意图识别模型无需存储预训练样本集的原始数据，只需要根据已有意图类别提取关键词样本即可，从而极大地节约了存储空间，同时保证了数据的隐私性。

第二实施例

如图4所示，在上述第一实施例的基础上，本发明第二实施例提供一种对话意图识别方法，具体包括步骤S10～S20：

S10：获取用户的待识别意图样本。

S20：将待识别意图样本输入对话意图识别模型，以输出对应的意图类别标签。

其中，该对话意图识别模型通过上述第一实施例中的方法进行构建。

可以理解的是，上述步骤S10中的待识别意图样本所对应的意图类别为对话意图识别模型中已经训练好的意图类别。若待识别意图样本所对应的意图类别不存在于当前的对话意图识别模型内，则需要利用第一实施例中的方法重新对对话意图识别模型进行迭代更新，以形成新的对话意图识别模型；然后，基于新的对话意图识别模型进行意图识别。

第三实施例

在上述对话意图识别方法的基础上，本发明进一步提供一种对话意图识别系统。如图5所示，该对话意图识别系统包括一个或多个处理器21和存储器22。其中，存储器22与处理器21耦接，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器21执行，使得所述一个或多个处理器21实现如上述实施例中的对话意图识别方法。

其中，处理器21用于控制该对话意图识别系统的整体操作，以完成上述对话意图识别方法的全部或部分步骤。该处理器21可以是中央处理器（CPU）、图形处理器（GPU）、现场可编程逻辑门阵列（FPGA）、专用集成电路（ASIC）、数字信号处理（DSP）芯片等。存储器22用于存储各种类型的数据以支持在该对话意图识别系统的操作，这些数据例如可以包括用于在该对话意图识别系统上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、磁存储器、快闪存储器等。

在一个示例性实施例中，对话意图识别系统具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现，用于执行上述的对话意图识别方法，并达到如上述方法一致的技术效果。一种典型的实施例为计算机。具体地说，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在另一个示例性实施例中，本发明还提供一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任意一个实施例中的对话意图识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器，上述程序指令可由对话意图识别系统的处理器执行以完成上述的对话意图识别方法，并达到如上述方法一致的技术效果。

综上所述，本发明实施例提供的一种对话意图识别模型的构建方法、对话意图识别方法及系统，具有以下的有益效果：

上面对本发明提供的对话意图识别模型的构建方法、对话意图识别方法及系统进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种对话意图识别模型的构建方法，其特征在于包括如下步骤：

基于所述拼接样本集对所述第一模型框架再次进行模型训练，以对所述预训练模型进行迭代更新，从而形成最终的对话意图识别模型；

其中，将所述关键词文本输入第二模型框架，以输出对应于多个所述意图类别的旧样本集，具体包括：

重复上述操作，以获取对应于多组关键词的多个回归样本；

2.如权利要求1所述的构建方法，其特征在于获取预训练样本集，并基于第一模型框架进行预训练，以形成预训练模型，具体包括：

将多个意图识别文本依次输入第一模型框架的编码器内；

3.如权利要求2所述的构建方法，其特征在于所述第一模型框架的解码器的自回归式预测过程，包括如下子步骤：

预先定义第一起始符和第一结束符；

在下一个时序中，前一个预测词语作为输入，并以强制教学的方式预测下一个词语，直至预测结束并输出第一结束符，以输出最终的意图预测结果。

4.如权利要求1所述的构建方法，其特征在于针对多个所述意图类别，分别提取用于进行意图识别的关键词，以形成关键词文本，具体包括：

针对每一个所述意图类别，分别从对应的意图识别文本中按照TF-IDF算法抽取出预设数量的一组关键词；

5.如权利要求1所述的构建方法，其特征在于所述第二模型框架的解码器的自回归式预测过程，包括如下子步骤：

预先定义第二起始符和第二结束符；

所述解码器接收到所述一组关键词后，在第一时序输入第二起始符，并以强制教学的方式生成回归样本。

6.如权利要求1所述的构建方法，其特征在于：

所述预训练样本集包括多个意图识别文本，每个所述意图识别文本分别对应一个意图类别。

7.一种对话意图识别方法，其特征在于包括如下步骤：

获取用户的待识别意图样本；

其中，所述对话意图识别模型通过如权利要求1～6中任意一项所述的方法构建。

8.如权利要求7所述的对话意图识别方法，其特征在于：

若所述待识别意图样本所对应的意图类别不存在于当前的对话意图识别模型内，则重新对所述对话意图识别模型进行迭代更新，然后基于新的对话意图识别模型进行意图识别。

9.一种对话意图识别系统，其特征在于包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行以下操作：

获取用户的待识别意图样本；