CN117708286A

CN117708286A - 一种基于意图大模型的智能领域匹配方法及系统

Info

Publication number: CN117708286A
Application number: CN202311671043.8A
Authority: CN
Inventors: 王伟; 贾惠迪; 邹克旭; 黄思; 郭东宸; 常鹏慧; 孙悦丽; 朱珊娴
Original assignee: Beijing Yingshi Ruida Technology Co ltd
Current assignee: Beijing Yingshi Ruida Technology Co ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-03-15

Abstract

本申请发明涉及自然语言处理领域，尤其涉及人机对话系统中的自然语言语义分析方法，具体为基于意图大模型的智能领域匹配方法，其通过构建提示集来训练专门用于用户意图识别的意图大模型，提示集中包含广泛的用户意图示例，涵盖不同领域、不同行业和不同应用场景，有助于模型更好地理解和识别多样的用户意图。同时通过构建细分的领域模块和任务接口，利用训练好的意图大模型将用户输入的问题与领域模块和任务接口的对应描述进行匹配，能够准确的匹配到用户想要实现的具体功能。

Description

一种基于意图大模型的智能领域匹配方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及人机对话系统中的自然语言语义分析方法。

背景技术

目前识别用户提问意图的方法有以下几种：

基于规则的方法：基于规则的方法是一种传统的自然语言处理（NLP）技术，用于识别用户提问的意图。它的工作原理是通过事先定义的规则集来判断用户输入的文本或问题所属的意图类别。这些规则是人工创建的。

基于关键词的方法：通过匹配用户输入中的关键词或短语来确定其意图类别。针对每个意图，开发者需要提前定义一组关键词或短语，这些关键词与该意图相关。

传统的机器学习分类器方法：这种方法使用传统的机器学习算法（如支持向量机、随机森林等），通过提取文本特征（如词袋模型、TF-IDF等）和训练分类器来判断用户提问的意图。

在现有的技术中，基于规则的方法需要人工编写规则，创建和维护规则需要大量的人工工作，特别是在涉及大量意图和复杂语境的情况下。自然语言的多义性和灵活性使得基于规则的方法难以覆盖所有变化和语境。随着意图数量增加，规则的数量和复杂度也会迅速增加，从而难以维护。

且基于关键词的方法无法应对多义性，同一个关键词可能在不同的语境中有不同的意思，这导致了基于关键词的方法无法准确捕捉多义性。基于关键词的方法无法考虑用户输入的上下文，因此难以处理复杂的语境。自然语言的多样性使得用户提问的方式多种多样，很难用有限的关键词来覆盖所有情况。

传统的机器学习分类器方法需要手动设计和选择特征，对特征的选择和表示质量要求较高，可能需要领域专家的经验。而且需要大量的标注数据进行训练，收集和标注数据的成本较高。另外，传统的机器学习算法在处理复杂语义和上下文信息时可能存在局限性，无法充分捕捉句子中的语义关系和语境。

发明内容

鉴于人机对话系统中的语义分析存在上述问题，本发明提出了一种基于意图大模型的智能领域匹配方法及系统，用于解决人机交互中准确匹配用户意图的问题，所述方法具体过程如下：

步骤1. 收集包含用户意图标签和用户属性的数据集；

步骤2.基于神经网络模型构建意图大模型；其中，基于所述意图大模型，使用激活函数ReLU和输出层，生成用户属性的预测结果；使用激活函数softmax进行分类，生成类别概率分布，使用线性层生成数值预测；

步骤3. 构建提示集，基于所述提示集，训练所述意图大模型；

步骤4.将所述用户属性与领域模块和任务接口进行匹配，所述领域模块为图谱或数据库；

步骤5. 采集用户问题，并将所述用户问题与所述领域模块和所述任务接口进行匹配；

步骤6. 通过分析用户历史问题与选择的任务接口，建立匹配模型，将用户历史问题及其相关信息和对应的任务接口标识作为训练数据，对所述匹配模型进行训练，并优化所述匹配模型参数。

所述步骤3中训练意图大模型包括：定义适用于用户属性预测任务的损失函数，对于所述分类属性，使用交叉熵损失函数；对于数值属性，使用均方误差损失函数；同时，使用包含用户属性信息的训练数据集对模型进行训练，训练过程将优化损失函数，以最小化预测误差；

所述分类属性的交叉熵损失函数为：

；

其中，为第k个用户分类属性第 i 个样本的真实标签，/>为第k个用户分类属性第 i 个样本的预测标签,/> 本的预测标签，/>为真实标签；

k个分类属性的总体损失计算如下：

；

其中，是第k个分类属性的权重，权重可以根据任务需求进行调整；

所述数值属性的均方误差损失函数为：

其中，为第m个用户数值属性第 i 个样本的真实数值，/> 为第m个用户数值属性第 i 个样本的预测数值；

m个数值属性的总体损失计算如下：

其中，是第m个数值属性的权重，权重可以根据任务需求进行调整。

本申请的有益效果是：通过构建提示集来训练专门用于用户意图识别的意图大模型，提示集中包含广泛的用户意图示例，涵盖不同领域、不同行业和不同应用场景，有助于模型更好地理解和识别多样的用户意图。同时通过构建细分的领域模块和任务接口，利用训练好的意图大模型将用户输入的问题与领域模块和任务接口的对应描述进行匹配，能够准确的匹配到用户想要实现的具体功能。

此外，将意图识别和用户属性预测模型集成到一个统一的大模型中，使模型能够综合考虑用户的意图和属性信息。这有助于提高对用户需求的全面理解。

附图说明

图1 所示为领域模块和任务接口的示意图。

具体实施方式

为了使本技术领域的技术人员更好地理解本申请的技术方案，下面结合附

图和最佳实施例对本发明型作进一步的详细说明。

步骤一：用户属性预测模型构建。通过更好地了解用户属性，系统可以更好地满足用户的需求，提供更流畅和个性化的用户体验，从而提高用户满意度。

1.数据收集。收集包含用户意图标签和用户属性的数据集，包含用户问题或输入文本，以及相关的用户属性信息。对用户问题文本进行标准化和处理，包括分词、去除停用词、词干化等文本处理，并将用户属性信息编码为数值或文本特征。

2.模型架构设计。构建特征工程，将用户提供的文本输入以及其他相关特征转化为模型可用的特征表示。构建神经网络模型，该模型接受特征表示作为输入。模型的架构可以包括多个隐藏层，使用激活函数如ReLU，以及输出层，用于生成用户属性的预测结果。输出层的结构取决于用户属性的性质。对于分类属性（如性别、年龄段、地理位置等），可以使用softmax激活函数生成类别概率分布；对于数值属性（如收入、用户活跃度等），可以使用线性层生成数值预测。

3.模型训练。定义适用于用户属性预测任务的损失函数，具体取决于属性类型。对于分类属性：使用交叉熵损失函数；对于数值属性：使用均方误差损失函数。使用包含用户属性信息的训练数据集对模型进行训练。训练过程将优化损失函数，以最小化预测误差。

每个分类属性的交叉熵损失函数：

；

k个分类属性的总体损失计算如下：

；

其中，是第k个分类属性的权重，权重可以根据任务需求进行调整。

每个数值属性的均方误差损失函数：

；

m个数值属性的总体损失计算如下：

步骤二：意图大模型训练。意图大模型的作用是识别用户在对话或输入中的意图或目的。专注于识别用户意图，为用户提供更加精确和个性化的回应或操作。基于已有的开源大模型架构，构建提示集，将提示集馈送到模型中进行训练，对意图大模型进行调优与迭代。

模型调优采用超参数调优，选择合适的学习率、批量大小、隐藏层大小、层数、丢弃率等超参数，使用网格搜索、随机搜索或超参数优化工具来找到最佳超参数组合。

其中，每个提示由n个描述选项以及问答组成，具体格式如下：

现有如下三个选项：

选项1：查询某城市的实时气象

选项2：解释什么是气压

选项3：查询某个地区的降水量

Q：“上海今天的风速”最匹配的是？

A：选项1

Q：“高空层的温度变化规律”最匹配的是？

A：选项2

训练后，给出问题Q“北京昨天是否下雨”最匹配的是？意图大模型会给出选项3的答案。

步骤三：领域模块和任务接口构建。为了使大模型的回答更具有领域专业性，针对不同的领域，构建领域模块。可以选择特定的行业、主题或领域，以便构建专业化的模块。收集关于所选领域的各种知识、概念、术语和信息。将收集到的知识整理成知识图谱或数据库的形式。设计领域模块的结构，确定不同实体和概念之间的关系。为每个领域模块构建任务接口，信息查询、概念解释、数据分析等功能，具体任务接口根据领域需要进行设置，每个接口有对应的功能描述。将领域模块和任务接口集成到大模型，以便根据用户的查询在不同领域模块之间进行切换和响应。

步骤四：用户问题与领域模块和任务接口匹配。用户问题输入意图大模型，通过意图大模型判断进入哪一个领域模块，再通过意图大模型判断是进入哪一个任务接口。通过比较用户问题与任务接口的功能描述，调取相关接口。计算用户问题的关键信息与每个任务接口的功能描述之间的语义相似度。可以使用余弦相似度、词嵌入相似度等。根据关键信息的匹配程度，为每个任务接口分配一个权重，表示与用户问题的相关程度。根据计算得到的权重，选择与用户问题关联度最高的任务接口。权重越高的接口被视为与用户问题更相关。收集用户对推荐接口的反馈，判断是否匹配用户预期。如果用户频繁选择某个接口，可以进一步加大该接口的权重。

以余弦相似度计算方法为例，计算方法如下：

；

其中，A、B为语义向量，表示语义向量A和语义向量B的点积，/>表示语义向量A的范数，/> 表示语义向量B的范数。如果余弦相似度接近1，表示语义向量A和语义向量B在向量空间中非常相似，夹角接近0度。如果余弦相似度接近-1，表示语义向量A和语义向量B在向量空间中非常不相似，夹角接近180度。如果余弦相似度接近0，表示语义向量A和语义向量B在向量空间中没有明显的相似性，夹角接近90度。

步骤五：匹配机制提升。通过分析用户历史问题与选择的任务接口，建立一个匹配模型，学习用户的偏好和习惯。利用这些经验来更快速地进行匹配。使用收集到的历史数据，将用户历史问题及其相关信息和对应的任务接口标识作为训练数据。对模型进行训练，优化模型参数以最大化预测准确度。当用户提出新问题时，将其特征输入到训练好的模型中，预测用户可能会选择的任务接口，再预测的接口中进行权重计算、匹配。

1.数据准备。收集用户历史问题及其相关信息，包括问题文本、用户标识、问题类别等。收集与问题相关的任务接口信息，包括任务接口标识、任务描述、任务类别等。清洗和标准化问题文本，包括分词、去除停用词、词干化等文本处理步骤。将问题文本和任务接口信息进行配对，并构建训练数据。

2.模型构建。使用嵌入层将问题文本和任务接口信息嵌入到向量空间中。设计匹配模型，采用深度神经网络架构Siamese网络，学习问题与任务接口之间的关联。该模型接受问题文本和任务接口信息的嵌入作为输入，然后预测任务接口的匹配度得分。用神经网络表示匹配度得分函数：f(q,u,t)，其中 q 表示问题文本特征，u 表示用户特征，t 表示任务接口特征。

3.模型训练。生成标签：根据历史数据，为每对问题文本和任务接口信息生成标签。标签可以表示匹配度得分或是否匹配（1表示匹配，0表示不匹配）。使用标签生成的数据，定义训练目标。使用训练数据对匹配模型进行训练，以优化模型参数

4.模型推断与匹配。当用户提出新问题时，将其问题文本特征和用户特征输入到训练好的匹配模型中，预测用户可能会选择的任务接口。根据预测的匹配度得分，可以使用Softmax 函数将各任务接口的得分转化为权重,见下公式。将使用得到的权重对任务接口进行排序，以提供用户多个可能的匹配接口。

；

步骤六：多任务学习模型构建整合。多任务模型架构，该模型可以同时执行多个相关任务，包括意图识别和用户属性预测，模型的训练过程通过多任务损失函数来协调不同任务的学习，从而提高了模型的效能。

该模型包括两个或多个分支，每个分支负责一个任务。一个分支用于执行意图识别任务，另一个分支用于执行用户属性预测任务。将用户属性预测模型生成的属性结果可以作为附加特征与用户输入文本一起输入到意图识别大模型中。对于每个任务（如意图识别和用户属性预测），构建一个任务特定分支，该分支接受来自共享层的特征表示作为输入。

在模型中引入共享层，这些层用于共享文本特征的学习。共享层通常在模型的前几层，用于提取通用的文本表示。

定义多任务损失函数，该损失函数将意图识别任务和用户属性预测任务结合起来。损失函数可以由每个任务的损失组成，加权以平衡两个任务的重要性。总损失表示为：总损失= 意图识别损失+/> 用户属性预测损失损失，其中/>、/>是损失的权重。

其中，意图识别损失函数定义公式如下,为第i个真实的意图标签，为第i个模型的意图概率分布：

；

用户属性预测损失定义公式如下, 为第i个用户的真实标签，

为第i个模型的意图概率分布：

；

使用包含多个任务的训练数据集，对多任务模型进行训练。训练过程中，优化总损失函数，同时更新共享特征提取层和每个任务特定分支的参数。

Claims

1.一种基于意图大模型的智能领域匹配方法，其特征在于，包括以下步骤：

步骤1. 收集包含用户意图标签和用户属性的数据集；

2.根据权利要求1所述基于意图大模型的智能领域匹配方法，其特征在于，所述用户属性包括分类属性和数值属性。

3.根据权利要求2所述基于意图大模型的智能领域匹配方法，其特征在于，所述步骤3中训练所述意图大模型包括：获取适用于用户属性预测任务的损失函数，对于所述分类属性，使用交叉熵损失函数；对于数值属性，获取均方误差损失函数；使用包含用户属性信息的训练数据集对意图大模型模型进行训练，优化损失函数；

所述分类属性的交叉熵损失函数为：

；

k个分类属性的总体损失计算如下：

；

所述数值属性的均方误差损失函数为：

；

m个数值属性的总体损失计算如下：

；

4.根据权利要求1所述基于意图大模型的智能领域匹配方法，其特征在于，对每个所述领域模块构建任务接口，所述任务接口根据领域需要进行设置，每个接口有对应的功能描述，所述功能描述包括信息查询、概念解释、数据分析。

5.根据权利要求1所述基于意图大模型的智能领域匹配方法，其特征在于，步骤3包括将所述提示集馈送到所述意图大模型中进行训练，对所述意图大模型进行调优与迭代，其中，所述调优为通过超参数调优。

6.一种基于意图大模型的智能领域匹配系统，其特征在于，包括：存储器和处理器；所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一所述基于意图大模型的智能领域匹配方法。