CN116595158A

CN116595158A - 一种基于Transformer模型的用户交互方法及系统

Info

Publication number: CN116595158A
Application number: CN202310875306.0A
Authority: CN
Inventors: 韩江鹏飞; 王晓君; 王辉; 张维娜; 张宁宁; 李燚
Original assignee: Shandong Lushangtong Technology Co ltd
Current assignee: Shandong Lushangtong Technology Co ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-08-15
Anticipated expiration: 2043-07-18
Also published as: CN116595158B

Abstract

本发明涉及智能交互技术领域，尤其是涉及一种基于Transformer模型的用户交互方法及系统。所述方法，包括获取用户的文本数据；对获取的文本数据进行预处理，包括基于关键词的方法对文本数据进行文本向量化；将向量化后的文本数据转为图结构，得到图结构的节点和边，其中节点表示单词，边表示单词之间的关联；本发明通过Transformer结构可以很好的处理和统计用户的输入，并利用其来训练统计问题。并因为该结构的自注意力机制，可以捕捉到文本中的依赖关系，从而更好的理解的上下文并作出相应的输出内容给用户。

Description

一种基于Transformer模型的用户交互方法及系统

技术领域

本发明涉及智能交互技术领域，尤其是涉及一种基于Transformer模型的用户交互方法及系统。

背景技术

在用户首次使用APP、APP上线新功能及功能调整等多个场景下，经常出现用户需要解答的情况，比如说关于APP使用的问题或困惑、页面的点击和跳转如何满足条件、需求服务的入口的探寻、出现的错误提示的引导步骤等。

在目前市场上绝大多数的APP中，新手引导、帮助中心和客服对话等系统还处于需要人工整理、配置和应用的状态，然而统一、标准的回答和引导无法解决用户在不同环境、时间、条件下使用APP所遇到问题或解答相关困惑，从而需要进一步咨询人工来进行对话和处理，从而完成对应问题的处理和解答。

在此过程中，暴露出以下几个问题和缺陷。

标准化的“智能问答”对话、引导，容易答非所问，用户无法得到有用信息，也无法解决自身使用APP时出现的问题。

在自身问题无法得到解决的前提下，会被引导进入人工对话，而在此过程中，客服工作人员资源协调的不平衡，一方面会对公司整体的运营成本、人力资源造成更多负担和浪费，另一方面也有可能出现用户拥挤排队、过多占用客服资源的现象。

在处理、解决用户问题过程结束后，实际上，很多用户的问题都有共性，甚至是同一个问题的不同表达，问题的重复性也带来人力资源被重复占用。因此亟需一种方案来节省客服人工成本，将用户输入内容通过统一的模型进行训练。

名词解释：

Transformer模型：一种神经网络，通过跟踪序列数据中的关系来学习上下文并因此学习含义，其应用了一组不断发展的数学技术，称为注意力或自我注意力，以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。Transformer模型通常由编码器和解码器两部分组成。编码器将输入句子进行编码，解码器同时根据输出句子进行解码。编码器和解码器中均包括了多层的自注意力机制和前馈神经网络层，用于学习输入句子中的上下文信息和生成输出句子。

MLP网络：多层感知器网络，在深度学习领域中是一种常见的前馈神经网络。它由多个神经元层组成，通常包括输入层、隐层和输出层，每个神经元层都与相邻的层相连，且神经元都具有输入和输出，并且这些异或非线性神经元通常以特定的方式进行连接。

发明内容

为了解决上述提到的问题，本发明提供一种基于Transformer模型的用户交互方法及系统。

第一方面，本发明提供的一种基于Transformer模型的用户交互方法，采用如下的技术方案：

一种基于Transformer模型的用户交互方法，包括：

获取用户的文本数据；

对获取的文本数据进行预处理，包括基于关键词的方法对文本数据进行文本向量化；

将向量化后的文本数据转为图结构，得到图结构的节点和边，其中节点表示单词，边表示单词之间的关联；

构建Transformer模型，并对Transformer模型进行训练；

对训练后的Transformer模型进行技能嵌入；

利用Transformer模型对图结构的节点和边进行特征提取，得到全局特征向量；

对全局特征向量进行线性变换和激活函数操作，输出结果。

进一步地，所述基于关键词的方法对文本数据进行文本向量化，包括获取文本数据中的关键词，将关键词映射到唯一的整数ID上。

进一步地，所述对训练后的Transformer模型进行技能嵌入，包括将文本数据的已知答案和相关信息嵌入到Transformer模型中。

进一步地，所述对Transformer模型进行训练，包括基于无监督学习和自监督学习方法对Transformer模型进行训练。

进一步地，所述利用Transformer模型对图结构的节点和边进行特征提取，包括利用均值方差方法对节点上的特征向量进行标准化，以统一数据的尺度。

进一步地，所述利用Transformer模型对图结构的节点和边进行特征提取，还包括在图结构的每个节点上执行MLP网络，得到节点的特征向量表示；通过对所有节点的特征向量进行加权平均，得到图结构的全局特征向量。

进一步地，所述对全局特征向量进行线性变换和激活函数操作，包括通过线性变化和激活函数操作对全局特征向量进行聚类，得到更高维度的全局特征向量。

第二方面，一种基于Transformer模型的用户交互系统，包括：

数据获取模块，被配置为，获取用户的文本数据；

预处理模块，被配置为，对获取的文本数据进行预处理，包括基于关键词的方法对文本数据进行文本向量化；

转换模块，被配置为，将向量化后的文本数据转为图结构，得到图结构的节点和边，其中节点表示单词，边表示单词之间的关联；

模型模块，被配置为，构建Transformer模型，并对Transformer模型进行训练；对训练后的Transformer模型进行技能嵌入；

特征提取模块，被配置为，利用Transformer模型对图结构的节点和边进行特征提取，得到全局特征向量；

变换模块，被配置为，对全局特征向量进行线性变换和激活函数操作，输出结果。

第三方面，本发明提供一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于Transformer模型的用户交互方法。

第四方面，本发明提供一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于Transformer模型的用户交互方法。

综上所述，本发明具有如下的有益技术效果：

本发明通过Transformer结构可以很好的处理和统计用户的输入，并利用其来训练统计问题。并因为该结构的自注意力机制，可以捕捉到文本中的依赖关系，从而更好的理解的上下文并作出相应的输出内容给用户。

通过采用无监督学习和自监督学习等方法，基于对比学习的语言模型和自编码器，提高模型的性能和泛化能力。过给定范围内的数据进行训练，并针对该范围内的问答进行优化。可以保证需答疑的回答在事先给定的范围内，并且能够提供准确和有用的回答。同时，该方法还可以快速建立一个可以自动化回答问题的用户个性化管家实现方案，从而减轻人工客服工作人员的工作量，提高工作效率，提升用户体验。

本发明的模型对应边的权重是通过学习得到的，因此不需要计算所有节点之间的相对权重，从而避免了平方级别的计算复杂度，大大降低了时空复杂度。这种方法使得模型可以在更高效的情况下捕获更全局的信息，从而取得更好的性能。

提高客服服务效率: 用户个性化管家系统(以下简称：该方案)可以自动化回答用户的常见问题，可以更快速地解决问题，从而提高客服服务效率。提升用户体验：由于该方案能够快速、准确地回答用户的问题，用户无需等待很久才能得到回复，这可以提升用户体验。降低人工客服成本：该方案可以自动回答用户的问题，降低了公司的人工客服成本，节省人力和金钱资源。

提高客服工作质量：该方案回答问题的准确度可以提高，而且从数据的角度来看，该方案可以快速检索和整理大量的数据，提高客服工作质量。增加用户粘性：该方案可以对用户的提问进行分析，从而更好地了解用户的需求，并为用户提供个性化的服务，这可以增加用户对公司的信任和忠诚度，提高用户粘性。

附图说明

图1是本发明实施例1的一种基于Transformer模型的用户交互方法的示意图。

图2是本发明实施例1的生成图结构的节点和边并输入模型的示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

实施例1

参照图1，本实施例的一种基于Transformer模型的用户交互方法，包括：

获取用户的文本数据；

构建Transformer模型，并对Transformer模型进行训练；

对训练后的Transformer模型进行技能嵌入；

对全局特征向量进行线性变换和激活函数操作，输出结果。其中输出一个经过处理的、维度较低、具有丰富语义信息的全局特征向量，通常情况下，这个全局特征向量可以用于对整个图进行分类、聚类或者推荐等任务。

具体的，本实施例的一种基于Transformer模型的用户交互方法，包括以下步骤：

S1. 获取用户的文本数据；

收集用户在使用APP时遇到的问题和客服工作人员提供的解决方案，并将这些问题和方案组成一个问题-回答数据集。根据实际情况，将这个数据集分为几个范围，例如基本问题、常见问题和高级问题等。

S2. 对获取的文本数据进行预处理，基于关键词的方法对文本数据进行文本向量化，获取文本数据中的关键词，将关键词映射到唯一的整数ID上，该整数ID是指每个关键词都有一个对应的、唯一的整数序号作为它的ID。通常采用词表方式将此唯一ID与关键词建立映射关系，其ID生成方式可以使用哈希函数或者基于计数的方法生成。

数据预处理方面，对于需要答疑的场景，我们可以收集用户在使用APP时遇到的问题和客服工作人员提供的解决方案，并将这些问题和方案组成一个问题-回答数据集。根据实际情况，我们可以将这个数据集分为几个范围，例如基本问题、常见问题和高级问题等。

对于每个范围，需要利用自然语言处理技术和人工智能技术进行数据处理和预训练。具体地，使用词向量、句子嵌入和注意力机制等技术来建立问题和方案之间的语义关系，并将这些关系编码成向量表示，作为神经网络模型的输入。

S3. 将向量化后的文本数据转为图结构，得到图结构的节点和边，其中节点表示单词，边表示单词之间的关联；

将数据进行向量化处理，对数据之间的关系进行建模，形成一个结构，在其中有诸多节点，每一个节点对应着数据样本的一个维度（即特征向量），而在这个结构中用以连接节点的边则代表着数据样本之间的联系关系，从而使其对整体建模。

在将文本序列转换为一个结构后，其中的节点就代表输入拆解开的一个词语活单词，边指的是词语间的关系，并将其传入模型进行特征的提取和计算。如图2所示即为生成图结构的节点和边并输入模型的示意图。具体来说，包括两个步骤。

将文本序列转换成图结构，其中每个节点代表一个单词或者短语，边表示它们之间的关系或者语义相似度。节点之间的权重可以通过计算它们之间的相似度得到。

为了使生成节点以及节点向量更好的比较和融合，选择将其进行标准化计算，为此，选择使用均值方差的方法进行标准化，具体来说，

具体来说，对于节点i的某个特征向量xi，可以计算其标准差。

利用以下公式进行标准化计算（xij表示标准化后的向量）。

通过使用均值方差方法进行标准化，可以统一数据的尺度，防止数据间存在明显的数量级差异，使得不同节点之间的特征向量具有更好的可比性和可融合性。

S4.构建Transformer模型，并对Transformer模型进行训练；

Transformer结构其核心注意力机制是自注意力机制，这种注意力机制在处理较长序列时存在性能瓶颈，由于每个位置都需要计算出相对于其他所有位置的注意力得分，时间复杂度为O(n^2)，因此当序列长度增加时，计算量成平方级别增加，导致计算和存储资源的开销急剧增加，而用户可能会因为描述问题场景使输入文字增多。因此考虑采用一种新的非线性注意力机制，其原理是通过将注意力权重转为概率分布来解决这一问题。

包括，基于无监督学习和自监督学习方法对Transformer模型进行训练。

其中，无监督学习方式：对输入的文本数据中的某些token进行掩码，并让模型尝试预测被掩码的token。这样做可以迫使模型在训练过程中更好地理解文本数据中的上下文关系，并获得一些泛化能力强的表示形式。例如输入文本，“我忘记密码了，无法登录APP了”，在模型中，将忘记一次进行遮盖，让模型根据上下文进行预测被遮盖的单词文本，如模型预测“忘记”一词，可给予模型权重加分，以“鼓励”模型猜对；反之则对应“惩罚”。

自监督学习方式：即在每个时间步上尝试预测给定的序列中下一个token的出现概率。这样做可以让模型更好地掌握文本数据中的语法和语义信息，并为后续的文本生成、对话生成等任务提供基础。

S5.对训练后的Transformer模型进行技能嵌入，包括将文本数据的已知答案和相关信息嵌入到Transformer模型中。

在用户个性化管家实现方案中，技能嵌入是非常重要的。技能嵌入是一个人工智能模块，可以将已知答案和相关信息嵌入到模型中，以便模型可以更好地理解和回答与该技能相关的问题。在用户个性化管家实现方案中，利用技能嵌入来提高模型的性能和准确性。

S6.利用Transformer模型对图结构的节点和边进行特征提取，包括利用均值方差方法对节点上的特征向量进行标准化，以统一数据的尺度。

在图结构的每个节点上执行MLP网络，得到节点的特征向量表示；通过对所有节点的特征向量进行加权平均，得到图结构的全局特征向量。

其中，MLP称为多层感知器网络，在深度学习领域中是一种常见的前馈神经网络。它由多个神经元层组成，通常包括输入层、隐层和输出层，每个神经元层都与相邻的层相连，且神经元都具有输入和输出，并且这些异或非线性神经元通常以特定的方式进行连接。

MLP具体结构：输入层接收输入数据并将其传递给第一个隐层，第一个隐层将其乘以权重加上偏置后，通过激活函数（如sigmoid等）将结果进行非线性转换之后输出。然后将第一个隐层的输出传递到第二个隐层，并重复前面的步骤，直到最后一个隐层。最后一个隐层的输出会被送入到输出层，输出层中的每个节点计算输入并按照一定规则进行加权求和后，再通过激活函数进行非线性转换以得到最终输出结果。

在每个节点上执行MLP网络的步骤如下：

1.初始化网络参数（权重和偏差）。

2.对于输入数据，将其送入到输入层。

3.将输入数据通过权重矩阵和偏差向量进行线性变换。

4.将线性变换的结果通过激活函数进行非线性转换。

5.将非线性转换的结果传递到下一个隐层或输出层。

6.重复步骤3-5，直到所有隐层和输出层都完成计算。

7.计算输出层的误差，并反向传播误差到每一层的节点中。

8.通过梯度下降法或其他优化算法，更新权重和偏差，以最小化网络的损失函数。

9.重复步骤2-8，直到满足停止条件（如达到最大迭代次数或误差达到预设阈值）。

假设我们有一个图，其中每个节点都有一个特征向量，现在想要对所有节点的特征向量进行加权平均，得到图结构的全局特征向量，具体步骤如下：

1.对于每个节点，使用MLP网络将其特征向量映射到一个低维空间中。

2.对于映射后的每个节点，计算该节点的权重。权重可以根据节点的度量、距离等信息来计算。

3.对于所有节点的映射向量，根据它们的权重进行加权平均。即对于第i个个节点的映射向量Xi，其加权系数为Wi，则全局特征向量Z可表示为：

其中n为节点数量。

4.对于得到的全局特征向量Z，可以通过如降维技术等方式进行可视化或进行下游任务（如分类、聚类、回归等）。

总而言之，对所有节点的特征向量进行加权平均，得到图结构的全局特征向量，使用MLP网络将每个节点的特征向量映射到低维空间中，计算节点的权重，并进行加权平均，据此得到的全局特征向量可用于降维、可视化或下游任务。

S7.对全局特征向量进行线性变换和激活函数操作，输出结果。

通过使用MLP网络、加权平均、线性变换和激活函数，从图结构中提取出一些有价值的特征信息。

（1）把图结构想象成一张图片，每个节点都有一个特定的颜色和位置。需要使用MLP网络去分析每个节点的颜色和位置，并把这些信息转换为数字，得到节点的特征向量。

（2）把所有节点的特征向量加起来，再根据节点的重要程度进行不同权重的加权平均。这样，得到一张图片的全局特征向量，它可以代表整张图片的特征。

（3）用线性变换的方法（线性变换解释：线性变换是一种对向量或矩阵进行线性操作的数学方法，简单来说，它将一个向量或矩阵映射到另一个向量或矩阵，并通过矩阵乘法和加法实现，对全局特征向量进行处理。简单来说，线性变换可以帮助找到一些与整张图片有关的规律或者模式，这些规律或模式可能难以在原始数据中直观地发现。

（4）把线性变换后得到的结果输入到一些激活函数中。这些函数可以进一步提取特征信息，并帮助更好地理解、分类或者可视化整张图片。

实施例2

本实施例提供一种基于Transformer模型的用户交互系统，包括：

数据获取模块，被配置为，获取用户的文本数据；

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于Transformer模型的用户交互方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于Transformer模型的用户交互方法。

以上均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.一种基于Transformer模型的用户交互方法，其特征在于，包括：

获取用户的文本数据；

构建Transformer模型，并对Transformer模型进行训练；

对训练后的Transformer模型进行技能嵌入；

对全局特征向量进行线性变换和激活函数操作，输出结果。

2.根据权利要求1所述的一种基于Transformer模型的用户交互方法，其特征在于，所述基于关键词的方法对文本数据进行文本向量化，包括获取文本数据中的关键词，将关键词映射到唯一的整数ID上。

3.根据权利要求2所述的一种基于Transformer模型的用户交互方法，其特征在于，所述对训练后的Transformer模型进行技能嵌入，包括将文本数据的已知答案和相关信息嵌入到Transformer模型中。

4.根据权利要求3所述的一种基于Transformer模型的用户交互方法，其特征在于，所述对Transformer模型进行训练，包括基于无监督学习和自监督学习方法对Transformer模型进行训练。

5.根据权利要求4所述的一种基于Transformer模型的用户交互方法，其特征在于，所述利用Transformer模型对图结构的节点和边进行特征提取，包括利用均值方差方法对节点上的特征向量进行标准化，以统一数据的尺度。

6.根据权利要求5所述的一种基于Transformer模型的用户交互方法，其特征在于，所述利用Transformer模型对图结构的节点和边进行特征提取，还包括在图结构的每个节点上执行MLP网络，得到节点的特征向量表示；通过对所有节点的特征向量进行加权平均，得到图结构的全局特征向量。

7.根据权利要求6所述的一种基于Transformer模型的用户交互方法，其特征在于，所述对全局特征向量进行线性变换和激活函数操作，包括通过线性变化和激活函数操作对全局特征向量进行聚类，得到更高维度的全局特征向量。

8.一种基于Transformer模型的用户交互系统，其特征在于，包括：

数据获取模块，被配置为，获取用户的文本数据；

9.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1所述的一种基于Transformer模型的用户交互方法。

10.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1所述的一种基于Transformer模型的用户交互方法。