CN116881996B

CN116881996B - 基于鼠标操作的建模意图预测方法

Info

Publication number: CN116881996B
Application number: CN202311145859.7A
Authority: CN
Inventors: 郝荣恺
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-01
Anticipated expiration: 2043-09-07
Also published as: CN116881996A

Abstract

本发明公开了一种基于鼠标操作的建模意图预测方法，该方法是基于改进LSTM网络实现预测用户的鼠标建模操作，先采集并预处理鼠标操作数据，再用数据训练改进LSTM网络，得到最优网络，最终通过训练好的最优网络得到预测结果，将预测结果解码转化为具体鼠标操作，将具体鼠标操作显示在用户操作界面，从而完成对建模意图的预测。本发明可以有效识别和分类用户的鼠标操作，并根据用户的行为模式和意图预测其建模需求，提供个性化的建模辅助和建议，实现高精度的建模意图预测，并且满足高实时性的要求。

Description

基于鼠标操作的建模意图预测方法

技术领域

本发明涉及计算机建模的技术领域，尤其是指一种基于鼠标操作的建模意图预测方法。

背景技术

在当前数字化时代，建模已经成为一种重要的技术手段，广泛应用于工程设计、制造、生产等领域，以及计算机图形学、虚拟现实、游戏开发等领域。然而，由于建模软件的复杂性和多样性，用户往往需要花费大量的时间和精力来学习和掌握这些工具和技术，同时也存在建模流程的繁琐和错误率的高问题。

为了解决这些问题，建模意图预测是一个重要的方法，其目的是根据用户的行为模式预测其下一步的操作意图，从而提高系统的智能化和用户体验。其中，基于鼠标操作的建模意图预测是一种常见的方法，通过分析用户在计算机屏幕上的鼠标移动轨迹、点击行为等信息，预测用户的下一步操作意图。传统的建模意图预测方法多采用机器学习算法，如随机森林、支持向量机等来实现，但这些方法往往需要手动提取特征，且无法对序列数据进行建模，因此在处理复杂的人机交互场景时效果不佳。

近年来，深度学习技术在建模意图预测方面取得了较好的效果。其中，LSTM网络是一种常用的深度学习模型，具有较强的时序建模能力，在自然语言处理、语音识别等领域得到广泛应用。然而，在基于鼠标操作的建模意图预测中，传统的LSTM网络存在一些问题，如记忆能力不足、长期依赖建模能力较弱等，因此需要对其进行改进。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于鼠标操作的建模意图预测方法，可以有效识别和分类用户的鼠标操作，并根据用户的行为模式和意图预测其建模需求，提供个性化的建模辅助和建议。该方法能够有效解决传统机器学习算法需要手动提取特征、无法对序列数据进行建模的问题，同时能够对复杂的人机交互场景进行建模，具有较强的时序建模能力。针对传统LSTM网络存在的记忆能力不足、长期依赖建模能力较弱等问题，本发明对计算层和输出层进行改进，引入了Coupled遗忘门机制、批归一化和门控注意力机制等技术，提高了模型的记忆能力、长期依赖建模能力和稳定性，实现了对输入序列不同部分的有针对性的关注和处理。此外，本发明还引入了Highway Networks中的跨层连接，使得LSTM网络在处理多样化的行为模式时更加有效。该方法能够实现高精度的建模意图预测，并且满足高实时性的要求。

为实现上述目的，本发明所提供的技术方案为：基于鼠标操作的建模意图预测方法，该方法是基于改进LSTM网络实现预测用户的鼠标建模操作，该改进LSTM网络是对传统LSTM网络的计算层、输出层进行改进；其中，对计算层的改进包括：遗忘门部分增加Coupled遗忘门机制，用于提高LSTM网络的记忆能力和长期依赖建模能力，输入门、遗忘门和输出门的计算部分应用批归一化，使得LSTM网络在训练过程中更加稳定和可靠，在计算层的不同细胞状态之间引入Highway Networks中的跨层连接，使LSTM网络在处理多样化的行为模式时更加有效；对输出层的改进是：增加门控注意力机制，实现对输入序列不同部分的有针对性的关注和处理；

所述建模意图预测方法的具体实施包括以下步骤：

（1）采集用户的鼠标操作数据，包括：在建模软件中的用户操作序列、建模时间和步骤、建模路径和结果、用户反馈和评价；

（2）对采集到的鼠标操作数据进行预处理，包括：数据清洗、去噪和标准差归一化，确保数据质量和一致性；

（3）将预处理后的鼠标操作数据用字符级别词嵌入转换成LSTM网络能用的格式，并增加位置编码；

（4）将编码后的鼠标操作数据划分成为训练集和测试集，并确保每个数据只出现在一个数据集中，以确保模型的泛化能力；

（5）把训练集的数据送入改进LSTM网络的输入层，计算层通过输入门、遗忘门和输出门对序列中的信息进行控制和筛选；输入门控制当前输入对细胞状态的影响，遗忘门控制前一时刻的记忆状态对当前细胞状态的贡献，输出门控制当前细胞状态对隐藏状态的影响；根据输入门和遗忘门的输出，更新记忆单元状态，根据记忆单元状态和输出门的输出，计算当前时刻的隐藏状态，并将其作为LSTM网络的输出，从而获得建模意图预测结果；其中，将用户的反馈评价作为注意力权重，对门控单元和单元状态的线性组合进行加权，从而调整激励函数；在反向传播中使用交叉熵计算建模意图预测结果的损失值，经过多次迭代至损失值最小，得到最优网络；

（6）将测试集中的数据输入到训练得到的最优网络中得到预测结果，将预测结果解码转化为具体鼠标操作，将具体鼠标操作显示在用户操作界面，从而完成对建模意图的预测。

进一步，在步骤（1）中，所收集的鼠标操作数据，包括：

用户操作序列：记录用户在建模过程中的操作序列，包括鼠标点击和工具选择；

建模时间和步骤：记录用户在建模过程中所花费的时间和完成的步骤；

建模路径和结果：记录用户在建模过程中的路径和结果，包括生成的模型文件、渲染图像和动画；

用户反馈和评价：记录用户在建模过程中的反馈和评价。

进一步，在步骤（2）中，预处理的操作，包括：

数据清洗：在采集鼠标操作数据的过程中，会存在一些无效或错误的数据，因此需要对数据进行清洗，去除无效或错误的数据，以保证数据的质量和一致性；

数据去噪：在鼠标操作数据中，会存在一些噪声或异常值，用孤立森林算法来去除噪声或异常值；

数据归一化：由于鼠标操作数据的范围和大小会有所不同，对数据进行标准差归一化处理。

进一步，在步骤（3）中，将预处理后的鼠标操作数据用字符级别词嵌入转换成LSTM网络能用的格式后，数据中每个元素的位置信息编码成一个向量，并将其与原始特征向量进行拼接。

进一步，在步骤（5）中，改进LSTM网络的结构依次为：输入层、计算层、输出层；其中，计算层的遗忘门部分增加Coupled遗忘门机制，在计算层中，输入门、遗忘门和输出门的计算部分应用批归一化，在计算层的不同细胞状态之间引入Highway Networks中的跨层连接，在输出层中增加门控注意力机制；

Coupled遗忘门机制针对LSTM网络中的遗忘门和输入门进行了优化，具体是：Coupled遗忘门机制将LSTM网络中的遗忘门和输入门进行耦合，引入了一个新的门控单元Coupled遗忘门，从而让它们相互影响，提高了LSTM网络的记忆能力和长期依赖建模能力；在标准的LSTM网络中，遗忘门和输入门是独立的门控单元，分别控制着前一时刻的记忆状态和当前输入向量对当前细胞状态的影响，而Coupled遗忘门则将这两个门控单元进行耦合，使它们能够相互影响，当输入门的输出大时，遗忘门的输出会受到抑制，从而保留前一时刻的记忆状态；当遗忘门的输出大时，输入门的输出会受到抑制，从而遗忘当前输入的一些信息；由于用户的鼠标操作数据具有强的时序关系，需要捕捉到全局的上下文信息，这种相互制约的机制能够使得LSTM网络更加高效地控制记忆状态，从而提升LSTM网络的长期依赖建模能力；

批归一化通过对每个批次数据进行归一化，从而将输入数据的分布限制在一个合适的范围内，使得LSTM网络在训练过程中更加稳定和可靠；批归一化对输入门、遗忘门和输出门的输入进行独立的归一化，以避免不同门之间的干扰；对归一化后的数据进行线性变换和偏置，以还原数据的分布范围和均值；对变换后的数据进行非线性变换，在每个批次中，通过学习一个缩放因子和一个偏置项的方式，对归一化后的数据进行调整，以保证LSTM网络的稳定性和泛化能力；

细胞状态负责存储网络在处理序列数据中的长期依赖关系；引入了 HighwayNetworks 中的跨层连接能够使得细胞状态在不同的时间步之间建立起连接；在基于鼠标操作的建模中，需要考虑到用户的行为模式的多样性和变化性；引入Highway Networks 中的跨层连接能够使得LSTM网络在处理多样化的行为模式时更加有效，从而提高LSTM网络的泛化能力；通过跨层连接，模型能够共享参数，避免了模型在处理多样化行为时出现的过拟合问题，从而提高LSTM网络的泛化能力；在基于鼠标操作的建模中，还需要考虑到用户的长期行为模式；引入 Highway Networks 中的跨层连接能够使得LSTM网络在处理长期信息时更加有效，从而增强LSTM网络的长期记忆能力；通过跨层连接，细胞状态能够在不同的时间步之间建立起连接，从而使得LSTM网络能够更好地存储和传递长期的信息，提高LSTM网络的预测建模能力；

LSTM网络的输出层是网络对输入序列的处理结果进行输出的地方，它的作用是将LSTM网络中的隐藏状态转换为最终的输出结果；增加门控注意力机制能够帮助LSTM网络更加有效地处理输入序列中的信息，实现对输入序列不同部分的有针对性的关注和处理；在传统的LSTM网络中，输出层的隐藏状态是由记忆单元状态和当前时间步的输入共同决定的，但是，在处理长序列时，LSTM网络往往难以捕捉到输入序列中的长期依赖和重要信息，因此，引入门控注意力机制能够提高LSTM网络的性能；门控注意力机制根据当前时间步的输入和前一时间步的隐藏状态，计算出一个权重向量，表示当前时间步对输入序列中不同部分的关注程度，门控注意力机制能够帮助LSTM网络在处理输入序列时关注到最相关的部分，从而提高LSTM网络的表现力和泛化能力。

本发明与现有技术相比，具有如下优点与有益效果：

1、提高了模型的准确率和可靠性：本发明引入了Coupled遗忘门机制、批归一化和门控注意力机制技术，对传统LSTM网络进行了改进，使得模型具有更强的记忆能力、长期依赖建模能力和稳定性，能够对复杂的鼠标操作进行建模，达到更高的准确率和可靠性。

2、实现了对输入序列不同部分的有针对性的关注和处理：本发明引入了门控注意力机制，实现了对输入序列不同部分的有针对性的关注和处理，能够在不同的行为模式下实现更加精确的建模意图预测，同时，由于门控注意力机制可以自适应地对不同的输入进行加权，因此在处理不同类型的鼠标操作时更加灵活。

3、提高了模型的稳定性和可靠性：本发明在计算层中的输入门、遗忘门和输出门的计算部分应用批归一化技术，使得LSTM网络在训练过程中更加稳定和可靠，避免了梯度消失和梯度爆炸等问题，提高了模型的稳定性和可靠性，可以加速网络的训练过程，提高训练速度。

4、在计算层的不同细胞状态之间引入了Highway Networks中的跨层连接，可以有效地缓解梯度消失问题，允许更深的网络结构，从而提高了网络的表达能力。

5、本发明可以有效识别和分类用户的鼠标操作，并根据用户的行为模式和意图预测其建模需求，提供个性化的建模辅助和建议。

6、本发明实现了对鼠标建模意图的准确预测，可以提高用户的建模效率和准确性，同时，基于鼠标操作的建模意图预测方法也为机器学习领域提供了一个新的研究方向，促进了机器学习技术在这一领域的应用和发展。

附图说明

图1为本发明方法的架构图。

图2为改进LSTM网络的结构图；图中，细胞状态t-1表示t-1时刻的细胞状态，细胞状态t表示t时刻的细胞状态。

图3为Highway Networks中的跨层连接图。

图4为门控注意力机制的结构图；图中，输入序列为 y1, y2, ..., yn，每个 LSTM单元 h1,h2, ..., hn 都会根据上一个单元的输出和当前输入 yi 计算出当前的输出 hi和隐藏状态，注意力权重 s1, s2 是根据门控单元和单元状态的线性组合进行加权得到的，z 是所有输入 y1, y2, ..., yn 的加权平均值。

图5为Coupled遗忘门机制的结构图；图中，C_t-1 是上一个时间步的细胞状态，x_t 是当前时间步的输入，W_f 和 W_i 是遗忘门和输入门的权重矩阵，W_c 是当前时间步的输入与细胞状态的权重矩阵，sigmoid是sigmoid函数，tanh是tanh函数，m_t 是当前时间步的输出。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1和图2所示，本实施例公开了一种基于鼠标操作的建模意图预测方法，该方法是基于改进LSTM网络实现预测用户的鼠标建模操作，该改进LSTM网络是对传统LSTM网络的计算层、输出层进行改进；其中，对计算层的改进包括：遗忘门部分增加Coupled遗忘门机制，用于提高LSTM网络的记忆能力和长期依赖建模能力，输入门、遗忘门和输出门的计算部分应用批归一化，使得LSTM网络在训练过程中更加稳定和可靠，在计算层的不同细胞状态之间引入Highway Networks中的跨层连接，使LSTM网络在处理多样化的行为模式时更加有效；对输出层的改进是：增加门控注意力机制，实现对输入序列不同部分的有针对性的关注和处理。

该建模意图预测方法的具体实施包括以下步骤：

（1）采集某用户从2023年4月5日至4月22日在建模软件中的鼠标操作数据，包括：用户操作序列、建模时间和步骤、建模路径和结果、用户反馈和评价，具体如下：

用户操作序列：记录该用户在建模过程中的操作序列，包括鼠标点击、工具选择，共计6172条鼠标操作数据；

建模时间和步骤：记录用户在建模过程中所花费的时间和完成的步骤，时间以秒为单位，完成的步骤都带有时间戳；

建模路径和结果：记录用户在建模过程中的路径和结果，该用户从2023年4月5日至4月22日使用建模软件完成了三个不同汽车发动机缸体的建模；

用户反馈和评价：记录用户在建模过程中的反馈和评价，分为从1-10共10个等级，在使用往期数据进行预测时，用户对每次预测进行评分。

（2）对采集到的鼠标操作数据进行预处理，包括：数据清洗、去噪、标准差归一化，确保数据质量和一致性，经过清洗后剩余5800条鼠标操作数据，具体如下：

数据清洗：在采集鼠标操作数据的过程中，将鼠标长时间未操作、已撤销操作、非法操作等错误或无效数据去除，以保证数据的质量和一致性；

数据去噪：在鼠标操作数据中，会存在一些噪声或异常值，如鼠标连接不良、鼠标指针偏移、鼠标滚轮失灵用户手抖、双击速度过快或过慢、误按键等，用孤立森林算法来去除噪声或异常值；

（3）将预处理后的鼠标操作数据用字符级别词嵌入转换成LSTM网络可用的格式，并增加位置编码，即数据中每个元素的位置信息编码成一个向量，并将其与原始特征向量进行拼接。

（4）将编码后的鼠标操作数据划分成为训练集和测试集，其中训练集比例为75%，测试集比例为25%，并且确保每个数据只出现在一个数据集中，以确保模型的泛化能力，其中训练集4350条鼠标操作序列，测试集1450条鼠标操作序列。

（5）把训练集的数据送入改进LSTM网络的输入层，计算层通过输入门、遗忘门和输出门对序列中的信息进行控制和筛选；输入门控制当前输入对细胞状态的影响，遗忘门控制前一时刻的记忆状态对当前细胞状态的贡献，输出门控制当前细胞状态对隐藏状态的影响；根据输入门和遗忘门的输出，更新记忆单元状态，根据记忆单元状态和输出门的输出，计算当前时刻的隐藏状态，并将其作为LSTM网络的输出，从而获得建模意图预测结果；其中，将用户的反馈评价加入注意力权重，对门控单元和单元状态的线性组合进行加权，从而调整激励函数；在反向传播中使用交叉熵计算建模意图预测结果的损失值，经过多次迭代至损失值最小，得到最优网络；

改进LSTM网络的结构依次为：输入层、计算层、输出层；其中，计算层的遗忘门部分增加Coupled遗忘门机制，在计算层中，输入门、遗忘门和输出门的计算部分应用批归一化，在计算层的不同细胞状态之间引入Highway Networks中的跨层连接，在输出层中增加门控注意力机制；

如图3所示，引入了 Highway Networks 中的跨层连接可以使得细胞状态在不同的时间步之间建立起连接；在基于鼠标操作的建模中，需要考虑到用户的行为模式的多样性和变化性；引入Highway Networks 中的跨层连接可以使得LSTM网络在处理多样化的行为模式时更加有效，从而提高LSTM网络的泛化能力；通过跨层连接，模型可以共享参数，避免了模型在处理多样化行为时出现的过拟合问题，从而提高LSTM网络的泛化能力；在基于鼠标操作的建模中，还需要考虑到用户的长期行为模式；引入 Highway Networks 中的跨层连接可以使得LSTM网络在处理长期信息时更加有效，从而增强LSTM网络的长期记忆能力；通过跨层连接，细胞状态可以在不同的时间步之间建立起连接，从而使得LSTM网络可以更好地存储和传递长期的信息，提高LSTM网络的预测建模能力；

如图4所示，Coupled遗忘门机制主要针对LSTM网络中的遗忘门和输入门进行了优化；具体来说，Coupled遗忘门机制将LSTM网络中的遗忘门和输入门进行耦合，引入了一个新的门控单元Coupled遗忘门，从而让它们相互影响，提高了LSTM网络的记忆能力和长期依赖建模能力；在标准的LSTM网络中，遗忘门和输入门是独立的门控单元，分别控制着前一时刻的记忆状态和当前输入向量对当前细胞状态的影响，而Coupled遗忘门则将这两个门控单元进行耦合，使它们能够相互影响，具体来说，当输入门的输出较大时，遗忘门的输出会受到抑制，从而保留前一时刻的记忆状态；当遗忘门的输出较大时，输入门的输出会受到抑制，从而遗忘当前输入的一些信息；由于用户的鼠标操作数据具有较强的时序关系，需要捕捉到全局的上下文信息，这种相互制约的机制可以使得LSTM网络更加高效地控制记忆状态，从而提升LSTM网络的长期依赖建模能力；

如图5所示，门控注意力机制可以帮助LSTM网络更加有效地处理输入序列中的信息，实现对输入序列不同部分的有针对性的关注和处理；在传统的LSTM网络中，输出层的隐藏状态是由记忆单元状态和当前时间步的输入共同决定的，但是，在处理长序列时，LSTM网络往往难以捕捉到输入序列中的长期依赖和重要信息，因此，引入门控注意力机制可以提高LSTM网络的性能；门控注意力机制根据当前时间步的输入和前一时间步的隐藏状态，计算出一个权重向量，表示当前时间步对输入序列中不同部分的关注程度，门控注意力机制可以帮助LSTM网络在处理输入序列时关注到最相关的部分，从而提高LSTM网络的表现力和泛化能力。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于鼠标操作的建模意图预测方法，其特征在于，该方法是基于改进LSTM网络实现预测用户的鼠标建模操作，该改进LSTM网络是对传统LSTM网络的计算层、输出层进行改进；其中，对计算层的改进包括：遗忘门部分增加Coupled遗忘门机制，输入门、遗忘门和输出门的计算部分应用批归一化，在计算层的不同细胞状态之间引入Highway Networks中的跨层连接；对输出层的改进是：增加门控注意力机制；

所述建模意图预测方法的具体实施包括以下步骤：

（4）将编码后的鼠标操作数据划分成为训练集和测试集，并确保每个数据只出现在一个数据集中；

2.根据权利要求1所述的基于鼠标操作的建模意图预测方法，其特征在于：在步骤（1）中，所收集的鼠标操作数据，包括：

用户反馈和评价：记录用户在建模过程中的反馈和评价。

3.根据权利要求2所述的基于鼠标操作的建模意图预测方法，其特征在于：在步骤（2）中，预处理的操作，包括：

4.根据权利要求3所述的基于鼠标操作的建模意图预测方法，其特征在于：在步骤（3）中，将预处理后的鼠标操作数据用字符级别词嵌入转换成LSTM网络能用的格式后，数据中每个元素的位置信息编码成一个向量，并将其与原始特征向量进行拼接。

5.根据权利要求4所述的基于鼠标操作的建模意图预测方法，其特征在于：在步骤（5）中，改进LSTM网络的结构依次为：输入层、计算层、输出层；其中，计算层的遗忘门部分增加Coupled遗忘门机制，在计算层中，输入门、遗忘门和输出门的计算部分应用批归一化，在计算层的不同细胞状态之间引入Highway Networks中的跨层连接，在输出层中增加门控注意力机制；

Coupled遗忘门机制针对LSTM网络中的遗忘门和输入门进行了优化，具体是：Coupled遗忘门机制将LSTM网络中的遗忘门和输入门进行耦合，引入了一个新的门控单元Coupled遗忘门，让它们相互影响；在标准的LSTM网络中，遗忘门和输入门是独立的门控单元，分别控制着前一时刻的记忆状态和当前输入向量对当前细胞状态的影响，而Coupled遗忘门则将这两个门控单元进行耦合，使它们能够相互影响，当输入门的输出大时，遗忘门的输出会受到抑制，从而保留前一时刻的记忆状态；当遗忘门的输出大时，输入门的输出会受到抑制，从而遗忘当前输入的一些信息；

批归一化通过对每个批次数据进行归一化，将输入数据的分布限制在一个合适的范围内；批归一化对输入门、遗忘门和输出门的输入进行独立的归一化；对归一化后的数据进行线性变换和偏置，以还原数据的分布范围和均值；对变换后的数据进行非线性变换，在每个批次中，通过学习一个缩放因子和一个偏置项的方式，对归一化后的数据进行调整；

细胞状态负责存储网络在处理序列数据中的长期依赖关系，引入了 HighwayNetworks 中的跨层连接使得细胞状态在不同的时间步之间建立起连接，通过跨层连接，模型能够共享参数；

LSTM网络的输出层将LSTM网络中的隐藏状态转换为最终的输出结果，增加门控注意力机制帮助LSTM网络处理输入序列中的信息，门控注意力机制根据当前时间步的输入和前一时间步的隐藏状态，计算出一个权重向量，表示当前时间步对输入序列中不同部分的关注程度。