CN115604040B

CN115604040B - 一种基于ip访问序列的异常访问行为识别方法

Info

Publication number: CN115604040B
Application number: CN202211616801.1A
Authority: CN
Inventors: 赵新建; 张明明; 夏飞; 袁国泉; 张颂; 陈石; 徐晨维; 宋浒; 王鹏飞
Original assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-03-10
Anticipated expiration: 2042-12-16
Also published as: CN115604040A

Abstract

本发明公开了一种基于IP访问序列的异常访问行为识别方法，包括以下步骤：选定某IP的用户，根据该IP用户多天访问记录提取访问序列，基于访问序列构建反映该用户访问行为模式的概率前缀树，并根据设定的概率阈值对概率前缀树进行剪枝，定义概率前缀树相似度计算方法；基于该IP用户近期某段时间内的访问记录提取其访问序列，根据访问序列构建该用户近期的概率前缀树。计算该用户历史概率前缀树与其近期概率前缀树的相似度，相似度越大表明该用户的访问行为模式越稳定，其访问行为越正常；反之，表明该用户的访问行为模式异常性越显著。本发明能根据用户历史概率前缀树与近期前缀树的相似度分析计算，识别用户访问行为的异常情况。

Description

一种基于IP访问序列的异常访问行为识别方法

技术领域

本发明涉及的是一种异常访问行为识别方法，具体涉及的是一种基于IP访问序列的异常访问行为识别方法。

背景技术

随着网络和信息化技术的快速发展，网络化已成为中大型企业开展业务工作的常态，企业构建基于互联网的业务系统网站，将主要业务功能模块部署在不同的服务器上（对应不同的服务器IP地址）。员工在单位内被分配固定的客户端IP地址，以及各个业务系统的用户名和账号，员工利用终端电脑登录各业务系统网站，完成各类业务工作。

企业信息化和业务网络化过程中，内网的安全性已成为企业管理者关注的重点。已有的企业网站安全管理技术主要采用目标端口扫描、禁止链接特定IP、下载流量限制等方法对员工的网络访问操作进行管控。然而，通过技术或非技术手段利用内网用户的客户端机器（具有合法的客户端IP地址）访问企业的网站服务器，窃取企业数据和服务，已成为企业内网需要重点防御的攻击形式。这类攻击的重要表现是企业内网用户的异常访问，例如某名员工对公司网站业务模块的常规访问顺序是B-A-D-C，其中A、B、C、D对应四个业务模块所部署服务器的IP地址，当某一天该用户访问序列出现显著的不一致，意味着其办理的不是本职工作内的业务，甚或非其本人进行业务操作，可能对应对企业内网的非法攻击。需要指出的是这种服务器IP访问序列无法事先指定，不同用户在企业内部被分配使用固定的客户端IP地址，该用户通过客户端IP地址对企业网站业务模块所部署服务器的访问与用户工作职责、个人上网习惯都有关。需要结合用户阶段历史访问日志（例如交换机连接记录），提取其常态访问序列，进而提取该用户当前的服务器IP访问序列，通过分析当前访问序列和该用户常态访问序列的差异，进行访问行为异常判断。这种访问行为异常的发现是排查黑客入侵等非法网络攻击的重要线索。当前，以限制访问为主的网络平台安全管理方法，难以支撑这类对用户访问行为的监管需要。

本发明针对企业内网环境，依赖交换机所记录的内网用户客户端机器连接企业服务器的交换机访问日志，需要获取的交换机访问日志主要包括如下属性：源IP(client_ip)、目的IP(server_ip_addr)、访问开始时间(flow_start_time)、访问结束时间(flow_end_time)，其中源IP指内网用户在企业内被分配的固定IP地址，目的IP指企业主要业务功能软件所部署服务器的IP地址，通常企业具有众多的服务器，因此目的IP也具有多个。本发明基于上述交换机访问日志，提出基于IP访问序列的异常访问行为识别方法，利用概率前缀树描述IP用户序列访问行为模式，根据用户历史概率前缀树与近期前缀树的相似度分析计算，评估用户访问行为的异常性，计算得到的异常值与阈值差别越大，相应内网用户IP的访问行为异常性越显著，对应网络攻击风险越大。通过将访问行为异常性较高的用户IP提供给企业网络安全管理者，可以为企业网站平台防御非法网络攻击提供线索，网安管理者可以采用阶段封停高风险用户IP、内部用户问责等措施积极规避潜在攻击风险。

发明内容

针对于上述现有技术的不足，本发明提供了一种基于IP访问序列的异常访问行为识别方法。

本发明采用的技术方案为：

一种基于IP访问序列的异常访问行为识别方法，包括以下步骤：

（1）获取用户历史若干天访问记录；

（2）对

中每一天访问记录进行排序；

（3）对

中记录进行划分，得到用户每天单次访问链的目的IP序列集合

；

（4）对

中IP访问序列进行筛选，得到用户每天的用于构建概率前缀树的IP访问序列；

（5）根据

中IP访问序列建立历史概率前缀树

；

（6）对历史概率前缀树

进行剪枝；

（7）获取该用户当前若干天访问记录

，并按照步骤（2）~（6）对

进行处理得到当前概率前缀树

；

（8）计算历史概率前缀树

与当前概率前缀树

的相似度；

（9）设置异常阈值，当相似度小于异常阈值时给出预警。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤（1）中，

，其中访问记录

为该用户一次访问的网络层访问记录，记录至少包括如下属性：源IP：client_ip、目的IP：server_ip_addr、访问开始时间flow_start_time和访问结束时间flow_end_time。

上述的步骤（2）中，对

中每一天访问记录进行排序的规则为：先按照flow_end_time进行非递减排序，当flow_end_time相同时，再按照flow_start_time进行非递减排序。

上述的步骤（3）中，对

的方法为：将

中每天访问记录序列的第一个访问记录的目的 IP 记作访问序列Q1的初始节点，对于后一次访问记录：

1)两次访问间隔小于等于sequence-threshold且大于visit-threshold，将后一次访问记录目的IP记作当前访问的后继，加入Q1；其中，访问间隔是指访问记录的flow_end_time间隔，sequence-threshold可取大于0的任意数值，visit-threshold取值范围为大于0且小于sequence-threshold；

2)两次访问间隔小于等于sequence-threshold且小于等于visit-threshold，若两次访问记录目的IP相同，记作重复访问；若两次访问记录目的IP不同，仍记作当前访问的后继，加入Q1；

3)两次访问间隔大于sequence-threshold，停止扩展Q1，将Q1加入

，Q1清空，并处理后续访问记录。

上述的步骤（4）中对

中IP访问序列进行筛选，得到用户每天的用于构建概率前缀树的IP访问序列的方法为：统计

中每天每一次访问序列前两个目的IP的集合

以及出现的次数

，记作

；统计

中大于等于

对应的

，结果记作

，其中

为天数阈值，取值为[0，1]；遍历

，对于

中每天任意访问序列，如果该访问序列前两个目的IP在

中，则将此访问序列保留，反之则去除。

上述的步骤（5）中根据

中IP访问序列建立历史概率前缀树

的方法为：新建概率前缀树虚拟根节点

，设置

计数值为

中IP访问序列个数，遍历

中IP访问序列，对

中任意访问序列

，首先判断

是否有孩子节点

，若有，则孩子节点

计数值自增一；若没有，则新建

的孩子节点

，其计数值为1，同理判断节点

是否有孩子节点

，若有，则孩子节点

计数值自增一；若没有，则新建

的孩子节点

，其计数值为1；重复上述操作直到遍历完

，则

插入过程结束；对

中任意IP访问序列进行上述操作，操作完成则历史概率前缀树

插入过程结束；接着更新历史概率前缀树任意父子节点之间分支概率，计算方法为：已知

中任意两个节点

和

，且

是

的父节点，

和

的计数值分别为

和

，则

到

的分支概率

；

所有分支概率计算完毕则历史概率前缀树构建完成。

上述的步骤（6）中对历史概率前缀树

进行剪枝的方法如下：设置剪枝概率阈值

，

取值范围为[0,1]，从

中根节点开始，逐层往下处理，如果当前层中有父子节点间分支概率小于

，则删除以该子节点为根节点的子树，重复上述过程，直到

中所有分支概率都大于等于

。

上述的步骤（8）中，计算历史概率前缀树

与当前概率前缀树

的相似度，计算原理如下：

相似度函数

定义为将

转换为

的节点编辑操作的操作消耗，

考虑对历史概率前缀树

与当前概率前缀树

进行以下三类编辑操作：

1) 删除一个节点连同该节点为根节点的子树；

2) 对现有节点插入一个孩子节点；

3) 重命名节点的标签；

编辑操作步骤如下：① 将历史概率前缀树

与当前概率前缀树

的概率前缀树

进行转化为权重树

，需要首先将概率前缀树树中分支概率转化成节点的概率；即：将根

的节点概率设置为1，其余节点的节点概率为

节点到该节点的路径上所有分支概率乘积所得；② 自定义三类编辑操作的操作消耗，设

为任意两棵权重树，树中每个节点都有标签IP值，记作

，以及权值weight，定义三类编辑操作的操作消耗分别为，

删除：删除

上的某个节点

的消耗为

的权重；

插入：在

上插入

中的某个节点

的消耗为

的权重；

重命名：将

某个节点

重命名为

上的某个节点

的消耗分为两种情况：如果

且

，则消耗为0；如果

但是

，则消耗为

；其他情况消耗为

；

定义权重树中节点集的最小代价配对操作：记权重树中节点

的孩子节点集为

，节点个数记作

，对于

中任意节点

和

中任意节点

，若

，则对

和

中节点进行两两配对，得到配对集合

，其中

属于

，

属于

，并且该种配对满足将配对集合中所有

从

重命名为

的操作消耗总和小于其他配对，再按照配对集合进行对应重命名，保存每次重命名的操作消耗，直到配对集合元素重命名完成，累加每次重命名的操作消耗得到重命名总操作消耗，并返回重命名总操作消耗；若

，在

选择若干和

数量相等的节点，并进行配对操作，使得操作消耗总和小于其他配对，同时对

插入

中未配对的节点，保存每此插入一个未配对的节点的操作消耗，最终求和得到插入总操作消耗，并返回插入总操作消耗；若

，在

选择若干和

数量相等的节点，并进行配对操作，使得操作消耗总和小于其他配对，同时删除

未配对的节点，保存每次删除一个未配对的节点的操作消耗，最终求和得到删除总操作消耗，并返回删除总操作消耗；称此过程为

与

的最小配对操作，接下来计算相似度流程：每次对

进行修改，直到将

转化为

，定义转化总操作消耗

初始为0，操作步骤数

初始为0，从根节点出发，如果

以及

同时为空，则不做任何处理；如果

为空且

非空，则对

进行插入操作，依次插入节点

，保留每插入一个节点的操作消耗，并且

加上插入该节点的操作消耗，

自增1；如果

非空且

为空，则对

进行删除操作，依次删除

所有孩子节点，保留每删除一个节点的操作消耗，并且

加上删除该节点的操作消耗，

自增1；如果

以及

同时非空，则对

和

进行上述最小代价配对操作，

加上最小代价配对操作的返回值，

自增1，再分别对配对的节点对应的子树重复上述转化操作，直到转化完成，历史概率前缀树

与当前概率前缀树

的相似度

。

本发明与现有技术相比，具有以下优点：

内网的安全性已成为企业管理者关注的重点，已有的企业网站安全管理技术主要采用目标端口扫描、禁止链接特定IP、下载流量限制等方法对员工的网络访问操作进行管控，针对这些方法难以有效抵御公司内网环境下，基于内网合法用户访问接口（合法用户IP）对企业数据与服务的窃取攻击问题，本发明从内网用户网络访问行为模式角度，提出内网用户异常访问行为识别方法，支撑企业内网安全风险防范。

相较已有的网络访问行为模式提取方法多数采用深度学习等技术，采集大量的有标签用户群体的访问记录提取正常访问模式，对测试样本进行异常性识别，存在异常识别方法计算复杂，对访问记录规模以及包含的日志数据属性的完备性要求较高等问题。本发明针对企业内网环境，依赖交换机所记录的内网用户客户端机器连接企业服务器的交换机访问日志，仅需要获取以下交换机访问日志属性：源IP(client_ip)、目的IP(server_ip_addr)、访问开始时间(flow_start_time)、访问结束时间(flow_end_time)，即可支撑内网用户访问行为模式的提取和异常访问行为的识别。本发明基于上述交换机访问日志，提出基于IP访问序列的异常访问行为识别方法，利用概率前缀树描述IP用户序列访问行为模式，根据用户历史概率前缀树与近期前缀树的相似度分析计算，评估用户访问行为的异常性。通过将访问行为异常性较高的用户IP提供给企业网络安全管理者，可以为企业网站平台防御非法网络攻击提供线索，网安管理者可以采用阶段封停高风险用户IP、内部用户问责等措施积极规避潜在的网络攻击风险。

实际应用成效表明，本发明所提方法具有便捷高效的优点。通过采集交换机日志数据，添加内网用户身份标签，进行离线行为模式提取分析，表明本发明所提异常网络访问行为识别方法具有与基于神经网络模型的深度学习方法相近的识别准确性，但规避了神经网络模型对用户标签的依赖，以及计算复杂度较高，难以部署于企业内网进行在线识别检测的不足。

附图说明

图1为本发明系统框架图；

图2为本发明异常访问行为识别流程图；

图3为本发明实施例的历史三天概率前缀树示意图(剪枝前)；

图4为本发明实施例的历史三天概率前缀树示意图(剪枝后)；

图5为本发明实施例的当前两天概率前缀树示意图(剪枝前)；

图6为本发明实施例的当前两天概率前缀树示意图(剪枝后)；

图7为本发明实施例历史三天概率前缀树转化的权重树示意图；

图8为本发明实施例当前两天概率前缀树转化的权重树示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如表1所示，给出了用户历史三天的IP访问记录表，表中每一条记录表示用户在网络机器上的一次网络访问，其中表中记录已按(flow_end_time，flow_start_time)递增排序。

表1：历史三天IP访问记录表

提取表1中每天单次访问链目的IP序列。设置sequence-threshold=10，visit-threshold=5。以2022.1.23数据为例，将第一条记录目的IP，即10.132.88.38作为一条IP序列的开始，由于第二条记录和第一条记录间隔3-1=2 小于sequence-threshold 同时也小于visit-threshold，则将第二条记录目的IP，即21.45.20.30加入10.132.88.38后面，又第三条记录和第二条记录间隔15-3=12大于sequence-threshold，则扩展结束，即10.132.88.38→21.45.20.30为提取的一条IP序列；类似地，可以得到用户历史三天每一天的IP序列，结果为，

={2022.1.23：10.132.88.38→21.45.20.30，10.132.88.38→21.45.20.30，10.5.70.19→11.4.30.13，10.5.70.19→12.6.29.63，172.17.2.23→177.9.18.21，177.9.18.21→177.67.19.20→187.8.19.19，10.5.70.19→11.4.30.13，10.5.70.19→12.6.29.63，10.5.70.19→20.45.17.52，10.5.70.19→22.58.133.86，2022.1.24：10.132.88.38→177.9.18.21，10.5.70.19→20.45.17.52，172.17.2.23→10.5.70.19，10.132.88.38→21.45.20.30，2022.1.25：10.132.88.38→177.9.18.21，10.5.70.19→22.58.133.86，172.17.2.23→10.5.70.19，172.17.2.23→177.9.18.21}。

设置天数阈值thresh=0.6，统计

中所有IP序列前两位及其次数，结果为IPs={10.132.88.38→21.45.20.30:3，10.132.88.38→177.9.18.21:2,10.5.70.19→11.4.30.13:2,10.5.70.19→12.6.29.63:2,10.5.70.19→20.45.17.52:2,10.5.70.19→22.58.133.86:2,172.17.2.23→177.9.18.21:2,172.17.2.23→10.5.70.19:2,177.9.18.21→177.67.19.20:1}，由于k*thresh=3*0.6=1.8,对IPs出现次数大于等于1.8的IP序列予以保留，反之则舍去。

根据处理后的

建立的用户历史三天概率前缀树如图3所示。

Pruning_thresh为0.35，剪枝后用户历史三天概率前缀树如图4所示。

同理，如表2所示，给出了用户当前两天的IP访问记录表。

表 2：当前两天IP访问记录表

按用户历史三天的IP访问记录表的计算方式，获得用户当前两天概率前缀树剪枝前、剪枝后结果。

图5、图6分别是用户当前两天概率前缀树剪枝前、剪枝后结果。

计算用户历史三天概率前缀树与当前两天概率前缀树的相似度。首先，图7、图8分别是用户历史三天概率前缀树和当前两天概率前缀树转化的权重树。图7中权重树转化为图8中树，首先两棵树根节点有相同数量的孩子节点，则对两颗树根节点的孩子节点集进行最小配对操作，即将权重为0.47的10.5.70.19节点重命名为权重为0.67的10.5.70.19，操作消耗为|0.47-0.67|=0.2。然后，需要对历史三天概率前缀树的10.5.70.19节点插入20.48.28.35和122.47.18.31两个节点，操作消耗分别为0.335和0.335，所以两个概率前缀树的相似度为1-(0.2+0.335+0.335)/3=0.71。异常阈值设置为0.8，由于0.71小于异常阈值，则说明该用户近期网络访问行为有异常。企业网络安全管理者可以根据异常结论，采取合理措施，积极规避潜在网络攻击风险。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于IP访问序列的异常访问行为识别方法，其特征在于，包括以下步骤：

(1)获取用户历史若干天访问记录history_records；

(2)对history_records中每一天访问记录进行排序；

(3)对history_records中记录进行划分，得到用户每天单次访问链的目的IP序列集合ip_sequence；

(4)对ip_sequence中IP访问序列进行筛选，得到用户每天的用于构建概率前缀树的IP访问序列；

(5)根据ip_sequence中IP访问序列建立历史概率前缀树history_trie；

(6)对历史概率前缀树history_trie进行剪枝；

(7)获取该用户当前若干天访问记录current_records，并按照步骤(2)～(6)对current_records进行处理得到当前概率前缀树current_trie；

(8)计算历史概率前缀树history_trie与当前概率前缀树current_trie的相似度；

(9)设置异常阈值，当相似度小于异常阈值时给出预警；

步骤(5)中根据ip_sequence中IP访问序列建立历史概率前缀树history_trie的方法为：新建概率前缀树虚拟根节点root，设置root计数值为ip_sequence中IP访问序列个数，遍历ip_sequence中IP访问序列，对ip_sequence中任意访问序列sequence＝{ip_1，ip_2，...，ip_m}，首先判断root是否有孩子节点ip_1，若有，则孩子节点ip_1计数值自增一；若没有，则新建root的孩子节点ip_1，其计数值为1，同理判断节点ip_1是否有孩子节点ip-2，若有，则孩子节点ip_2计数值自增一；若没有，则新建ip_1的孩子节点ip-2，其计数值为1；重复上述操作直到遍历完ip_m，则sequence插入过程结束；对ip_sequence中任意IP访问序列进行上述操作，操作完成则历史概率前缀树history_trie插入过程结束；接着更新历史概率前缀树任意父子节点之间分支概率，计算方法为：已知history_trie中任意两个节点node1和node2，且node1是node2的父节点，node1和node2的计数值分别为c(node1)和c(node2)，则node1到node2的分支概率bp＝c(node2)/c(node1)；history_trie所有分支概率计算完毕则历史概率前缀树构建完成。

2.根据权利要求1所述的一种基于IP访问序列的异常访问行为识别方法，其特征在于，步骤(1)中，

history_records＝{day1：s_{1_1}，...，s_{1_n1}，day2：s_{2_1}，...，s_{2_n2}，...，day_k：s_{k_1}，...，s_{k_nk}}，其中day1的含义是用户历史第一天访问，day2是用户历史第二天访问，依次类推，day_k是用户历史第k天访问，s_1-1的含义是该用户第一天第一次访问的网络层访问记录，s_1-n1的含义是该用户第一天第n1次访问的网络层访问记录，依次类推，s_{k_1}的含义是该用户第k天第一次访问的网络层访问记录，s_{k_nk}的含义是该用户第k天第nk次访问的网络层访问记录，记录至少包括如下属性：源IP：client_ip、目的IP：server_ip_addr、访问开始时间flow_start_time和访问结束时间flow_end_time。

3.根据权利要求2所述的一种基于IP访问序列的异常访问行为识别方法，其特征在于，步骤(2)中，对history_records中每一天访问记录进行排序的规则为：先按照flow_end_time进行非递减排序，当flow_end_time相同时，再按照flow_start_time进行非递减排序。

4.根据权利要求2所述的一种基于IP访问序列的异常访问行为识别方法，其特征在于，步骤(3)中，对history_records中记录进行划分，得到用户每天单次访问链的目的IP序列集合ip_sequence的方法为：将hisrory_records中每天访问记录序列的第一个访问记录的目的IP记作访问序列Q1的初始节点，对于后一次访问记录：

3)两次访问间隔大于sequence-threshold，停止扩展Q1，将Q1加入ip_sequence，Q1清空，并处理后续访问记录。

5.根据权利要求4所述的一种基于IP访问序列的异常访问行为识别方法，其特征在于，步骤(4)中对ip_sequence中IP访问序列进行筛选，得到用户每天的用于构建概率前缀树的IP访问序列的方法为：统计ip_sequence中每天每一次访问序列前两个目的IP的集合twoIP以及出现的次数val，记作IPs＝{twoIP₁：val₁，twoIP₂：val₂，...，twoIP_k：val_k}；统计IPs中大于等于k*thresh对应的twoIP_i，结果记作tarIPs＝{twoIP_t1，twoIP_t2，...，twoIP_tn}，其中thresh为天数阈值，取值为[0，1]；遍历ip_sequence，对于ip_sequence中每天任意访问序列，如果该访问序列前两个目的IP在tarIPs中，则将此访问序列保留，反之则去除。

6.根据权利要求5所述的一种基于IP访问序列的异常访问行为识别方法，其特征在于，步骤(6)中对历史概率前缀树history_trie进行剪枝的方法如下：设置剪枝概率阈值pruning_thresh，pruning_thresh取值范围为[0，1]，从history_trie中根节点开始，逐层往下处理，如果当前层中有父子节点间分支概率小于pruning_thresh，则删除以该子节点为根节点的子树，重复上述过程，直到history_trie中所有分支概率都大于等于pruning_thresh。

7.根据权利要求6所述的一种基于IP访问序列的异常访问行为识别方法，其特征在于，

步骤(8)中，计算历史概率前缀树history_trie与当前概率前缀树current_trie的相似度，计算原理如下：

相似度函数sim_trie(history_trie，current_trie)定义为将history_trie转换为current_trie的节点编辑操作的操作消耗，

考虑对历史概率前缀树history_trie与当前概率前缀树current_trie进行以下三类编辑操作：

1)删除一个节点连同该节点为根节点的子树；

2)对现有节点插入一个孩子节点；

3)重命名节点的标签；

编辑操作步骤如下：①将历史概率前缀树history_trie与当前概率前缀树current_trie的概率前缀树trie进行转化为权重树WTree，需要首先将概率前缀树树中分支概率转化成节点的概率；即：将根root的节点概率设置为1，其余节点的节点概率为root节点到该节点的路径上所有分支概率乘积所得；②自定义三类编辑操作的操作消耗，设WTree_i，WTree_j为任意两棵权重树，树中每个节点都有标签IP值，记作label，以及权值weight，定义三类编辑操作的操作消耗分别为，

删除：删除WTree_i上的某个节点node的消耗为node的权重；

插入：在WTree_i上插入WTree_j中的某个节点node的消耗为node的权重；

重命名：将WTree_i某个节点node1重命名为WTree_j上的某个节点node2的消耗分为两种情况：如果node1.label＝node2.label且node1.weight＝node2.weight，则消耗为0；如果node1.label＝node2.label但是node1.weight≠node2.weight，则消耗为|node1.weight-node2.weight|；其他情况消耗为node1.weight+node2.weight；

定义权重树中节点集的最小代价配对操作：记权重树中节点node的孩子节点集为child(node)，节点个数记作|child(node)|，对于WTreei中任意节点node_i和WTree_j中任意节点node_j，若|child(WTree_i.node_i)|＝|child(WTree_j.node_j)|，则对child(WTree_i.node_i)和child(WTree_j.node_j)中节点进行两两配对，得到配对集合{(node1，node2)}，其中node1属于child(WTree_i.node_i)，node2属于child(WTree_j.node_j)，并且该种配对满足将配对集合中所有(node1，node2)从node1重命名为node2的操作消耗总和小于其他配对，再按照配对集合进行对应重命名，保存每次重命名的操作消耗，直到配对集合元素重命名完成，累加每次重命名的操作消耗得到重命名总操作消耗，并返回重命名总操作消耗；若|child(WTree_i.node_i)|＜|child(WTree_j.node_j)|，在child(WTree_j.node_j)选择若干和child(WTree_i.node_i)数量相等的节点，并进行配对操作，使得操作消耗总和小于其他配对，同时对WTree_i.node_i插入child(WTree_j.node_j)中未配对的节点，保存每此插入一个未配对的节点的操作消耗，最终求和得到插入总操作消耗，并返回插入总操作消耗；若|child(WTree_i.node_i)|＞|child(WTree_j.node_j)|，在child(WTree_i·node_i)选择若干和child(WTree_j·node_j)数量相等的节点，并进行配对操作，使得操作消耗总和小于其他配对，同时删除child(WTree_i.node_i)未配对的节点，保存每次删除一个未配对的节点的操作消耗，最终求和得到删除总操作消耗，并返回删除总操作消耗；称此过程为child(WTree_i.node_i)与child(WTree_j.node_j)的最小配对操作，接下来计算相似度流程：每次对WTree_i进行修改，直到将WTree_i转化为WTree_j，定义转化总操作消耗total_cost初始为0，操作步骤数op_num初始为0，从根节点出发，如果child(WTree_i.root)以及child(WTree_j.root)同时为空，则不做任何处理；如果child(WTree_i.root)为空且child(WTree_j.root)非空，则对WTree_i.root进行插入操作，依次插入节点child(WTree_j·root)，保留每插入一个节点的操作消耗，并且total_cost加上插入该节点的操作消耗，op_num自增1；如果child(WTree_i.root)非空且child(WTree_j.root)为空，则对WTree_i·root进行删除操作，依次删除WTree_i.root所有孩子节点，保留每删除一个节点的操作消耗，并且total_cost加上删除该节点的操作消耗，op_hum自增1；如果child(WTree_i.root)以及child(WTree_j.root)同时非空，则对child(WTree_i.root)和child(WTree_j.root)进行上述最小代价配对操作，total_cost加上最小代价配对操作的返回值，op_num自增1，再分别对配对的节点对应的子树重复上述转化操作，直到转化完成，历史概率前缀树history_trie与当前概率前缀树current_trie的相似度sim_trie(history_trie，current_trie)＝1-total_cost/op_num。