CN116860977B

CN116860977B - 一种面向矛盾纠纷调解的异常检测系统及方法

Info

Publication number: CN116860977B
Application number: CN202311053620.7A
Authority: CN
Inventors: 田品; 杨婧; 邵研; 王芷霖; 段曼妮; 王永恒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-12-08
Anticipated expiration: 2043-08-21
Also published as: CN116860977A

Abstract

本发明公开了一种面向矛盾纠纷调解的异常检测系统及方法，包括：数据获取模块，获取原始表格数据；数据清洗模块，清洗数据获取有效数据；时序异常检测模块，从有效数据构建时序数据，对时序数据进行线性插值，并对其进行异常检测，得到异常时间段；主题聚类模块：从事项文本获取有效词向量，输入至文本聚类模型，提取事项的主题聚类结果；异常分析模块：对比异常时段与正常时段中事项主题分布的差异，进一步提取聚类主题，提取各聚类主题的关键词和摘要。本发明能够有效感知和汇聚近期异常的矛盾纠纷事件，为管理者提供异常报告，能够以数据驱动的方式提前感知问题，介入纠纷，避免纠纷的扩大和矛盾的深化，提高治理的智能化水平。

Description

一种面向矛盾纠纷调解的异常检测系统及方法

技术领域

本发明属于数据挖掘及分析领域，尤其涉及一种面向矛盾纠纷调解的异常检测系统及方法。

背景技术

随着信息化技术的不断完善，对各类矛盾纠纷事件进行统计分析进而获取纠纷类型的分析系统应运而生。现阶段的分析系统主要提供单纯的统计分析功能，如计数、同比、环比等，同时通过同比、环比的阈值监测数据异常。但管理者在复盘过去一段时间内的矛盾纠纷时，基于阈值的异常报警准确率往往较低，无法反映真实的情况。同时简单的统计分析也无法进一步挖掘潜在的信息，无法反映矛盾发生的具体情况，提供更细粒度的解释性使管理者难以获取有效信息，并对基层业务部门下达决策。

发明内容

本发明的目的在于针对现有技术的不足，提供一种面向矛盾纠纷调解的异常检测系统及方法。

本发明的目的是通过以下技术方案来实现的：一种面向矛盾纠纷调解的异常检测系统，包括：

数据获取模块，用来从矛盾调解业务数据库中获取事项的原始表格数据，并进行数据更新；所述原始表格数据包括事项发生时间、事项地点、事项类别和事项文本；

数据清洗模块，用来对原始表格数据进行合并、新建特征和过滤操作，获取有效数据；

时序异常检测模块，用来从有效数据中构建矛盾纠纷事项发生数量的时序数据，对时序数据进行线性插值完成数据增强，并对其进行异常检测，得到若干数据异常的时间段；

主题聚类模块，用来对异常时间段及其正常时间段所对应的有效数据进行去枝留干处理，得到有效词向量，后将其输入至文本聚类模型，提取事项的主题聚类结果；

异常分析模块，用来根据所述事项的主题聚类结果，对比异常时段与正常时段中事项主题分布的差异，计算对比异常时段与正常时段中同一事项主题的数量差值，通过所述数量差值筛选出对异常情况可解释的聚类主题，提取可解释的聚类主题的关键词和摘要。

进一步地，所述数据清洗模块的处理过程为：

合并数据表：将多表合并为一个表；

去除无用数据：通过关键词以及仅字母和数字混排的句式结构，找出事项文本中的冗余内容；

新建特征：若特征值内容包含多个层级的信息，则拆分为若干特征；将不同数据表中以不同字段名称所表示的同一特征合并后创建新特征；对事项文本，在分词后保留高频关键词列表作为新特征；

选取时间、地点、当事人信息、事件文本和关键词特征，去除无用特征。

进一步地，所述时序异常检测模块中，对矛盾纠纷事项时序数据进行异常检测，具体是指，采用离群点检测模型将偏离正常数量的时间点筛选剥离，定义为异常时间段，处理过程为：

时序数构建据：从有效数据中对各层级行政区分别计数得到每天发生的事项数量，得到时序数据；

数据增强：通过线性插值对时序数据完成数据增强，扩充数据集，然后按照时间顺序排序，添加时间维度索引；

离群点检测模型：TOF异常检测算法通过对时序数据延时嵌入构成特征向量，在拓扑上等价于系统的吸引子；然后在吸引子上每个时间实例的状态空间中进行kNN搜索，并保存每个样本周围k个最近点的时间维度索引；根据kNN点的时间维度索引计算TOF，若TOF大于阈值θ，则标记为异常日期；

异常时间段输出：对任一异常日期查询其前后各一天，若为异常日期，则继续向前/后追溯，最多追溯七天，将连续的异常日期合并为异常时间段；所述时序异常检测模块设置有数据查询接口。

进一步地，所述主题聚类模块的处理过程为：

构建词向量：去枝留干处理具体为对异常时间段及其正常时间段所对应的有效数据进行提取、分词、过滤、加权、归一化、降维，得到有效词向量；

文本聚类模型：采用基于密度的HDBSCAN聚类模型对有效词向量进行聚类，对不同的epsilon值执行DBSCAN，并集成结果；通过对同epsilon，不同随机seed的聚类结果对比，找到聚类结果差异性最小的epsilon参数，使得HDBSCAN找到不同密度的集群，即主题聚类结果。

进一步地，所述构建词向量包括：

切割中文词语：将一长段的中文句段，分离切割成字、词和短语的形式，标注词性，去除无用的词，保留中文句段中能够反映其主要内容的主干部分；

计算特征向量：将事项文本分词后得到一个数据集，通过TF-IDF算法进行向量化处理，按照词性区分调整权重，对词性加权后的TF-IDF词频，根据词频的数据分布，去除词频小于词频阈值的长尾词后进行归一化，通过PCA进行降维处理，得到反映整个事项文本的向量集，每一个事项的事项文本对应一个向量集中的向量，即有效词向量。

进一步地，所述异常分析模块的处理过程为：

检测主题差异：对比异常时段与正常时段中各聚类出的事项主题分布的差异，计算异常时段与正常时段下同一事项主题的数量差值，并根据数量差值的分布，从大到小进行选取，直至能够解释总数量差异的60％及以上，得到对异常情况可解释性的聚类主题；

提取关键词和摘要：对异常情况可解释性的聚类主题，通过jieba.analyse模块中的extract_tag函数得到关键词，原理为按照TF-IDF权重排序；通过SnowNLP得到文本摘要，原理为TextRank算法。

一种基于上述系统的面向矛盾纠纷调解的异常检测方法，包括以下步骤：

(1)从矛盾调解业务数据库中获取事项的原始表格数据，并定时更新数据；所述原始表格数据包括事项发生时间、事项地点、事项类别和事项文本；

(2)清洗步骤(1)中获取到的原始表格数据，得到有效数据；所述清洗包括合并、新建特征和过滤操作；

(3)从有效数据中构建矛盾纠纷事项发生数量的时序数据，对时序数据进行线性插值完成数据增强，并采用TOF离群点检测算法对其进行异常检测，得到若干数据异常的时间段；

(4)将异常时间段及其正常时间段所对应的有效数据进行去枝留干处理，构建反映事项文本的有效词向量，并将有效词向量输入HDBSCAN聚类模型，得到若干主题聚类；

(5)根据步骤(4)中得到的若干主题聚类，对比异常时段与正常时段中事项主题分布的差异，计算对比异常时段与正常时段中同一事项主题的数量差值，通过所述数量差值筛选出对异常情况可解释的聚类主题，提取可解释的聚类主题的关键词和摘要。

进一步地，所述步骤(2)中，数据清洗步骤包括：

(2.1)合并数据表：将多表合并为一个表；

(2.2)去除无用数据：通过关键词以及仅字母和数字混排的句式结构，找出事项文本中的冗余内容；

(2.3)新建特征：若特征值内容包含多个层级的信息，则拆分为若干特征；将不同数据表中以不同字段名称所表示的同一特征合并后创建新特征；对事项文本，在分词后保留高频关键词列表作为新特征；

(2.4)选取时间、地点、当事人信息、事件文本和关键词特征，去除无用特征。

进一步地，所述步骤(3)中，采用TOF离群点检测算法识别异常时间段，包括以下子步骤：

(3.1)通过对时序数据延时嵌入构成其特征向量，在拓扑上等价于系统的吸引子；

(3.2)在吸引子上每个时间实例的状态空间中进行kNN搜索，并保存每个样本周围k个最近点的时间维度索引；

(3.3)根据kNN点的时间维度索引计算时间离群因子；若时间离群因子大于阈值θ，则标记异常时间点。

进一步地，所述步骤(4)中，词向量构建包括以下子步骤：

(4.1.1)将一长段的中文句段，分离切割成字、词和短语的形式，标注词性，去除无用的词，保留中文句段中能够反映其主要内容的主干部分；

(4.1.2)将事项文本分词后得到一个数据集，通过TF-IDF算法进行向量化处理，按照词性区分调整权重，对词性加权后的TF-IDF词频，根据词频的数据分布，去除词频小于词频阈值的长尾词后进行归一化；通过PCA进行降维处理，得到反映整个事项文本的向量集，每一个事项的事项文本对应一个向量集中的向量，即有效词向量。

进一步地，所述步骤(4)中，采用基于密度的HDBSCAN聚类模型进行聚类，具体为：对不同的epsilon值执行DBSCAN，并集成结果，通过对同epsilon，不同随机seed的聚类结果对比，找到聚类结果差异性最小的epsilon参数，使得HDBSCAN能够找到不同密度的集群，即得到主题聚类，HDBSCAN原理如下：

(4.2.1)变换空间，用互达距离表示两个样本点之间的距离，而稀疏区域的样本点与其他样本点距离被放大；

(4.2.2)建立最小生成树，将数据看作一个加权图，其中数据点为顶点，任意两点之间的边的权重等于这些点之间的相互可达距离，找到一个最小的边集合，通过图论得到图的最小生成树；

(4.2.3)构建聚类层次结构，将树中的所有边按照距离递增排序，然后依次选取每条边，将边的链接的两个子图进行合并；将结果视为二叉树结构，称为聚类树，每个节点代表的是一个样本子集，最上面的根节点表示的是所有样本点，即整个样本集，每个节点的两条边表示的是当前节点的分裂，每次分裂都是去掉最小生成树的一条边；

(4.2.4)压缩聚类树，确定最小簇大小参数后，自上而下遍历聚类树，并在每个节点分裂时，看分裂产生的两个样本子集的样本数是否大于最小簇大小：若有一个子节点的样本数小于最小簇大小，直接删除该子节点，并且另一个子节点保留父节点身份；若两个子节点的样本数都小于最小簇大小，则将其两个子节点都删除；若两个子节点的样本数均大于最小簇大小，则进行正常分裂，保持原聚类树不变；将删除的节点称为散点并标为-1类；

(4.2.5)提取簇，为压缩聚类树的每个节点打上一类标签，若选择一节点作为一簇，则这一节的子节点均属于这一簇；首先将压缩聚类树的每个叶节点都选定为一簇，然后自下而上遍历整棵树，且每一步进行以下操作：若当前节点的稳定性小于两个子节点的稳定性总和，则将该节点的稳定性设置为其子节点稳定性之和；若当前节点的稳定性大于两个子节点的稳定性总和，则将当前节点定为一簇，且删除所有子节点。

本发明的有益效果是：

1、本发明通过创新地结合TOF离群点检测算法和HDBSCAN聚类模型，实现对持续更新的业务数据中的异常时段的自动检测与发现，并通过主题聚类模型自动归纳突发的纠纷，对时序数据的异常提供了进一步的具体解释性。

2、本发明采用TOF离群点检测算法挖掘矛盾纠纷事项数量时间序列中的异常时间段，TOF算法相比于传统人工设定阈值的异常检测方法，对数据的趋势性、季节性变化有着自适应性和鲁棒性，减少了人工调整的成本。另外TOF算法不仅可以检测离群点，同时可以检测出离群的小簇，即异常时间段。在主题聚类模块中的词向量构建中，本发明通过给TF-IDF设定阈值、利用词性过滤无意义词和通过PCA降维，大大减小了后续处理成本，也使文本聚类变得更加有效。

3、本发明能够有效感知和汇聚近期异常的矛盾纠纷事件，为管理者提供及时、详尽的异常报告，能够以数据驱动的方式提前感知问题，介入纠纷，避免纠纷的扩大和矛盾的深化，提高治理的智能化水平。

附图说明

图1为本发明的检测异常时间段的流程示意图；

图2为本发明的数据清洗的流程示意图；

图3为本发明的时序异常检测的流程示意图；

图4为本发明的主题聚类中词向量构建的流程示意图；

图5为本发明的异常分析的流程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

参照图1，本发明的一种面向矛盾纠纷调解的异常检测系统，包括以下模块：

数据获取模块，用来从矛盾调解业务数据库中获取事项的原始表格数据，并进行数据更新，为了方便，可以定时进行数据更新；所述原始表格数据包括事项发生时间、事项地点、事项类别和事项文本；本实施例中，将事项概述、事项详情、当事人诉求整合成一个特征，命名为事项文本。

数据清洗模块，用来对原始表格数据进行合并、新建特征和过滤操作获取有效数据；具体为：

合并数据表：将多表合并为一个表，方便后续处理；

去除无用数据：通过关键词以及特定的语法结构，找出事项文本中的冗余内容；如测试数据、默认填充值、过度简略的文本等，提高数据质量；

新建特征：若特征值内容包含多个层级的信息，则拆分为若干特征；例如应将事件发生时间拆分为年、月、日，事件发生地点应拆分为省、市、区/县、街道/村。将不同数据表中以不同字段名称所表示的同一特征合并后创建新特征；对事项文本，在分词后保留高频关键词列表作为新特征；

选取所需特征，具体选取时间、地点、当事人信息、事件文本、关键词等特征，去除无用特征。

时序异常检测模块，用来从有效数据中构建矛盾纠纷事项发生数量的时序数据，对时序数据进行线性插值完成数据增强，并对其进行异常检测，得到若干数据异常的时间段；具体为：

时序数构建据：从有效数据中对各层级行政区(省、市、区/县等)分别计数得到每天发生的事项数量，得到时序数据；

离群点检测模型：TOF异常检测算法通过对时序数据延时嵌入构成特征向量，在拓扑上等价于系统的吸引子，其中延时嵌入遵循下式：

其中，X(t)为时刻t的重构状态，x(t)为标量时间序列；该过程有两个参数：嵌入延迟(τ)和嵌入维数(E)，其中嵌入维数(E)为奇数；

然后在吸引子上每个时间实例的状态空间中进行kNN搜索，并保存每个样本周围k个最近点的时间维度索引，其中欧几里得距离计算遵循下式：

其中，d为X(t)点到X(t^′)点之间的距离，X_l为重构状态空间中的坐标分量；

根据kNN点的时间维度索引计算TOF，若TOF大于阈值θ，则标记为异常日期；所述阈值θ，根据TOF的数据分布，如TOF最大的25％所对应的值，选定为阈值θ。在一些实施例中，也可以选取TOF最大的5％～30％中的任一值所对应的值；其中TOF计算遵循下式：

其中，t为采样点X(t)的时间维度索引，t_i为重构状态空间中第i个近邻的时间维度索引；k为样本周围k个最近点；

异常时间段输出：对任一异常日期查询其前后各一天，若为异常日期，则继续向前/后追溯，例如，追溯七天，将连续的异常日期合并为异常时间段。所述时序异常检测模块设置有数据查询接口，用来输出异常时间段，即通过数据查询接口获取某地某时间段内存在的若干异常时间段。

主题聚类模块，用来对事项文本进行提取、分词、过滤、加权、归一化、降维，得到有效词向量；有效词向量是事项文本的数字化形式，事项文本中的每个有效词都是组成该事项有效词向量的子向量；后将其输入至文本聚类模型，提取事项的主题聚类结果；具体为：

构建有效词向量：将事项文本进行提取、分词、过滤、加权、归一化、降维，得到有效词向量；具体为：

切割中文词语：利用Python中Jieba模块将一长段的中文句段，分离切割成字、词和短语的形式，标注词性，去除无用的词，保留中文句段中能够反映其主要内容的主干部分；

计算特征向量：将事项文本分词后得到一个数据集，通过TF-IDF算法进行向量化处理，按照词性区分调整权重，对词性加权后的TF-IDF词频，根据词频的数据分布，去除词频小于词频阈值(如25)的长尾词后进行归一化；通过PCA进行降维处理，得到反映整个事项文本的向量集，每一个事项的事项文本对应一个向量集中的向量，即有效词向量。在一些实施例中，所述词频阈值5～100也可以选择；

文本聚类模型：采用基于密度的HDBSCAN聚类模型对有效词向量进行聚类，对不同的epsilon值执行DBSCAN，并集成结果。通过对同epsilon，不同随机seed的聚类结果对比，找到具有稳定性的epsilon参数，使得HDBSCAN能够找到不同密度的集群，并且在参数选择方面更加稳健；

异常分析模块，用来根据所述事项的主题聚类结果，对比异常时段与正常时段中事项主题分布的差异，计算对比异常时段与正常时段中同一事项主题的数量差值，通过所述数量差值筛选出对异常情况可解释的主题，提取可解释的主题的关键词和摘要；具体为：

检测主题差异：对比异常时段与正常时段中各聚类出的事项主题分布的差异，计算异常时段与正常时段下同一事项主题的数量差值，并根据数量差值的分布，从大到小逐步进行选取，每一步累加数量差值，并除以总数量差值得到当前差异解释比例，直至差异解释比例大于等于60％，得到对异常情况可解释性的聚类主题；在一些实施例中，所述数量差值可以选择60％～90％；

提取关键词和摘要：对异常情况可解释性的聚类主题，通过jieba.analyse模块中的extract_tag函数得到关键词，原理为按照TF-IDF权重排序；通过SnowNLP得到文本摘要，原理为TextRank算法。其中，提取各聚类主题的关键词和摘要，为数据异常提供解释性。

参见图1，一种面向矛盾纠纷调解的异常检测方法，包括以下步骤：

参见图2，此过程主要涉及根据数据可用性对数据进行处理；

(2.1)合并数据表：将多表合并为一个表，方便后续处理；将事项信息表、事项类别表与各事项分类的详细信息表合并成事项大表；

(2.2)去除无用数据：通过关键词以及特定的语法结构，找出事项文本中普遍存在的冗余内容，如测试数据、默认填充值、过度简略的文本等，提高数据质量；

(2.3)新建特征，若特征值内容包含多个层级的信息，则拆分为若干特征；例如，大多数事项地址存在“XX省XX市XX区/县XX街道/镇/乡”的固定表达，通过正则表达式分解原地址数据为标准四级地址，分别为：省、市、区/县/市、街道/镇/乡，即新增4个特征；若原地址无法分解成完整四级地址，如“采荷街道”，则将其匹配已有标准四级地址数据并补全；同样，将事件发生时间拆分为年、月、日。将不同数据表中以不同字段名称所表示的同一特征合并后创建新特征；对事项文本，在分词后保留高频关键词列表作为新特征；

(2.4)选取所需特征，选取事项发生时间、事项四级地址、事项类别、事项文本特征。

参见图3，采用TOF离群点检测算法识别异常时间段，包括以下子步骤：

(3.1)时序数据构建，从有效数据中对各层级行政区分别计数得到每天发生的事项数量，得到时序数据；

确定时间和地理维度后，通过计数得到每天事项数量，为时序数据；如果确定在2022/09/28检测最近7天(不包含当天)异常情况，时间窗口为60天，则时间范围为2022/07/29-2022/09/27，部分日期没有数据，则补全缺失日期并将数量填为0，得到时序数据；

(3.2)数据增强：通过线性插值对时序数据完成数据增强，扩充数据集，然后按照时间顺序排序，添加时间维度索引；

因数据样本不足，通过线性插值对时序数据完成数据增强，扩充数据集，然后按照时间顺序排序，添加时间维度索引；

(3.3)离群点检测模型：TOF异常检测算法通过对时序数据延时嵌入构成特征向量，在拓扑上等价于系统的吸引子，其中延时嵌入遵循下式：

其中，t为时序数据的时间维度索引，x(t)为标量时间序列，X(t)为时间索引t延时嵌入后的特征向量。该过程有两个参数：嵌入延迟(τ)和嵌入维数(E)，其中嵌入维数(E)必须为奇数；

其中，d为X(t)点到X(t^′)点之间的距离，X_l为重构状态空间中的坐标分量。

其中，t为X(t)的时间维度索引，t_i为重构状态空间中第i个近邻的时间维度索引；k为样本周围k个最近点；

(3.4)异常时间段输出，对任一异常日期查询其前后各一天，若为异常日期，则继续向前/后追溯，例如，追溯七天，将连续的异常日期合并为异常时间段。此外，提供查询接口，可通过限制起始和终止时间、仅显示异常、仅显示激增异常，查询符合条件的数据。

(4)将异常时间段及其正常时间段所对应的有效数据进行去枝留干处理，构建反映事项内容的有效词向量，并将有效词向量输入HDBSCAN聚类模型，得到若干主题聚类；

参见图4，词向量构建包括：

(4.1.1)切割中文词语，对输入的一个异常时间段定义正常时间段，为异常时间段倒推7天；提取异常和正常时间段的事项文本，并标记属于正常或异常，利用jieba.posseg模块将一长段的中文句段，分离切割成字、词和短语的形式，并标注词性，通过停用词和词性选择，去除无用的词，如“而且”、“还有”，保留中文句段中能够反映其主要内容的主干部分；例如，有事项文本“*年*月*日在厂里受伤，现就赔偿问题咨询律师。工伤赔偿可以赔偿哪些钱，大概能赔多少？”，经过标注词性分词后得到“('*','x'),('年','m'),('*','x'),('月','m'),('*','x'),('日','m'),('在','p'),('厂里','n'),('受伤','v'),('，','x'),('现','tg'),('就','d'),('赔偿','v'),('问题','n'),('咨询','vn'),('律师','n'),('。','x'),('工伤','n'),('赔偿','v'),('可以','c'),('赔偿','v'),('哪些','r'),('钱','n'),('，','x'),('大概','d'),('能','v'),('赔','v'),('多少','m'),('？','x')”经过停用词和词性选择后得到“厂里受伤赔偿咨询律师工伤赔偿赔偿钱赔”的结果；

(4.1.2)计算特征向量：具体是指，将事项文本分词后得到一个数据集，通过TF-IDF算法进行向量化处理并去除TF-IDF小于2的词，按照词性区分调整权重，将词性为n的词调整权重至1.5倍，将词性为vn的调整权重至1.3倍，然后进行归一化；归一化遵循下式：

其中，m代表第m个事项，即矩阵中第m行，i代表第i个词，即矩阵中的第i列；n代表词向量矩阵的总列数，x_mi代表词向量矩阵中第m行第i列的值，x′_mi代表归一化后的词向量矩阵中第m行第i列的值；

(4.1.3)通过PCA进行降维处理，若矩阵大于230个词，则将其降维至230，终得到反映整个事项文本的向量集，每一个事项的事项文本对应一个向量集中的向量；

文本主题聚类主要涉及利用hdbscan模块对构建好的词向量做HDBSCAN聚类，得到每条事项文本的聚类编号。HDBSCAN原理如下：

(4.2.1)变换空间，用互达距离表示两个样本点之间的距离，使得密集区域的样本距离不受影响，而稀疏区域的样本点与其他样本点距离被放大，增加了聚类算法对散点的鲁棒性，互达距离定义如下：

d_mreach-k(a,b)＝max{core_k(a),core_k(b),d(a,b)}

其中，d(a,b)是a和b的原始距离，core_k(x)定义为点k到其第k近的点的距离，定义如下：

core_k(x)＝d(x,N^k(x))

(4.2.2)建立最小生成树，将数据看作一个加权图，其中数据点为顶点，任意两点之间的边的权重等于这些点之间的相互可达距离，找到一个最小的边集合，使得从集合中删除任何边都会导致组件断开，通过图论可得图的最小生成树；

(4.2.3)构建聚类层次结构，将树中的所有边按照距离递增排序，然后依次选取每条边，将边的链接的两个子图进行合并；可将结果视为二叉树结构，称为聚类树，每个节点代表的是一个样本子集，最上面的根节点表示的是所有样本点，即整个样本集，每个节点的两条边表示的是当前节点的分裂，每次分裂都是去掉最小生成树的一条边，从上到下，相当于先选择最大的边进行分裂，每次分裂都对应着一个距离，就是所去掉的边的长度；

(4.2.4)压缩聚类树，确定最小簇大小参数后，自上而下遍历聚类树，并在每个节点分裂时，看分裂产生的两个样本子集的样本数是否大于最小簇大小：如果有一个子节点的样本数小于最小簇大小，直接删除该子节点，并且另一个子节点保留父节点身份；如果两个子节点的样本数都小于最小簇大小，则将其两个子节点都删除，即当前节点不再向下分裂；如果两个子节点的样本数都大于最小簇大小，则进行正常分裂，保持原聚类树不变；将删除的节点称为散点并标为-1类；

(4.2.5)提取簇，为压缩聚类树的每个节点打上一类标签，若选择某个节点作为某一簇，那么它的子节点都属于这个簇；首先将压缩聚类树的每个叶节点都选定为某个簇，然后自下而上遍历整棵树，且每一步进行以下操作：如果当前节点的稳定性小于两个子节点的稳定性总和，则将该节点的稳定性设置为其子节点稳定性之和；如果当前节点的稳定性大于两个子节点的稳定性总和，则将当前节点定为某个簇，且删除所有子节点；稳定性定义过程如下：

定义λ为距离的倒数：

对于书中的某个节点定义λ_birth、λ_death：λ_birth表示分裂产生当前节点时，对应断开边长度的倒数；λ_death表示当前节点被分裂成两个子节点时，对应断开边长度的倒数；根据定义可得λ_birth<λ_death；

对于每个节点中每个样本点p定义λ_p，表示样本点p因为分裂离开该节点时，对应断开边长度的倒数；

定义每个节点的稳定性为：

(5)根据步骤(4)中得到的若干主题聚类，对比异常时段与正常时段中事项主题分布的差异，计算对比异常时段与正常时段中同一事项主题的数量差值，通过所述数量差值筛选出对异常情况可解释的主题，提取可解释的主题的关键词和摘要。

参见图5，此过程主要涉及提取主要聚类及其关键词和摘要；

(5.1)除散点外，散点即标为-1的聚类，对每个主题聚类中计算异常事项和正常事项的差，将其从大到小排序，依次放入主要聚类集，直到可解释正常与异常时间段事项数量差值的80％以上；

(5.2)对于每个主要聚类，通过jieba.analyse模块中的extract_tag函数得到关键词，原理为按照TF-IDF权重排序，如取Top5关键词，“工伤”、“赔偿”、“报酬”、“受伤”、“理赔”；通过SnowNLP模块得到文本摘要，原理为TextRank算法，如“工伤赔偿可以赔偿哪些钱”。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种面向矛盾纠纷调解的异常检测系统，其特征在于，包括：

对矛盾纠纷事项时序数据进行异常检测，具体是指，采用离群点检测模型将偏离正常数量的时间点筛选剥离，定义为异常时间段；离群点检测模型：TOF异常检测算法通过对时序数据延时嵌入构成特征向量，在拓扑上等价于系统的吸引子；然后在吸引子上每个时间实例的状态空间中进行kNN搜索，并保存每个样本周围k个最近点的时间维度索引；根据kNN点的时间维度索引计算TOF，若TOF大于阈值θ，则标记为异常日期；

文本聚类模型：采用基于密度的HDBSCAN聚类模型对有效词向量进行聚类，对不同的epsilon值执行DBSCAN，并集成结果；通过对同epsilon，不同随机seed的聚类结果对比，找到聚类结果差异性最小的epsilon参数，使得HDBSCAN找到不同密度的集群，即主题聚类结果；

2.根据权利要求1所述的面向矛盾纠纷调解的异常检测系统，其特征在于，所述数据清洗模块的处理过程为：

合并数据表：将多表合并为一个表；

3.根据权利要求1所述的面向矛盾纠纷调解的异常检测系统，其特征在于，所述时序异常检测模块中，处理过程为：

时序数据构建：从有效数据中对各层级行政区分别计数得到每天发生的事项数量，得到时序数据；

异常时间段输出：对离群点检测模型得到的任一异常日期查询其前后各一天，若为异常日期，则继续向前/后追溯，最多追溯七天，将连续的异常日期合并为异常时间段；所述时序异常检测模块设置有数据查询接口。

4.根据权利要求1所述的面向矛盾纠纷调解的异常检测系统，其特征在于，所述主题聚类模块的处理过程为：

构建词向量：去枝留干处理具体为对异常时间段及其正常时间段所对应的有效数据进行提取、分词、过滤、加权、归一化、降维，得到有效词向量。

5.根据权利要求4所述的面向矛盾纠纷调解的异常检测系统，其特征在于，所述构建词向量包括：

6.根据权利要求1所述的面向矛盾纠纷调解的异常检测系统，其特征在于，所述异常分析模块的处理过程为：

7.一种基于权利要求1所述系统的面向矛盾纠纷调解的异常检测方法，其特征在于，包括以下步骤：

8.如权利要求7所述的面向矛盾纠纷调解的异常检测方法，其特征在于，所述步骤(2)中，数据清洗步骤包括：

(2.1)合并数据表：将多表合并为一个表；

9.如权利要求7所述的面向矛盾纠纷调解的异常检测方法，其特征在于，所述步骤(3)中，采用TOF离群点检测算法识别异常时间段，包括以下子步骤：

10.如权利要求7所述的面向矛盾纠纷调解的异常检测方法，其特征在于，所述步骤(4)中，词向量构建包括以下子步骤：

11.如权利要求7所述的面向矛盾纠纷调解的异常检测方法，其特征在于，所述步骤(4)中，采用基于密度的HDBSCAN聚类模型进行聚类，具体为：对不同的epsilon值执行DBSCAN，并集成结果，通过对同epsilon，不同随机seed的聚类结果对比，找到聚类结果差异性最小的epsilon参数，使得HDBSCAN找到不同密度的集群，即得到主题聚类；HDBSCAN原理如下：