CN110188092A

CN110188092A - 一种挖掘人民调解中新型矛盾纠纷的系统及方法

Info

Publication number: CN110188092A
Application number: CN201910347456.8A
Authority: CN
Inventors: 张江鑫; 金涌涛
Original assignee: Zhejiang University of Technology ZJUT; Enjoyor Co Ltd
Current assignee: Yinjiang Technology Co Ltd; Zhejiang University of Technology ZJUT
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-08-30
Anticipated expiration: 2039-04-28
Also published as: CN110188092B

Abstract

一种挖掘人民调解中新型矛盾纠纷的系统，包括：数据获取模块，从一个或多个系统中获取所有与人民调解相关的原始数据；数据清洗模块，对原始数据进行清洗操作获取有效数据；网络热词获取模块，获取新鲜词汇，避免切词过程中被过分切割或过滤；特征向量构建模块，对有效数据进行提取、换算、变形，引入案件地理信息获得表征人民调解案件的特征向量；新型矛盾纠纷挖掘模块，根据文档集中各文档的特征向量挖掘出隐藏在文档中新型矛盾纠纷；热门新型矛盾纠纷标注模块，引入时序因素，添加时序筛选机制，筛选出热门新型矛盾纠纷案件集，并自动添加对应标注。以及提供一种挖掘人民调解中新型矛盾纠纷的方法。本发明可行性强、失查率低、灵活性强。

Description

一种挖掘人民调解中新型矛盾纠纷的系统及方法

技术领域

本发明属于数据挖掘及分析领域，涉及一种挖掘人民调解中新型矛盾纠纷的系统方法。

背景技术

人民调解是我国司法体系的重要组成部分，是我国独特的矛盾纠纷解决方式，在司法不健全的时代发挥过巨大的历史作用，目前仍然作为基层矛盾纠纷多元化调解机制的组成部分，并发挥重大基础性作用。人民调解业务覆盖面广，涉及的矛盾纠纷类型多，是社会矛盾感知防控及维护社会稳定的重要数据来源。以上海市为例，共包含6600余个调解委员会，200余个司法所，从业调解员30000 余人，年受理矛盾纠纷调处案件约30万件。人民调解的广泛覆盖，使其成为采集社会矛盾纠纷、感知社会风险态势的主要数据来源之一。

然而，近年来频发的“滴滴打车”、“共享单车”等新型矛盾往往被旧的分类系统划分至“交通”大类，无法及时挖掘得到异常信息，使管理决策层无法做出有效的应对措施，导致该类矛盾集体爆发并引发恶劣的社会舆论，严重危害社会的和谐与稳定。综上所述，有效挖掘新矛盾纠纷类型，具有重大意义。

挖掘人民调解中新型矛盾纠纷，帮助决策层及时做出应对措施，降低社会矛盾造成的社会不良影响。但目前大多数研究与发明着重于挖掘热点事件或者热点纠纷，如专利109325159A中提到的一种微博热点事件挖掘方法，仅通过计算文本之间的相似度来判断是否为同一类型事件，该方法不能判断表达同一中心内容的两条长度差距较大的文本是否为同一类型事件。在挖掘人民调解中新型事件或者新型矛盾方向，仅在专利205405609U中发现一种人民调解综合平台，而该平台只是方便录入数据。相关的学术研究也存在一些不足：(1)李华,朱荔.基于影响力的微博新兴热点事件检测[J].计算机应用与软件,2016,33(5).该论文中提出一种基于影响力的微博新兴热点事件检测方法，通过粉丝数量、转发次数、评论次数等微博特殊属性计算影响力，来挖掘微博中出现的新兴热点事件，但是一方面人民调解文本没有足够的特殊属性能够计算得到类似影响力的特征，另一方面文中使用增长率定义评定事件的新兴性，例如事件数量从1 到2(增长率＝1)即可判断为新兴事件，这是不合理的；(2)张雄宝,陆向艳,练凯迪,等.基于突发词地域分析的微博突发事件检测方法[J].情报杂志,2017, 36(3):98-103.该论文从突发词的地域属性和情感属性两个维度去识别微博突发事件，但是人民调解文本情感属性偏向中性，地域属性也较为单一，无法有效地通过地域属性和情感属性识别新事件。

发明内容

为了克服现有人民调解中矛盾纠纷挖掘方式的可行性较差、失查率较高、灵活性较差的不足，本发明提出一种可行性强、失查率低、灵活性强的挖掘人民调解中新型矛盾纠纷的系统及方法。

为了解决上技术问题本发明提供如下的技术方案。

一种挖掘人民调解中新型矛盾纠纷的系统，包括以下模块：

数据获取模块，从一个或多个系统中获取所有与人民调解相关的原始数据，其中，系统包括司法局、司法所、人民调解委员会等系统，相关原始数据包括案件内容、案件时间、案件类别和案件地点等数据。

数据清洗模块，对原始数据进行一种或多种清洗操作获取有效数据；其中，属性表示一个数据集合的某种特性，举例：案件内容、案件地点。

网络热词获取模块，获取新鲜词汇，避免切词过程中被过分切割或过滤；

特征向量构建模块，对有效数据进行提取、换算、变形，引入案件地理信息，获得表征人民调解案件的特征向量；特征向量是案件内容的数字化形式，案件内容中的每个词都是组成该案件特征向量的子向量；

新型矛盾纠纷挖掘模块，根据文档集中各文档的特征向量，挖掘出隐藏在文档中新型矛盾纠纷。

热门新型矛盾纠纷标注模块，引入时序因素，添加时序筛选机制，筛选出热门新型矛盾纠纷案件集，并自动添加对应标注，时序筛选机制具体筛选内容为：最近一个月突然增多的案件和从未出现但现今突增的案件。

进一步，所述数据清洗模块的处理过程为：

2.1数据去重：“对反映同一事实的数据进行去重”，识别从不同系统获取的数据是否存在内容完全相同的数据，进行去重；

在本系统中具体实施如下：不同系统的案件可能存在重复的情况，将这2 条数据去除重复保留其一，重复数据判断机制具体如下：两条数据的案件内容相似度大于设定的阈值，以日为精度日期相同，以区为精度地区相同，申请人相同，案件种类相同。

2.2去除缺失数据：“某一条数据缺失为空时去除该条数据”，具体操作，当某一属性存在数据缺失时，由于本系统的特殊性，无法进行填充处理，所以去除该属性为空的那一条数据；

2.3去除无用数据：“某一条数据不满足挖掘最低要求时去除该条数据”，具体操作，设置数据质量阈值，当数据质量低于阈值的时候删除该条数据。

在本系统中具体实施如下：某一条数据的案件内容为“经审查为实情。”，由于数据质量明显不合格，故直接去除该条数据。

2.4去除无用内容：“某一条数据的某一属性存在冗余的且会影响结果的内容时，去除该部分内容”，具体操作，找出案件内容中存在的固定格式，去除普遍存在的冗余内容，避免这些冗余的内容对后续的算法产生影响。

在本系统中具体实施如下：大部分的案件内容存在类似“XX市XX区人民检察院指控，X年X月X日X时X分左右”的固定格式，通过正则匹配，去除该部分内容。

2.5统一数据水平名称：“对含义相同格式不同的数据进行统一”，具体是指，过频数统计观察数据中存在的水平名称，然后通过字典将含义相同的字段进行替换。

在本系统中具体实施如下：不同系统中对案件种类的命名不统一，不同地区对同一案件类型的称呼也有差异，通过标准化字典将案件种类统一编码。

所述网络热词获取模块中，“添加网络热词至有用词字典”，具体是指，每日自动获取各网络数据源中的热点词汇。若获取的词已存在于有用词字典，则不再重复添加；若获取的词不存在于有用词字典，将其与已有词进行相似度比较，若相似度大于65％，则不再添加；若不满足上述两种情况，则将该热词添加至有用词词典。

所述特征向量构建模块的处理过程为：

3.2.1中文词语切割：“中文词语切割”，具体是指，将一长段的中文句段，分离切割成字、词和短语的形式，去除无用的词，如“而且”、“非常”等词，保留中文句段中能够反映其主要内容的主干部分。

3.2.2特征向量计算：“特征向量计算”，具体是指，将案件集的案件内容切词后得到一个数据集，通过word2vec最算法进行向量化处理，终得到反映整个案件集的向量集，每一个案件的案件内容对应一个向量集中的向量，同时引入案件的地理信息，经过变换与计算后添加至每个案件对应向量。

新型矛盾纠纷挖掘模块中，“挖掘新型矛盾纠纷”，具体是指，采用离群点检测模型将不同于主体内容的案件筛选剥离，经过多次迭代得到新型矛盾纠纷，最后通过人工判断，定义新型矛盾纠纷的名称。

5.1离群点检测模型：“离群点检测模型”,具体是指，FindCBLOF算法计算每个向量基于假设簇的局部离群点因子，通过统计学方法定义向量和簇之间的相似性，即向量属于簇的概率。然后进行分簇，找出word2vec算法输出的向量集中的簇，并把它们按大小降序排列。与其他离群点检测算法不同的是， FindCBLOF假定大部分向量都不是离群向量，它使用一个参数来区别大簇和小簇以得到离群点。这里的离群点是指小簇，而不是指一般离群点检测算法所得到的离散离群向量。

5.2迭代模块：将分离出来的离群向量有限次地输入离群点检测模型，每一次迭代都输出离群向量集对应的文本集，直至结果到达某一理想阈值。

所述热门新型矛盾纠纷标注模块中，热门新型矛盾纠纷标注：“自动标注经时序筛选后的数据为热门新型矛盾纠纷”，具体是指，将时序因素考虑到新型矛盾纠纷挖掘中去，若最近3个月突然增多同类型案件数量高于一定阈值且同比增率高于一定阈值，或从未出现但现今突增的新的同类型案件数量高于一定阈值，添加热门新型矛盾纠纷的标注。

一种挖掘人民调解中新型矛盾纠纷的方法，包括以下步骤：

1)提取数据库中人民调解的申请人、案件内容和申请日期以及一切能够和案件内容产生关联的影响因子；

2)将获取的数据进行清洗得到有效数据；

3)将有效数据进行去枝留干处理，引入案件地理信息，构建反映案件内容的特征向量，引入依据网络热词的新词挖掘机制；

4)采用FindCBLOF离群点检测算法对反映案件内容和地理信息的特征向量集进行离群案例的挖掘，挖掘出离群的小簇，得到新型矛盾纠纷；

5)引入时序因素，标注热门新型矛盾纠纷。

6)根据得到的新型矛盾纠纷与热门新型矛盾纠纷，及时做出应对的决策，针热门新型矛盾纠纷，及时做出良性的社会舆论引导，避免恶性影响的产生。

进一步，所述步骤2)中，数据清洗步骤包括：

2.1：数据去重；

2.2：移除缺失数据；

2.3：检测数据质量是否合格，据分析结果移除数据质量不合格的数据。数据质量计算公式如下式所示：

M＝(αF+βS+μD+ωK)×Len

其中，M为数据质量，F为归一化处理后的申请人完整度，S为归一化处理后的案件描述完整度，D为归一化处理后的案件解决方案完整度，K为归一化处理后的案件时间地点完整度，Len为归一化处理后的案件长度，α,β,μ,ω为各项指标的系数，归一化方法选用最大最小法。

2.4：找出案件内容中存在的固定格式，去除普遍存在的冗余内容

2.5：统一水平名称

进一步，所述步骤3)中，网络热词获取过程如下：

3.1.1：选择微博热词top100与搜狗输入法词库热词做为数据源

3.1.2：采用Python的BeautifulSoup模块获取热词

3.1.3：热词筛选与字典更新，若获取的词已存在于有用词字典，则不再重复添加；若获取的词不存在于有用词字典，将其与已有词进行相似度比较，若相似度大于65％，则不再添加；若不满足上述两种情况，则将该热词添加至有用词词典。相似度计算公式如下式所示：

其中，表示当a_i＝b_j时等于0，其他情况下等于1，lev_a,b(i,j)代表a的前i个字节到b的前j个字节的距离。相对于a变化到b字符串来说：lev_a,b(i-1,j)+1代表a删除一个字节去匹配b；lev_a,b(i,j-1)+1代表a插入一个字节去匹配b；代表匹配或者不匹配，这取决于各个符号是否相同。

进一步，所述步骤3)中，构建特征向量过程如下：

3.2.1：有用词字典添加专业词汇，避免切词时被过分割或过滤

3.2.2：中文词语切割，利用Python中Jieba模块将一长段的中文句段，分离切割成字、词和短语的形式，去除无用的词，保留中文句段中能够反映其主要内容的主干部分。Jieba分词原理遵循下式

P(S)＝P(W₁,W₂,…,W_m)

≈P(W₁)×P(W₂)×…×P(W_m)

∝logP(W₁)+logP(W₂)+…+logP(W_m)

其中，W₁,W₂,…W_m为将要输出的词串，P(S)为切分概率。

3.2.3：去除重复词汇；

3.2.4：由于人民调解文本的特殊性，若使用TF-IDF算法对案件内容进行向量化处理会导致向量矩阵过于稀疏而无法反映文本的特征，而使用word2vec算法则能解决这一问题，将切好词的数据集输入以维基词库为基础语料库的 word2vec神经网络语言模型，输出数据集的向量化矩阵，word2vec算法原理遵循以下两式：

其中，w为某个词，l为语料库，b为节点编码，θ为CBOW模型的参数，T 为模型对应的目标函数。

3.2.5：案件地点是判断案件聚合程度的一大重要影响因子。通过百度地图 API将中文地址转换为经纬度坐标，再经过变换与计算将其添加至上述向量化矩阵。其中变换与计算公式遵循下式：

其中，ω为经纬度向量，为word2vec输出的向量化矩阵，η为相关系数。

进一步，所述步骤4)中，新型矛盾纠纷挖掘包括：采用基于聚类的FindCBLOF 离群点检测算法识别新型矛盾纠纷，相对于基于邻近性、统计学、分类的离群点检测算法，FindCBLOF的“离群点”是一个对象，属于小的偏远簇，而非真正意义上的点，即在实际应用中得到的结果是一组组案件合集，而不是一个个单独案件，过程如下：

4.1：计算每个向量基于假设簇的局部离群点因子(CBLOF)，该值越大，向量与簇越相似。局部离群因子计算公式遵循下式

其中，p为某一向量，N_k(p)为p的邻域向量，lrd_k(o)为局部可达密度。

4.2：分簇，利用CBLOF值计算word2vec算法输出的向量集中的簇，区分簇的大小。分簇计算公式遵循下式

其中，n为假设簇数量，k为聚类质心数，x_i为第i个案件的CBLOF值。

4.3：迭代并给出结果，将分离出来的离群簇有限次地重复Step1和Step2，每一次迭代都输出离群向量集对应的文本集，直至结果中不存在明显离群文本集

4.4：若出现新型矛盾纠纷，人工判断并定义其案件种类

进一步，所述步骤5)中，热门新型矛盾纠纷标注包括以下步骤：

5.1：同类型案件数量最近3个月突然增多并案件数量高于10且同比增率高于100％，接到预警后判断是否出现新类型矛盾，自动添加热门新型矛盾纠纷的标注，该步骤是为了找出隐藏在旧矛盾类型中的热门新型矛盾纠纷。

5.2：新的同类型案件从未出现但最近3个月突增的数量高于5，自动添加热门新型矛盾纠纷的标注，该步骤是为了找出不属于旧矛盾类型的热门新型矛盾纠纷。

本发明中，采用了FindCBLOF离群点检测算法挖掘人民调解中新型矛盾纠纷，FindCBLOF算法不仅可以检测离群点，同时可以检测出离群的小簇，即可能存在的具有一定数量的新型矛盾纠纷，而往往这种情况是最值得引起注意的。

在特征向量构建部分，在有用词字典中创新地融入了网络热词，在特征向量中引入地理信息。地理信息的引入丰富了特征向量的成分，使计算结果更加可靠。随着时代的发展，新的词汇以及新的矛盾往往首先出现在网络中，选择微博和搜狗输入法为数据源，顾及了网络讨论热点与网络输入热点这两个方面，避免了切词算法对新的词汇进行过分切割或过滤，保留了新型矛盾纠纷的特征，提升了挖掘新型矛盾纠纷的成功率。

结果有新型矛盾纠纷和热门新型矛盾纠纷，创新地引入时序因素，挖掘出新且热门的矛盾纠纷，热门新型矛盾纠纷可能引发恶劣的后果，有效的挖掘出热门新型矛盾纠纷具有重大意义。

本发明的有益效果：

(1)可行性强，该新矛盾纠纷挖掘模型基于多个有效数据源的人民调解文本进行挖掘，成本低，速度快。

(2)失查率低，使用了能够识别小簇的FindCBLOF算法，且在迭代过程中不断输出文本结果进行判断，有效避免失查。

(3)灵活性强，提供新型矛盾纠纷和热门新型矛盾纠纷两种结果，决策层灵活从容提供解决方案。

附图说明

图1为本发明的挖掘新型矛盾纠纷的流程示意图；

图2为本发明的数据清洗的流程示意图；

图3为本发明的构建特征向量的流程示意图；

图4为本发明的离群点检测的流程示意图。

具体实施方式

下面结合具体实施例来对本发明进行进一步说明，但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到，本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。

参照图1～图4，一种挖掘人民调解中新型矛盾纠纷的系统，包括以下模块：

进一步，所述数据清洗模块的处理过程为：

所述特征向量构建模块的处理过程为：

参见图1，一种挖掘人民调解中新型矛盾纠纷的方法，包括以下步骤：

步骤一：数据获取包括：

提取并合并各数据库中案件的相关特征，其中这些特征包括但不局限于案件内容，案件种类，案件发生时间，案件申请时间，案件申请人，案件发生地。

步骤二，数据清洗步骤包括：

参见图2，此过程主要涉及根据数据质量对数据进行筛选

2.1：数据去重，判断案件内容、案件种类、案件申请人、案件发生地和案件申请时间是否一致，去除重复的数据；

2.2：检测数据是否缺失，若案件内容为缺失状态，则将整条案件数据去除，若除案件内容以外的特征为缺失状态，则暂时以空白填充，例如某一案件的案件内容为缺失状态，则直接删除该案件；某一案件的案件申请人为缺失状态，则将该案件的案件申请人以空白填充；

2.3：检测数据质量是否合格，通过统计案件内容的字符长度，对于字符长度小于20且主要内容不明确的数据，定义为数据质量不合格的数据，并做移除整条案件数据的处理。例如，某一案件的内容记录为“经过调查实情与申请书所述案情一致，已做调解处理”，此类数据无效，做删除处理。数据质量计算公式如公式1所示：

M＝(αF+βS+μD+ωK)×Len (1)

其中，M为数据质量，F为归一化处理后的申请人完整度，S为归一化处理后的案件描述完整度，D为归一化处理后的案件解决方案完整度，K为归一化处理后的案件时间地点完整度，Len为归一化处理后的案件长度，α,β,μ,ω为各项指标的系数,归一化处理具体计算公式如下：

其中，min为最小值，max为最大值。

2.4：检测数据中是否含有普遍存在的固定格式，找出案件内容中存在的固定格式，如“莱芜市莱城区人民检察院指控：*年*月*日中午，被告人王某”、“新乡市牧野区人民检察院指控，*年*月*日*时许，被告人郭某某”、“义马市人民检察院指控：*年*月*日*时许，被告人张某某”等，去除普遍存在的冗余内容，避免这些冗余的内容对后续的算法产生影响

2.5：统一水平名称包括，由于数据是从多个系统中抽取的，不同系统中对案件种类的命名不统一，不同地区对同一案件类型的称呼也有差异。该方法的主要方法是通过频数统计观察数据中存在的水平名称，然后通过字典将含义相同的字段进行替换并统一编码。例如“劳动”和“劳动纠纷”其实表示的含义相同，用的“劳动纠纷”替代“劳动”

步骤三，将有效数据进行去枝留干处理，引入案件地理信息，构建反映案件内容的特征向量，引入依据网络热词的新词挖掘机制；

网络热词获取包括：

3.1.1：数据源选择，选择微博热词top100与搜狗输入法词库热词做为数据源

3.1.2：热词获取，采用Python的BeautifulSoup模块获取所选数据内容

3.1.3：热词筛选与字典更新，若获取的词已存在于有用词字典，则不再重复添加；若获取的词不存在于有用词字典，将其与已有词进行相似度比较，若相似度大于65％且较短词长度大于等于3，则不再添加；若不满足上述两种情况，则将该热词添加至有用词词典，例如有用词字典中已存在“顺风车”，在下一次获取的词语中，若存在“顺风车”，则不再添加至有用词字典，若存在“顺风车害人”，也不再添加至有用词字典。相似度计算公式如公式3所示：

参见图3，构建特征向量包括：

3.2.1：专业词汇收集，收集整理人民调解相关的专业词汇和民法相关的专业词汇等，添加至有用词字典，避免切词时被过分割或过滤，专业词汇有如：“暗哑人”、“安置人口”、“搬迁合同”等；

3.2.2：根据基于公式4的Jieba分词进行中文词语切割；

其中，W₁,W₂,…W_m为将要输出的词串，P(S)为切分概率。

利用Python中Jieba模块的“全模式”，将一长段的中文句段，分离切割成字、词和短语的形式，去除无用的词，如“而且”、“非常”等词，保留中文句段中能够反映其主要内容的主干部分。例如，有案件内容“杭州市西湖区人民检察院指控， *年*月*日*时*分许，被告人方某在未取得机动车驾驶证的情况下饮酒后驾驶浙 *×××××号小型普通轿车沿本市西湖区天目山路由东向西行驶至古翠路口处时，因涉嫌醉酒驾驶机动车被执勤民警查获。经现场酒精呼吸检测，显示其酒精含量为***/***。后经抽血检验，确认被告人方某血液中乙醇含量为***/***，已达到醉酒驾驶标准。”，经过“全模式”切词后得到“/杭州市/西湖区/人民检察院 /检察院/指控/年/月/日/时/分/许/被告人/方/某/在/未取/取得/机动车/车驾/驾驶证/ 的/情况/下/饮酒/酒后/驾驶/浙/号/小型/普通/轿车/车沿/本市//西湖区/天目山/山路/路由/由东向西/东向西/向西行/行驶/至/古/翠/路口处/时/因涉嫌/醉酒/驾驶/机动车/被/执勤/民警/查获/经/现场/酒精/呼吸/检测/显示/其/酒精/含量/为/后/经/抽血/血检/检验/确认/被告人/方/某/血液/中/乙醇/含量/为/已/达到/醉酒/驾驶/标准 /”，最后经过用户字典、词性选择、停用词字典、字符长度筛选等环节，得到“检察院未取机动车驾驶证饮酒驾驶轿车山路路由行驶路口处因涉嫌醉酒驾驶机动车执勤酒精呼吸显示酒精抽血检验乙醇醉酒驾驶”的结果。

3.2.3：重复词汇去除，去除切词得到的结果中相同的词汇与短句，例如Step4.2中得到的结果，经过去重可得到“检察院机动车驾驶证饮酒轿车山路行驶路口处涉嫌醉酒执勤酒精呼吸显示抽血检验乙醇”；

3.2.4：根据公式5-1和公式5-2，将反映文本内容的词向量化。

采用word2vec算法向量化，将切好词的数据集输入以维基词库为基础语料库的word2vec神经网络语言模型，输出数据集的向量化矩阵。

3.2.5：案件地点是判断案件聚合程度的一大重要影响因子。通过百度地图 API将中文地址转换为经纬度坐标，根据公式6将其添加至上述向量化矩阵。

步骤四，参见图4，新型矛盾纠纷挖掘包括：

采用基于谱聚类的FindCBLOF离群点检测算法识别新型矛盾纠纷，相对于基于邻近性、统计学、分类的离群点检测算法，FindCBLOF的“离群点”是一个对象，属于小的偏远簇，而非真正意义上的点，即在实际应用中得到的结果是一组组案件合集，而不是一个个单独案件。

4.1：计算每个向量基于假设簇的局部离群点因子(CBLOF)，对于属于大簇的向量，它的CBLOF是簇的大小和该向量与簇的相似性的乘积。对于属于小簇的向量，它的CBLOF用小簇的大小和该向量与最近的大簇的相似性的乘积计算。用统计学方法定义向量和簇之间的相似性，代表向量属于簇的概率。该值越大，向量与簇越相似。根据公式7，计算每个向量基于簇的局部离群点因子。

4.2：分簇，该算法假定大部分向量都不是离群向量，它使用一个参数来区别大簇和小簇。利用CBLOF值根据公式8计算word2vec算法输出的向量集中的簇，并把它们按大小降序排列。任何至少包含向量集中90％的向量的簇都被视为大簇，而其余的簇被看成小簇。

4.3：迭代并给出结果，将分离出来的离群向量有限次地重复Step1和Step2，每一次迭代都输出离群向量集对应的文本集，直至结果中不存在明显离群文本

4.4：若出现新型矛盾纠纷，人工判断并定义其案件种类。在某一实施例中：在交通大类下，未进行迭代即从3000余例案件中准确分离出了共享单车与滴滴打车这2例离群事件。可见本发明具有较高的准确性，同时工作人员只需判断分离出来的文本，节约了大量人工判断的时间。

步骤五，热门新型矛盾纠纷标注包括：

5.1：同类型案件数量最近3个月突然增多并案件数量高于10且同比增率高于100％，接到预警后判断是否出现新类型矛盾，自动添加热门新型矛盾纠纷的标注，该步骤是为了找出隐藏在旧矛盾类型中的热门新型矛盾纠纷。例如贷款相关案件数量一般情况下为每月40件左右，但最近三个月数量都高于120例。接到预警之后，经过判断最近突增的案件实为“校园贷”，自动为属于“校园贷”的案件添加热门新型矛盾纠纷的标注。

5.2：新的同类型案件从未出现但最近3个月突增的数量高于5，自动添加热门新型矛盾纠纷的标注，该步骤是为了找出不属于旧矛盾类型的新型矛盾纠纷。例如，区块链相关案件而由于其名称的特殊性无法归类至某一类别中，同时最近3个月每月有十几件发生。接到预警后，经过判断该类案件为“区块链”，在金融大类下新增“区块链”这一小类，自动为属于“区块链”的案件添加热门新型矛盾纠纷的标注。

Claims

1.一种挖掘人民调解中新型矛盾纠纷的系统，其特征在于，所述系统包括以下模块：

数据获取模块，从一个或多个系统中获取所有与人民调解案件相关的原始数据；

数据清洗模块，对原始数据进行一种或多种清洗操作获取有效数据；

网络热词获取模块，获取热点词汇，避免切词过程中被过分切割或过滤；

新型矛盾纠纷挖掘模块，根据文档集中各文档的特征向量，挖掘出隐藏在文档中新型矛盾纠纷；

热门新型矛盾纠纷标注模块，引入时序因素，添加时序筛选机制，筛选出热门新型矛盾纠纷案件集，并自动添加对应标注。

2.如权利要求1所述的一种挖掘人民调解中新型矛盾纠纷的系统，其特征在于，所述数据清洗模块的处理过程为：

2.1 数据去重：识别从不同系统获取的数据是否存在内容完全相同的数据，进行去重；

2.2 去除缺失数据：当某一属性存在数据缺失时，无法进行填充处理，所以去除该属性为空的那一条数据；

2.3 去除无用数据：设置数据质量阈值，当数据质量低于阈值的时候删除该条数据；其中，数据质量计算公式如下式所示：

M＝(αF+βS+μD+ωK)×Len

其中，M为数据质量，F为归一化处理后的申请人完整度，S为归一化处理后的案件描述完整度，D为归一化处理后的案件解决方案完整度，K为归一化处理后的案件时间地点完整度，Len为归一化处理后的案件长度，α,β,μ,ω为各项指标的系数，归一化方法选用最大最小法；

2.4 去除无用内容，找出案件内容中存在的固定格式，去除普遍存在的冗余内容，避免这些冗余的内容对后续的算法产生影响；

2.5 统一数据水平名称，通过频数统计观察数据中存在的水平名称，然后通过字典将含义相同的字段进行替换。

3.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统，其特征在于，所述网络热词获取模块中存储有用词字典，网络热词获取模块自动获取各网络数据源中的热点词汇，若获取的热点词汇已存在于有用词字典，则不再重复添加；若获取的热点词汇不存在于有用词字典，将其与有用词字典中已有词进行相似度比较，若相似度大于相似度阈值，则不再添加；若不满足上述两种情况，则将该热点词汇添加至有用词字典。

4.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统，其特征在于，所述特征向量构建模块的处理过程为：

3.2.1 中文词语切割：将一长段的中文句段，分离切割成字、词和短语的形式，去除无用的词，保留中文句段中能够反映其主要内容的主干部分；

3.2.2 特征向量计算：将案件集的案件内容切词后得到一个数据集，通过word2vec算法进行向量化处理，终得到反映整个案件集的向量集，每一个案件的案件内容对应一个向量集中的向量，同时引入案件的地理信息，经过变换与计算后添加至每个案件对应向量。

5.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统，其特征在于，新型矛盾纠纷挖掘模块中，“挖掘新型矛盾纠纷”，具体是指，采用离群点检测模型将不同于主体内容的案件筛选剥离，经过多次迭代得到新型矛盾纠纷，最后通过人工判断，定义新型矛盾纠纷的名称；过程如下：

5.1 离群点检测模型：FindCBLOF算法计算每个向量基于假设簇的局部离群点因子，通过统计学方法定义向量和簇之间的相似性，即向量属于簇的概率；然后进行分簇，找出word2vec算法输出的向量集中的簇，并把它们按大小降序排列；FindCBLOF假定大部分向量都不是离群向量，它使用一个参数来区别大簇和小簇以得到离群点；

5.2 迭代模块：将分离出来的离群向量有限次地输入离群点检测模型，每一次迭代都输出离群向量集对应的文本集，直至结果到达某一理想阈值。

6.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统，其特征在于，所述热门新型矛盾纠纷标注模块中，将时序因素考虑到新型矛盾纠纷挖掘中去，若最近一段时间突然增多同类型案件数量高于一定阈值且同比增率高于一定阈值，或从未出现但现今突增的新的同类型案件数量高于一定阈值，添加热门新型矛盾纠纷的标注。

7.一种如权利要求1所述的挖掘人民调解中新型矛盾纠纷的系统实现的方法，其特征在于，所述方法包括以下步骤：

2)将获取的数据进行清洗得到有效数据；

5)引入时序因素，标注热门新型矛盾纠纷。

8.如权利要求7所述的方法，其特征在于，所述步骤2)中，数据清洗步骤包括：

2.1：数据去重；

2.2：移除缺失数据；

2.3：检测数据质量是否合格，据分析结果移除数据质量不合格的数据，数据质量计算公式如下式所示：

M＝(αF+βS+μD+ωK)×Len

2.5：统一水平名称。

9.如权利要求7或8所述的方法，其特征在于，所述步骤3)中，网络热词获取过程如下：

3.1.1：选择微博热词top100与搜狗输入法词库热词做为数据源；

3.1.2：采用Python的BeautifulSoup模块获取热词；

3.1.3：热词筛选与字典更新，若获取的词已存在于有用词字典，则不再重复添加；若获取的词不存在于有用词字典，将其与已有词进行相似度比较，若相似度大于相似度阈值，则不再添加；若不满足上述两种情况，则将该热词添加至有用词词典，相似度计算公式如下式所示：

其中，表示当a_i＝b_j时等于0，其他情况下等于1，lev_a,b(i,j)代表a的前i个字节到b的前j个字节的距离，相对于a变化到b字符串来说：lev_a,b(i-1,j)+1代表a删除一个字节去匹配b；lev_a,b(i,j-1)+1代表a插入一个字节去匹配b；代表匹配或者不匹配，这取决于各个符号是否相同；max代表取最大值；min代表取最小值。

10.如权利要求7或8所述的方法，其特征在于，所述步骤3)中，构建特征向量的过程如下：

3.2.2：利用专业词汇对中文词语进行切割，利用Python中Jieba模块将一长段的中文句段，分离切割成字、词和短语的形式，去除无用的词，保留中文句段中能够反映其主要内容的主干部分，Jieba分词原理遵循下式

P(S)＝P(W₁,W₂,…,W_m)

≈P(W₁)×P(W₂)×…×P(W_m)

∝logP(W₁)+logP(W₂)+…+logP(W_m)

其中，W₁,W₂,…W_m为将要输出的词串，P(S)为切分概率；

3.2.3：去除重复词汇；

3.2.4：将切好词的数据集输入以维基词库为基础语料库的word2vec神经网络语言模型，输出数据集的向量化矩阵，word2vec算法原理遵循以下两式：

其中，w为某个词，l为语料库，b为节点编码，θ为CBOW模型的参数，T为模型对应的目标函数；

3.2.5：案件地点是判断案件聚合程度的一大重要影响因子，通过百度地图API将中文地址转换为经纬度坐标，再经过变换与计算将其添加至上述向量化矩阵，其中变换与计算公式遵循下式：

其中，ω为经纬度向量，Φ为word2vec输出的向量化矩阵，η为相关系数；

所述步骤4)中，采用基于聚类的FindCBLOF离群点检测算法识别新型矛盾纠纷，过程如下：

4.1：计算每个向量基于假设簇的局部离群点因子CBLOF，该值越大，向量与簇越相似，局部离群因子计算公式遵循下式

其中，p为某一向量，N_k(p)为p的邻域向量，lrd_k(o)为局部可达密度；

4.2：分簇，利用CBLOF值计算word2vec算法输出的向量集中的簇，区分簇的大小，分簇计算公式遵循下式

其中，n为假设簇数量，k为聚类质心数，x_i为第i个案件的CBLOF值，r_i,j表示数据点x_i被归类到第k个质心的时候为1，否则为0；

4.3：迭代并给出结果，将分离出来的离群簇有限次地重复4.2和4.3，每一次迭代都输出离群向量集对应的文本集，直至结果中不存在明显离群文本集；

4.4：根据得到的离群文本集，人工判断并定义其案件种类；

所述步骤5)中，热门新型矛盾纠纷标注包括以下步骤：

对满足时序筛选机制的案件，自动添加热门新型矛盾纠纷的标注，所述时序筛选机制具体如下：

在预设的统计时段内，

5.1 统计与历史案件类型相同的新增案件数量SL和同比增率ZL，如果SL高于案件数量阈值SL0(10)，ZL高于同比增率阈值ZL0(100％)，则判断是否出现新类型矛盾，自动添加热门新型矛盾纠纷的标注；

5.2 统计与历史案件类型不相同的新增案件数量QL，如果QL高于新类型案件数量阈值QL0(5)，则自动添加热门新型矛盾纠纷的标注。