CN114003721A

CN114003721A - 矛盾纠纷事件类型分类模型的构建方法、装置及应用

Info

Publication number: CN114003721A
Application number: CN202111289089.4A
Authority: CN
Inventors: 郁强; 梁艺蕾; 林天图; 曹建建
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-01

Abstract

本申请提出了一种矛盾纠纷事件类型分类模型的构建方法、装置及应用，本方案利用CHI选择特征词，利用TF‑IDF进行特征词的权重赋值，获取矛盾纠纷事件客观科学的特征词对分类器进行训练，以得到精准度更高的矛盾纠纷事件类型分类模型；另外，本方案综合多种方式进行统一纠纷类型的矛盾纠纷事件的相似度判断，进而便于对矛盾纠纷事件进行后续的管控。

Description

矛盾纠纷事件类型分类模型的构建方法、装置及应用

技术领域

本申请涉及大数据挖掘领域，特别是涉及一种矛盾纠纷事件类型分类模型的构建方法、装置及应用。

背景技术

深入推进矛盾纠纷多元化解机制，是实现国家治理体系和治理能力现代化的重要内容，是促进社会公平正义、维护社会和谐稳定的必然要求。随着信息化技术的不断完善，对各类矛盾纠纷事件进行统计分析进而获取纠纷类型的分析系统应运而生，此类分析系统可对多来源渠道的矛调纠纷事件提供数据汇聚服务、数据治理服务、数据研判分析服务以及数据应用服务，基于分析得到的纠纷类型对重点人员进行画像、对矛调纠纷态势进行感知、对矛调纠纷态势进行预警等智能应用，加强源头治理防范机制落实，从而提升群众满意度，提升市域治理现代化水平。

然而由于描述矛盾纠纷事件的纠纷类型时存在语义复杂的问题，仅知晓特定的事件描述词是无法准确识别矛盾纠纷事件的纠纷类型的，导致目前市场上缺乏针对矛盾纠纷事件的语言现象的建模，或者说目前市面上提供的获取矛盾纠纷事件的纠纷类型的方式不够准确也不够客观。具体来说，现有的词向量大多使用one-hot进行转换，虽然可以使用稀疏向量来存储里面的非0值，但是以这种形式的词向量存在很多问题：稀疏的向量表达效率是不高的，需要降低词向量的维度；难以发现词之间的关系，以及难以捕捉句子结构和语义之间的关系，进而导致其在用于提取矛盾纠纷事件的纠纷类型时表现不佳。

发明内容

本申请实施例提供了一种矛盾纠纷事件类型分类模型的构建方法、装置及应用，在原有的词向量模式中利用CHI选择数据特征，TF-IDF进行特征的权重复制，以避免“低频次缺陷”现象，也可综合词频实现扬长避短的效果，提高识别的纠纷类型的准确度。

第一方面，本申请实施例提供了一种矛盾纠纷事件类型分类模型的构建方法，包括以下步骤：获取至少一标记纠纷类型的矛盾纠纷事件语料，其中每一所述矛盾纠纷事件语料包括描述对应矛盾纠纷事件的至少一事件词；基于所述事件词和所述矛盾纠纷事件的纠纷类型之间的相关性处理所述矛盾纠纷事件语料，获取对应每一纠纷类型的至少一特征词组成特征词集合；计算每一矛盾纠纷事件中的每一特征词的特征词权重，其中所述特征词权重为所述特征词对描述的所述纠纷类型的贡献度；转换每一所述矛盾纠纷事件得到数据结构体，所述数据结构体包括表征所述矛盾纠纷事件的特征词、所述特征词对应的特征词权重以及所述特征词在所述矛盾纠纷事件中出现的特征词词频；所述数据结构体和标记的纠纷类型输入分类器中进行训练得到矛盾纠纷事件类型分类模型。

第二方面，本申请实施例提供了一种矛盾纠纷事件类型分类模型的应用方法，应用上述所述的矛盾纠纷事件类型分类模型的构建方法训练得到的矛盾纠纷事件类型分类模型，包括以下步骤：获取至少一矛盾纠纷事件，将所述矛盾纠纷事件输入所述矛盾纠纷事件类型分类模型中，获取每一所述矛盾纠纷事件的纠纷类型；获取每一纠纷类型下的至少一所述矛盾纠纷事件组成矛盾纠纷事件集合；选择归属于同一纠纷类型的所述矛盾纠纷事件集合中的两矛盾纠纷事件作为判断事件组合；提取所述判断事件组合中两矛盾纠纷事件的主体，若所述主体匹配则获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度，若所述词向量组合余弦相似度大于设定阈值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件；若所述主体不匹配则获取所述判断事件组合中两矛盾纠纷事件的LCS相似值或狭义编辑距离，若LCS相似值或所述狭义编辑距离大于设定值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件，若LCS相似值或所述狭义编辑距离小于设定值，则获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度，若所述词向量组合余弦相似度大于设定阈值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件。

第三方面，本申请实施例提供了一种矛盾纠纷事件类型分类模型的构建装置，包括：矛盾事件语料处理单元，用于获取至少一标记纠纷类型的矛盾纠纷事件语料，其中每一所述矛盾纠纷事件语料包括描述对应矛盾纠纷事件的至少一事件词；特征词集合获取单元，用于基于所述事件词和所述矛盾纠纷事件的纠纷类型之间的相关性处理所述矛盾纠纷事件语料，获取对应每一纠纷类型的至少一特征词组成特征词集合；特征词权重获取单元，用于计算每一矛盾纠纷事件中的每一特征词的特征词权重，其中所述特征词权重为所述特征词对描述的所述纠纷类型的贡献度；数据转换单元，用于转换每一所述矛盾纠纷事件得到数据结构体，所述数据结构体包括表征所述矛盾纠纷事件的特征词、所述特征词对应的特征词权重以及所述特征词在所述矛盾纠纷事件中出现的特征词词频；训练单元，用于所述数据结构体和标记的纠纷类型输入分类器中进行训练得到矛盾纠纷事件类型分类模型。

第四方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行任一所述的矛盾纠纷事件类型分类模型的构建方法。

第五方面，本申请实施例提供一种计算机程序产品，包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述软件代码部分用于执行任一所述的矛盾纠纷事件类型分类模型的构建方法。

第六方面，本申请实施例提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据任一所述的矛盾纠纷事件类型分类模型的构建方法。

本发明的主要贡献和创新点如下：

采用卡方统计量提取特征，TF-IDF增加权重，机器学习SVM的方式划分矛盾纠纷事件的纠纷类型，相比普通的提取高频词再判定类型，十分有效地反映单词的重要程度和特征词的分布情况，并很好的利用事件描述的意义和信息传递下去，以提高纠纷类型的获取准确度。且本方案在对同一纠纷类型的多个矛盾纠纷事件进行相似度判断时，采用三重判定逻辑对事件主体进行分析，采用多种特征提取的方式进行文本相似度的逻辑，相较于市面上普遍的只属于一种算法来进行判断，准确度有显著的提升。

值得说明的是，矛盾纠纷事件的纠纷类型的划分需要掌握不同纠纷之间的特征相似度，本方案通过对大量的矛盾纠纷事件进行数据挖掘以实现准确的纠纷类型的获取。本方案在获取纠纷类型后，还可将数据输入矛盾纠纷预警模型中以对特定区域的矛盾纠纷情况进行管控，或者对未来矛盾热点问题的变化趋势作为判断；具体的，当网格、社区、街道中不同纠纷类型的纠纷事件实际案发数量或预测案发数量接近达到警戒值时，系统会自动产生相应级别的预警信息，预警信息经由预警管理员进行评估，如果构成预警，则将预警信息推送至市域社会治理现代化指挥平台，通过指挥平台智能流转到纠纷事件主管部门，辅助决策人员进行重点问题跟踪。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的矛盾纠纷事件类型分类模型的构建方法的流程图；

图2是根据本申请实施例的矛盾纠纷事件类型分类模型的应用方法的流程图；

图3是根据本申请实施例的词向量模型的结构图。

图4是根据本申请实施例的矛盾纠纷事件预警逻辑的示意图。

图5是根据本申请实施例的矛盾纠纷事件类型分类模型的构建装置的结构示意图。

图6是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请实施例提供了一种矛盾纠纷事件类型分类模型的构建方法，通过对矛盾纠纷事件进行词汇处理后构建矛盾纠纷事件类型分类模型，利用构建好的矛盾纠纷事件类型分类模型对矛盾纠纷事件进行纠纷类型的分类。具体地，参考图1，所述矛盾纠纷事件类型分类模型的构建方法包括：

获取至少一标记纠纷类型的矛盾纠纷事件语料，其中每一所述矛盾纠纷事件语料包括描述对应矛盾纠纷事件的至少一事件词；

基于所述事件词和所述矛盾纠纷事件的纠纷类型之间的相关性处理所述矛盾纠纷事件语料，获取对应每一纠纷类型的至少一特征词组成特征词集合；

计算每一矛盾纠纷事件中的每一特征词的特征词权重，其中所述特征词权重为所述特征词对描述的所述纠纷类型的贡献度；

转换每一所述矛盾纠纷事件得到数据结构体，所述数据结构体包括表征所述矛盾纠纷事件的特征词、所述特征词对应的特征词权重以及所述特征词在所述矛盾纠纷事件中出现的特征词词频；

所述数据结构体和标记的纠纷类型输入分类器中进行训练得到矛盾纠纷事件类型分类模型。

值得说明的是，本方案对描述矛盾纠纷事件的特征词进行优化处理，将矛盾纠纷事件转换为更为科学客观的数据结构体后利用分类器进行纠纷类型的分类；克服现有技术中词汇表达效率不高，语义检测质量低下的问题，进而使得训练得到的矛盾纠纷事件类型分类模型的分类更为客观科学。

具体的，在“获取至少一标记纠纷类型的矛盾纠纷事件语料”步骤中包括步骤：获取至少一标记纠纷类型的矛盾纠纷事件，处理所述矛盾纠纷事件得到所述矛盾纠纷事件语料。其中所述矛盾纠纷事件来自于各来源，来源包括但不限于：网格事件、公众上报、部门录入、非警务警情分拨等多途径诉求的事件描述，也就是说本方案可外接政务平台获取各类矛盾纠纷事件，并对矛盾纠纷事件进行处理后输入到分类器中进行训练。

“处理所述矛盾纠纷事件得到所述矛盾纠纷事件语料”包括：提取每一所述矛盾纠纷事件中不重复的词汇，并去除所述词汇中无意义的词汇得到至少一事件词，并依据所述矛盾纠纷事件的文本序列将所述事件词划分为合理的词序列。

该步骤的目的是将矛盾纠纷事件的文本描述转换为词汇描述，并对词汇进行预处理以剔除不必要的词汇，减少后续分类的计算量并可提高分类的精度。在本方案中，去除每一所述矛盾纠纷事件的无用表符号，提取每一矛盾纠纷事件中不重复的词汇。所述词汇中无意义的词汇包括但不限于：中文文本的停用词(“的”、“了”)还有设定的规定词(各来源下去掉“来电(人)反映”(来自：12345)，当事人(来自：人民调解)、“[网上投诉]”(来自：信访件))等。

示例性的，在特定的实施例中，整合多来源信息(包括)网格事件、公众上报、部门录入、非警务警情分拨等多途径诉求的矛盾纠纷事件，得到所有矛盾纠纷事件描述的不重复的词，将不重复的词整理好数据集之后，再人工标签标注矛盾纠纷事件的纠纷类型，将90％预先分类过的数据作为训练集，剩下的作为测试集；随后去除无用表符号，将中文文本的停用词(“的”、“了”)先过滤掉，各来源下去掉“来电(人)反映”(来自：12345)，当事人(来自：人民调解)、“[网上投诉]”(来自：信访件)这种会影响词向量生成的、无意义的词；并将每一矛盾纠纷事件描述分成词语，将一段文本序列划分为合理的词(字)序列。

在获取预处理过后的每一矛盾纠纷事件语料后则需要对矛盾纠纷事件语料进行文本特征提取以获取特征词，进而用这些特征词来区分不同的矛盾纠纷事件。然而针对矛盾纠纷事件的文本数据集一般含有数万甚至数十万个不同的词组，如此庞大的词组构成的向量规模惊人，计算机运算非常困难，故如何精准地获取矛盾纠纷事件的特征词，对文本分类具有重要的意义；所选取的特征词越能表征文本含义的话，则分类性能就越高。特征词的选择不仅可以降低分类计算的规模，还有助于分类性能的改善。

示例性，在婚姻家庭纠纷中，“家暴”就是能很好地表现这个矛盾纠纷事件属于婚姻家庭纠纷的特征词。

在本方案中选择基于卡方统计量(chi-square statistic，CHI)技术来实现选择特征词的选取，卡方统计量方法主要基于相关性检验原理，通过计算某属性与某一类的相关性，来衡量特征候选项项的重要性。

例如：在各纠纷类型的特征选择中，用卡方统计量方法来衡量纠纷类型ci与特征词tk之间关联度，并假设特征词tk与纠纷类型ci之间服从具有一阶自由度的χ2分布。使用“特征词tk与纠纷类型ci不相关”来做原假设，计算出的开方值越大，说明对原假设的偏离越大，说明特征词tk与纠纷类型ci相关性较高。选择的过程为每个特征词都计算其与纠纷类型ci的开方值，从大到小排个序，若开方值越大则表示该特征词和纠纷类型越相关。

假设特征词与纠纷类型如表一表示：

表一特征词和纠纷类型的关系

其中：

A：属于一个纠纷类型ci，且包含词(字)序列tk的文档数

B：不属于一个纠纷类型ci，但包含词(字)序列tk的文档数

C：属于一个纠纷类型ci，但不包含词(字)序列tk的文档数

D：既不属于一个纠纷类型ci，也不包含词(字)序列tk的文档数

N：训练集中文档总数。

特征词tk对纠纷类型ci的卡方统计量计算如式:

以此方式即可获取该特征词对于该纠纷类型的开方值，基于开方值来判断特征词和纠纷类型的关系，选择每个纠纷类型下开方值

对应的，在“基于所述事件词和所述矛盾纠纷事件的纠纷类型之间的相关性处理所述矛盾纠纷事件语料，获取对应每一纠纷类型的至少一特征词组成特征词集合”中包括步骤：依据卡方统计量方法计算每一事件词和不同纠纷类型的开方值，获取每一纠纷类型下开方值自大至小的至少一事件词作为特征词组成所述特征词集合。

具体的，卡方统计量方法如下：选定待计算的纠纷类型和待计算的事件词，获取包含所述待计算的事件词且属于所述待计算的纠纷类型的矛盾纠纷事件的文档数A,获取包含所述待计算的事件词但不属于所述待计算的纠纷类型的矛盾纠纷事件的文档数B，获取不包含所述待计算的事件词但属于所述待计算的纠纷类型的矛盾纠纷事件的文档数C；获取即不含所述所述待计算的事件词也不属于所述待计算的纠纷类型的矛盾纠纷事件的文档数D，获取所有矛盾纠纷事件的文档数N。

则以以下公式计算所述待计算的事件词对所述待计算的纠纷类型的卡方值：

示例性的，比如说现在有62篇矛盾纠纷事件，其中有30篇是关于经济纠纷的，想考察一个特征词“发货”与纠纷类型“经济纠纷”之间的相关性。获取以下四个观察值：

包含“发货”且属于“经济纠纷”类别的文档数，命名为A

包含“发货”但不属于“经济纠纷”类别的文档数，命名为B

不包含“发货”但却属于“经济纠纷”类别的文档数，命名为C

既不包含“发货”也不属于“经济纠纷”类别的文档数，命名为D

表二“发货”与“经济纠纷”的关系

则计算得到“发货”这个特征词对于纠纷类型“经济纠纷”的CHI值为：

使用如上的chi方统计公式，为所有纠纷类型下的每个特征词都进行计算，得到一个CHI值，然后对每个纠纷类型下的所有的特征词基于CHI值进行排序，选择出CHI值最大的前400个特征词组成特征词集合。

在利用CHI获取描述纠纷类型的特征词之后，但这些特征词对文本分类的影响不尽相同，因此还有必要对经过选择的特征词进行加权，对表征能力强的特征词赋予更大的权重，对表征能力弱的特征词赋予更小的权重，这样可以有效抑制噪音，本方案赋予特征词对应的权重的目的是对特征集合中每个特征词根据其对分类的贡献程度赋予一定的值。

本方案采用词频-逆向文件频率(TF-IDF)对每个矛盾纠纷事件的特征词赋值。特征词的重要性随着在矛盾纠纷事件中出现的次数正比增加，同时随着特征词在语料库其他矛盾纠纷事件中出现的频率反比下降。同时，也是将矛盾纠纷事件转化为向量表示过程中的重要一环。

具体的，在“计算每一矛盾纠纷事件中的每一特征词的特征词权重”中包括步骤：基于TF-IDF方法计算每一矛盾纠纷事件中每一特征词的特征词权重。具体的，获取所述特征词在矛盾纠纷事件中出现次数和所述矛盾纠纷事件中所有特征词出现次数的商值tf_ik；获取所有矛盾纠纷事件的总数N；获取包含所述特征词的矛盾纠纷事件的总数n_k；按照以下公式计算该特征词在该矛盾纠纷事件中的特征词权重：

通过这个TF-IDF公式也可获知在一批矛盾纠纷事件中某特征词出现的频率越高，它的区分度则越小，权值也越低；而在一个矛盾纠纷事件中，某词出现的频率越高，区分度则越大，权重越大。由于词表中的每个特征词不一定在每个纠纷类型中都会出现，因为需要采取平滑的方法。采用被除数+0.01平滑的方法。

例如：“9219:0.24673737883635047”表示编号为9219的词，对应的TF-IDF值为0.24673737883635047。如果特征向量有个N个，那么每条记录就对应着一个N维向量。

值得注意的是，在一些实施例中，在“转换每一所述矛盾纠纷事件得到数据结构体”步骤之前额外包括步骤：人为设定表征不同纠纷类型的至少一关键词，并设定所述关键词的关键词权重为1。

这样做的好处在于：对于有决定性的关键词，其可将纠纷类型和其它纠纷类型有明显区分，人工定义这些关键词并设置这些词的权重为1。人工定义各类型下的具有决定性意义的关键词,(例如：汇聚多来源的数据，根据事件描述区分纠纷事件和非纠纷事件，并把纠纷事件要正确划分到八大纠纷类型和非纠纷，经济纠纷、房地产纠纷、劳动争议、邻里纠纷、婚姻家庭纠纷、征迁安置、损害赔偿纠纷、其他纠纷、非纠纷类)，并加入自定义词典，尤于分好的词一般为1或2个字组成，避免遗漏掉决定纠纷的关键信息，本方案定义的对应不同纠纷类型的关键词如表三所示：

表三对应不同纠纷类型的关键词

在“转换每一所述矛盾纠纷事件得到包括对应数据结构体”步骤中，若所述矛盾纠纷事件含有关键词，则所述数据结构体包括表征所述矛盾纠纷事件的特征词、所述特征词对应的特征词权重、所述关键词、所述特征词在所述矛盾纠纷事件中出现的特征词词频以及所述关键词在所述矛盾纠纷事件中出现的关键词词频。

值得说明的是，所述数据结构体包括对应每一特征词的数据结构，每一所述数据结构包括对应的所述特征词的特征词ID，特征词权重以及特征词词频。在一些实施例中，所述数据结构体包括对应每一关键词的数据结构，每一所述数据结构包括对应的所述关键词的关键词ID，关键词权重以及关键词词频。通过这样的转换就可以将每一矛盾纠纷事件转换为多维向量，多维向量输入分类器中进行分类训练。

在本方案中利用分类器对纠纷类型进行分类训练。分类器是文本分类问题中的核心部分，本方案采用支持向量机(support Vector Machine，SVM)作为分类器，用统计学习理论的结构风险最小化(Structural Risk Minimization，SRM)原则。其主要思想：以支持向量(Support Vector，SV)作为训练集的基础，在N维空间内寻找能将训练集样本分成两类，并且具有最大边缘(Margin)值的最优超平面(Optimal Separating Hyper-plane，OSH)，来达到最大的分类正确率。

在本方案中，将数据结构体输入到分类器中进行训练。在本方案中，选用libsvm训练分类器，为了使模型训练时间降低，首先使用svm-scale命令，对训练数据和测试数据进行缩放操作，上限为1，下限为0。参数调优：使用grid.py对使用内核为rbf的svm模型进行参数选择，libsvm就可以自动调出最优的参数c和g，参数调优之后调用libsvm中的svm-train来训练模型，训练的时候同时要设置之前参数调优得到的结果(最优的参数c和g)，最终得到一个可分类纠纷类型的分类器。在得到分类器后可调用svmpredict，根据训练获得的模型，对数据集合进行预测。通过对数据集合的预测，可测得f1 score，数据越高，证明分类准确率越高。

当然，在svm机器学习分类纠纷类型方面，如果数据类型较小，可以使用朴素贝叶斯进行分类，对小规模的数据表现很好，能个处理多分类任务，适合增量式训练。尤其是数据量超出内存时可以一批批的去增量训练。

训练得到的矛盾纠纷事件类型分类模型可对每个矛盾纠纷事件进行纠纷类型的预测，得到对应的预测标签。

实施例二

本方案提供一种矛盾纠纷事件类型分类模型的应用，其利用实施例一训练得到的矛盾纠纷事件类型分类模型对矛盾纠纷事件的纠纷类型进行分类，并基于分类后的结果对矛盾纠纷事件进行处理。

在本方案中对矛盾纠纷事件的纠纷类型进行分类后，再将同一纠纷类型下的矛盾纠纷事件输入文本相似度模型中获取所述矛盾纠纷事件和同一纠纷类型下所有矛盾纠纷事件的文本相似度。而本方案为了提高文本相似度模型的精确度，本方案融合多种特征提取并设定计算逻辑以判断两个矛盾纠纷事件之间是否是相似的。例如：录入人员的事件描述输入有模板，不是同一件事，事件描述录入高度相同，则需要提取主体来进行事件的区分。

如图2所示，具体的，本方案提供一种矛盾纠纷事件类型分类模型的应用方法，包括以下步骤：

获取至少一矛盾纠纷事件，将所述矛盾纠纷事件输入训练得到的矛盾纠纷事件类型分类模型中获取每一所述矛盾纠纷事件的纠纷类型；

获取每一纠纷类型下的至少一所述矛盾纠纷事件组成矛盾纠纷事件集合；

选择归属于同一纠纷类型的所述矛盾纠纷事件集合中的两矛盾纠纷事件作为判断事件组合；

提取所述判断事件组合中两矛盾纠纷事件的主体，若所述主体匹配则获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度，若所述词向量组合余弦相似度大于设定阈值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件；若所述主体不匹配则获取所述判断事件组合中两矛盾纠纷事件的LCS相似值或狭义编辑距离，若LCS相似值或所述狭义编辑距离大于设定值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件，若LCS相似值或所述狭义编辑距离小于设定值，则获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度，若所述词向量组合余弦相似度大于设定阈值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件。

在本方案中利用多种判断逻辑来共同判断同一纠纷类型的矛盾纠纷事件彼此之间是否为相似事件。在本方案中，判断LCS相似值或所述狭义编辑距离的设定阈值和判断词向量组合余弦相似度的设定阈值都设定为80％，当然，这个设定阈值的值可以根据实际需求进行调整。

在本方案中，“提取所述判断事件组合中两矛盾纠纷事件的主体”包括步骤：采用正则表达式识别两矛盾纠纷事件的身份证和手机号，基于HMM-Viterbi识别人名，调用HanLP.segment()接口中使用的分词器识别所述矛盾纠纷事件的地名。也就是说，本方案中提取的所述主体包括身份证、手机号码、人名以及地名。

且本方案在判断主体是否是匹配时，可以按照身份证->手机号->人名->地名的优先级来进行判断，若两矛盾纠纷事件有相同的主体则判断两矛盾纠纷事件的主体是匹配的。

在“获取所述判断事件组合中两矛盾纠纷事件的LCS相似值”中，将两每一矛盾纠纷事件的字符串以行和列组成矩阵，将所述矩阵中每个节点的行列字符相同的位置定义为1，获取值为1的最长对角线获取最长公共子串，以(最长公共子串*2)/两所述矛盾纠纷事件的长度计算得到两矛盾纠纷事件的LCS相似值。

为进一步提升该算法，还可以将字符相同节点(1)的值加上左上角(d[i-1,j-1])的值，这样即可获得最大公用子串的长度。如此一来只需以行号和最大值为条件即可截取最大子串。时间复杂度由原来暴力穷举法的O(2^m*2^n)降低为现在的O(m*m)。

值得说明的是：最长公共子序列(Longest Common Subsequence，LCS)指的是两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共子序列。

若是用狭义编辑距离替代LCS相似值时，设A、B为两个字符串，狭义的编辑距离定义为把A转换成B需要的最少删除(删除A中一个字符)、插入(在A中插入一个字符)和替换(把A中的某个字符替换成另一个字符)的次数，用ED(A，B)来表示。直观来说，两个串互相转换需要经过的步骤越多，差异越大。步骤如下:1.对两部分文本进行处理，将所有的非文本字符替换为分段标记“#”,然后较长文本作为基准文本，遍历分段之后的短文本，发现长文本包含短文本子句后在长本文中移除，未发现匹配的字句累加长度。最后比较剩余文本长度与两段文本长度和，其比值为不匹配比率。

在“获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度”步骤中，将所述矛盾纠纷事件输入到词向量模型中获取各自的词向量组合，套用余弦函数计量两个矛盾纠纷事件的相似度。

也就是说用一个向量空间中两个向量夹角间的余弦值作为衡量两个矛盾纠纷事件之间的差异，余弦值接近1则表示两个矛盾纠纷事件越相似，余弦函数如下：

其中Xi和Yi分别对应不同矛盾纠纷事件的词向量，n为词向量的个数。

关于词向量模型的介绍如下所示：

首先需要计算特征词在练好的词向量模型中向量得到句子平均词向量。

即使用数字代表特定的特征词，因为计算机无法直接处理人类创造的词汇。为了让计算机能够理解词汇，需要将词汇信息映射到一个数值化的语义空间中，这个语义空间可以称之为词向量空间(词向量模型)。已知当前词语，预测上下文，如图3所示，图3为词向量模型的结构。

在词向量模型中先使用skip-gram，从左到右，开始枚举每个中心点的位置，以2为上限，随机采样一个2的窗口大小，这样会使得训练更加稳定，当前的中心词就是中心点所指向的词，以及需要预测的上下文词，可以当作正样本。对于每个正样本来说，从词表Negative Sampling(随机采样)的方式，选择6个负样本，用于训练。同时更新上下文词向量和模型内部节点参数θ。skip-gram模型则是将2*2个词向量分别输入，每一个上下文词向量都将对正负例求似然估计。

整体流程：对于2c个上下文词向量，每一个上下文词向量，都计算一遍对应的所有的正例(1个)和负例(neg个)。

输入：基于Skip-Gram的语料训练样本，词向量的维度大小为Mcount，Skip-Gram的周围上下文大小2c,步长为η＝0.0002，负采样的个数neg。

输出：词汇表每个词对应的模型参数θ，所有的词向量xw。

在利用词向量模型获取矛盾纠纷事件的词向量时，随机初始化所有的模型参数θ，所有的词向量w。对于每个训练样本(context(w0),w0),负采样出neg个负例中心词wi,i＝1,2,...neg。进行梯度上升迭代过程，对于训练集中的每一个样本(context(w0),w0,w1,...wneg)

做如下处理：

a)for i＝1to 2c:

i)e＝0

ii)for j＝0 to neg,计算：

g＝(y_j-f)η

θ^wj＝θ^wj+gx_w0i

iii)对于context(w)中的每一个词向量X(共2c个)进行更新：

b)如果梯度收敛，则结束梯度迭代，算法结束，否则回到步骤a继续迭代。进而得到每个矛盾纠纷事件的词向量，而同一矛盾纠纷事件中含有多个特征词，则同一矛盾纠纷事件的多个词向量组合得到词向量组合。

矛盾纠纷事件的相似度判断还实现同一事件不同来源的相似比对。通过自动判断指定时限内各个新纠纷事件的特征语义矩阵，判断新纠纷事件与历史事件库中存在的纠纷事件是否重复或类似，并对相关事件进行标注，大大减少了业务人员对此进行人工判重的时间。

实施例三

本方案提供一种矛盾纠纷事件类型分类模型的应用，基于得到的矛盾纠纷事件的纠纷类型和相关信息进行矛盾纠纷预警，而矛盾纠纷预警可协助针对市、区县级中负责矛盾纠纷排查化解工作。如图4所示，本方案设定“四个一”作为预警判断条件。

“一人多事”：通过各来源汇聚的事件信息进行碰撞，是一人上报的多条不同事件，并且输出一个人的具体资料以及关联的相关事件。

对应“一人多事”的矛盾纠纷事件类型分类模型的应用方法包括以下步骤：

获取事件主角的身份信息，并提取所述矛盾纠纷事件的主体，基于所述主体和所述身份信息获取对应所述事件主角的所有矛盾纠纷事件。

关于如何提取矛盾纠纷事件的主体的方法如实施例二所示，在此不进行累赘说明。也就是说，在实现“一人多事”的预警时主要涉及的技术为主体提取，按照身份证->手机号->人名的优先级来判断是否为同人，分组提取出以上三类信息，判定相同的，输出这个人的所有矛盾纠纷事件。

“一事多次”：通过各来源汇聚的事件信息进行碰撞，输出上报多次的具体事件，并且将事件的所有相关信息，人员进行输出分析。

对应“一事多次”的矛盾纠纷事件类型分类模型的应用方法包括以下步骤：

提取所述判断事件组合中两矛盾纠纷事件的主体，若所述主体匹配则获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度，若所述词向量组合余弦相似度大于设定阈值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件；若所述主体不匹配则获取所述判断事件组合中两矛盾纠纷事件的LCS相似值，若LCS相似值大于设定值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件，若所述LCS相似值小于设定值，则获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度，若所述词向量组合余弦相似度大于设定阈值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件；

获取相似事件的次数，若所述次数大于设定阈值，则判断为“一事多次”。

也就是说，在实现“一事多次”预警时用的主要技术是文本相似度分类。按照“经济纠纷，房地产纠纷，劳动争议，邻里纠纷，婚姻家庭纠纷，征迁安置，损害赔偿纠纷，其他纠纷”，完成分类后输出每条事件描述以及对应的纠纷类型标签，再按照上述文本相似度的算法对事件进行分析输出一事多次。尤于纠纷事件多涉及纠纷发生地，或事件描述中涉及地名，按照事件所属区域(如经纬度判断某一个片区、网格等)归类后，再由算法对事件判定一事多次。

“一事多人”：通过各来源事件描述汇聚的事件信息进行碰撞，涉及参与人员>＝3个人。

对应“一事多人”的矛盾纠纷事件类型分类模型的应用方法包括以下步骤：

提取所述矛盾纠纷事件的主体，若所述矛盾纠纷事件的主体对应的人员数量大于设定阈值，则判断为“一事多人”。主要技术是提取主体，如果人名或手机号或身份证号>＝3个，则判定为“一事多人”；如果提取到“多人”、“等人”、及代称(“老板”、“爸爸”)等不同的信息>＝3个，输出具体的事件，和涉及到的人员信息。

“一人多次”：通过各来源事件描述汇聚的事件信息进行碰撞，输出多个事件集中的具体个人，并且将个人的所有相关事件进行分析，短期内均是相同的事件则判定为“一人多次”模型输出结果。

该方案在“一人多事”的基础上再进行文本相似度判断。

对应“一人多次”的矛盾纠纷事件类型分类模型的应用方法包括以下步骤：

获取事件主角的身份信息，并提取所述矛盾纠纷事件的主体，基于所述主体和所述身份信息获取对应所述事件主角的所有矛盾纠纷事件组成人员判断事件组合；

获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度，若所述词向量组合余弦相似度大于设定阈值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件，获取所述相似事件的次数。

通过本方案设定的矛盾纠纷预警可实现管理区域的纠纷管理。当网格、社区、街道不同类别的纠纷事件实际案发数量或预测案发数量接近达到警戒值时，矛盾纠纷预警系统会自动产生相应级别的预警信息。预警信息经由预警管理员进行评估，如果构成预警，则将预警信息推送至市域社会治理现代化指挥平台，通过指挥平台智能流转到纠纷事件主管部门，辅助决策人员进行重点问题跟踪。

实施例四

基于和实施例一相同的构思，参考图5，本申请还提出了一种矛盾纠纷事件类型分类模型的构建装置，包括：

矛盾事件语料处理单元301，用于获取至少一标记纠纷类型的矛盾纠纷事件语料，其中每一所述矛盾纠纷事件语料包括描述对应矛盾纠纷事件的至少一事件词；

特征词集合获取单元302，用于基于所述事件词和所述矛盾纠纷事件的纠纷类型之间的相关性处理所述矛盾纠纷事件语料，获取对应每一纠纷类型的至少一特征词组成特征词集合；

特征词权重获取单元303，用于计算每一矛盾纠纷事件中的每一特征词的特征词权重，其中所述特征词权重为所述特征词对描述的所述纠纷类型的贡献度；

数据转换单元304，用于转换每一所述矛盾纠纷事件得到数据结构体，所述数据结构体包括表征所述矛盾纠纷事件的特征词、所述特征词对应的特征词权重以及所述特征词在所述矛盾纠纷事件中出现的特征词词频；

训练单元305，用于所述数据结构体和标记的纠纷类型输入分类器中进行训练得到矛盾纠纷事件类型分类模型。

关于该实施例四的内容参见实施例一的详尽描述。

实施例五

本实施例还提供了一种电子装置，参考图6，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项矛盾纠纷事件类型分类模型的构建方法或矛盾纠纷事件类型分类模型的应用方法的实施例中的步骤。

具体地，上述处理器402可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性(Non-Volatile)存储器。在特定实施例中，存储器404包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种数据入库方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是各来源的矛盾纠纷事件等，输出的信息可以是矛盾纠纷事件的纠纷类型以及预警信息等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S101、获取至少一标记纠纷类型的矛盾纠纷事件语料，其中每一所述矛盾纠纷事件语料包括描述对应矛盾纠纷事件的至少一事件词；

S102、基于所述事件词和所述矛盾纠纷事件的纠纷类型之间的相关性处理所述矛盾纠纷事件语料，获取对应每一纠纷类型的至少一特征词组成特征词集合；

S103、计算每一矛盾纠纷事件中的每一特征词的特征词权重，其中所述特征词权重为所述特征词对描述的所述纠纷类型的贡献度；

S104、转换每一所述矛盾纠纷事件得到数据结构体，所述数据结构体包括表征所述矛盾纠纷事件的特征词、所述特征词对应的特征词权重以及所述特征词在所述矛盾纠纷事件中出现的特征词词频；

S105、所述数据结构体和标记的纠纷类型输入分类器中进行训练得到矛盾纠纷事件类型分类模型。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种矛盾纠纷事件类型分类模型的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的矛盾纠纷事件类型分类模型的构建方法，其特征在于，在“基于所述事件词和所述矛盾纠纷事件的纠纷类型之间的相关性处理所述矛盾纠纷事件语料，获取对应每一纠纷类型的至少一特征词组成特征词集合”步骤中包括：依据卡方统计量方法计算每一事件词和不同纠纷类型的开方值，获取每一纠纷类型下开方值自大至小的至少一事件词作为特征词组成所述特征词集合。

3.根据权利要求2所述的矛盾纠纷事件类型分类模型的构建方法，其特征在于，“计算每一矛盾纠纷事件中的每一特征词的特征词权重”步骤中包括：基于TF-IDF方法计算每一矛盾纠纷事件中每一特征词的特征词权重。

4.根据权利要求1所述的矛盾纠纷事件类型分类模型的构建方法，其特征在于，在“转换每一所述矛盾纠纷事件得到数据结构体”步骤之前包括步骤：人为设定表征不同纠纷类型的至少一关键词，并设定所述关键词的关键词权重为1。

5.根据权利要求4所述的矛盾纠纷事件类型分类模型的构建方法，其特征在于，所述数据结构体额外包括表征所述矛盾纠纷事件的所述关键词以及所述关键词在所述矛盾纠纷事件中出现的关键词词频。

6.根据权利要求1所述的矛盾纠纷事件类型分类模型的构建方法，其特征在于，所述数据结构体包括对应每一特征词的数据结构，每一所述数据结构包括对应的所述特征词的特征词ID，所述特征词权重以及所述特征词词频。

7.根据权利要求1所述的矛盾纠纷事件类型分类模型的构建方法，其特征在于，“获取至少一标记纠纷类型的矛盾纠纷事件语料”步骤中包括：获取至少一标记纠纷类型的矛盾纠纷事件，提取每一所述矛盾纠纷事件中不重复的词汇，并去除所述词汇中无意义的词汇得到至少一事件词。

8.一种矛盾纠纷事件类型分类模型的应用方法，应用权利要求1到7任一所述的矛盾纠纷事件类型分类模型的构建方法训练得到的矛盾纠纷事件类型分类模型，其特征在于，包括以下步骤：

获取至少一矛盾纠纷事件，将所述矛盾纠纷事件输入所述矛盾纠纷事件类型分类模型中，获取每一所述矛盾纠纷事件的纠纷类型；

9.根据权利要求8所述的矛盾纠纷事件类型分类模型的应用方法，其特征在于，提取的所述主体包括身份证、手机号码、人名以及地名。

10.根据权利要求8所述的矛盾纠纷事件类型分类模型的应用方法，其特征在于，包括步骤：获取所述相似事件的次数，若所述次数大于设定阈值，则判断为“一事多次”。

11.一种矛盾纠纷事件类型分类模型的应用方法，应用权利要求1到7任一所述的矛盾纠纷事件类型分类模型的构建方法训练得到的矛盾纠纷事件类型分类模型，其特征在于，包括以下步骤：

获取事件主角的身份信息，并提取所述矛盾纠纷事件的主体，基于所述主体和所述身份信息获取对应所述事件主角的所有矛盾纠纷事件，判断为“一人多事”。

12.根据权利要求11所述的矛盾纠纷事件类型分类模型的应用方法，其特征在于，包括步骤：获取所述判断事件组合中两矛盾纠纷事件的词向量组合余弦相似度，若所述词向量组合余弦相似度大于设定阈值，则所述判断集合组合中的矛盾纠纷事件彼此为相似事件，获取所述相似事件的次数，判断为“一人多次”。

13.一种矛盾纠纷事件类型分类模型的应用方法，应用权利要求1到7任一所述的矛盾纠纷事件类型分类模型的构建方法训练得到的矛盾纠纷事件类型分类模型，其特征在于，包括以下步骤：

提取所述矛盾纠纷事件的主体，若所述矛盾纠纷事件的主体对应的人员数量大于设定阈值，则判断为“一事多人”。

14.一种矛盾纠纷事件类型分类模型的构建装置，其特征在于，包括：

矛盾事件语料处理单元，用于获取至少一标记纠纷类型的矛盾纠纷事件语料，其中每一所述矛盾纠纷事件语料包括描述对应矛盾纠纷事件的至少一事件词；

特征词集合获取单元，用于基于所述事件词和所述矛盾纠纷事件的纠纷类型之间的相关性处理所述矛盾纠纷事件语料，获取对应每一纠纷类型的至少一特征词组成特征词集合；

特征词权重获取单元，用于计算每一矛盾纠纷事件中的每一特征词的特征词权重，其中所述特征词权重为所述特征词对描述的所述纠纷类型的贡献度；

数据转换单元，用于转换每一所述矛盾纠纷事件得到数据结构体，所述数据结构体包括表征所述矛盾纠纷事件的特征词、所述特征词对应的特征词权重以及所述特征词在所述矛盾纠纷事件中出现的特征词词频；

训练单元，用于所述数据结构体和标记的纠纷类型输入分类器中进行训练得到矛盾纠纷事件类型分类模型。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到7任一所述的矛盾纠纷事件类型分类模型的构建方法。

16.一种计算机程序产品，其特征在于，包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述软件代码部分用于执行根据权利要求1到7任一所述的矛盾纠纷事件类型分类模型的构建方法。

17.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1到7任一所述的矛盾纠纷事件类型分类模型的构建方法。