CN110837601A

CN110837601A - 一种警情的自动分类与预测方法

Info

Publication number: CN110837601A
Application number: CN201911021249.XA
Authority: CN
Inventors: 赵粉玉; 田远东; 鲁立虹; 张慧娟; 赵伯亮
Original assignee: Hangzhou Xujian Science And Technology Co Ltd
Current assignee: Hangzhou Xujian Science And Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-02-25

Abstract

本发明提供一种警情的自动分类与预测方法，接收单条警情数据输入，通过警情分类系统，返回警情类型；警情分类系统包括：警情数据模块(1)，关键词获取和筛选模块(2)，犯罪类型统计筛选模块(3)，警情类型评估统计(4)，警情类型近义词模块(5)，警情类型相似词模块(6)，警情数据类型关联模块(7)，警情分类模型训练模块(8)；本发明有益效果：当前警情录入系统需要工作人员记录案情时根据经验自己选择案件类型并保存，而且记录警情时系统给出的警情类型种类不够全面。使用本发明的警情分类系统，输入警情数据会得到一个正确有效的分类结果，分类结果可以关联到相关的法律法规以及相关办案经验，以提高工作人员办案效率。

Description

一种警情的自动分类与预测方法

技术领域

本发明涉及大数据处理技术领域，尤其是涉及一种警情的自动分类与预测方法。

背景技术

随着我国经济社会的迅猛发展，许多社会问题不断涌现，社会治安问题日益突出，各类警情也随之不断增多，目前未有警情的自动分类系统，现有系统需要工作人员记录案情时根据经验自己选择案件类型并保存，而且记录警情时系统给出的警情类型种类不够全面。警情的正确有效分类可以关联相关的法律法规以及相关办案经验，以提高工作人员办案效率。

发明内容

为解决上述技术问题，本发明提供一种警情的自动分类与预测方法，能够自动对输入的警情数据进行分类，以便警情数据统计分析以及相关案情研判。

本发明提供一种警情的自动分类与预测方法，接收单条警情数据输入，通过警情分类系统，返回警情类型；

警情分类系统包括：警情数据模块(1)，关键词获取和筛选模块(2)，犯罪类型统计筛选模块(3)，警情类型评估统计(4)，警情类型近义词模块(5)，警情类型相似词模块(6)，警情数据类型关联模块(7)，警情分类模型训练模块(8)；

警情数据模块(1)，是所有警情数据的集合；例如:南巷六号，有一群人拿着棍子打架。被视为一条警情信息。

关键词获取和筛选模块(2)，是用来获取警情数据中的关键词，根据实际情况剔除噪音词后规范化后形成警情类别；如获取的关键词中有手机、打架等相关词语，手机为噪音词，打架替换成为规范化术语打架斗殴后保存为一种警情类别；

犯罪类型统计筛选模块(3)是根据刑法罪名以及治安案件类型作为参考对警情类型做相应补充；例如：补充饲养动物干扰正常生活，阻碍执行职务等类型，以防止警情类型缺失。

警情类型评估统计(4)是在得到关键词集合后，整理出如纠纷、被盗、闹事、丢失、扰民等，名词根据修饰词再做详细区分，如纠纷可分为邻里纠纷、家庭纠纷、物业纠纷等，然后将其它词根据治安法案件类型、刑法案件类型或案件命名规则对其进行同义替换，如被盗替换为盗窃。

根据具体情况将警情类型聚类，例如：殴打他人、聚众斗殴、家庭暴力可统称为打架斗殴，训练模型时标签使用聚类后的警情类型，训练后通过句式分析再得到其具体的类型；

警情数据类型关联模块(7)是根据警情类别对警情训练样本设置标签，形成语料集(X,Y)，X为特征即警情数据，Y为标签即警情类型；

警情类型近义词模块(5)是获取每类警情关键词的近义词，近义词通过相似词林或词典获取；如：盗窃类警情关键词是盗窃，其近义词组为“偷盗/偷窃/扒窃/摸风”。

警情类型相似词模块(6)是获取每类警情关键词的相似词，下载维基百科语料，语料通过jieba分词将并去除停用词，使用word2vec工具将处理好的词汇映射成n维的向量，再通过向量间余弦相似度评估词之间的相似程度，如盗窃类警情关键词是盗窃，其相似词组为“强盗/偷窃/窃贼/偷盗/窃盗/盗取/偷/盗”。

警情数据类型关联模块(7)将警情类别的相关词、近义词作为关键词群后，通过模糊匹配方式得到一批有标签的数据，其中匹配方式为多词或单词模式；例如：警情类型为盗窃，关键词为盗窃，近义词组为“偷盗/偷窃/扒窃/摸风”，相关词组为“强盗/偷窃/窃贼/偷盗/窃盗/盗取/偷/盗”。警情：万达某店，报警人称保洁工偷盗财物。通过模糊匹配方式可以将此警情标记为盗窃。

在部分类型数据量少的情况下，伪造类似数据扩大训练样本量，以提高准确率。

警情分类模型训练模块(8)是训练一种基于textCNN的警情分类模型。

作为优选的，关键词获取和筛选模块(2)的具体方法如下：

步骤(1.1)、将原数据拆分成词组，对词语数组的进行词性标注；

步骤(1.2)、每个词组过滤掉停用词，最终只保留词性为名词、动词的单词；如警情信息“南巷六号，有一群人拿着棍子打架。”中文分词后得到词组：南巷/六号/，/有/一群人/拿着/棍子/打架，去掉停用词以及执行此行过滤后变为一群人/拿着/棍子/打架；

步骤(1.3)、将所有结果整合得到单词的集合；

步骤(1.4)、构建词图G＝(v,e)，其中V为节点集合，由以上步骤生成的词组成，然后采用共现关系构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，e为上述边的集合，K表示窗口大小；即从单词组中循环选择一个单词，将其与其后面k-1个单词分别组合成k-1条边，如词组为“有/一群人/拿着/棍子/打架”，如果k为2，选择单词为“拿着”，则此时窗口为[“拿着”,”棍子”]，会产生(“拿着”，1，“棍子”)一条边，边权值为1，当这条边在之后再次出现时，权值再在基础上加1；最后通过TextRank迭代算法公式计算各节点的权重，直至收敛，最终不同词语会有不同的权重值，权重值高的的词语为关键词；

TextRank迭代算法计算公式为：

WS(Vi)是词语i的权重值；d是阻尼系数，取值范围为0到1，代表从图中某一特定点指向其他任意点的概率，一般设置为0.85；In(Vi)是存在指向词语i的链接的词语集合；

Out(Vj)是词语j中的链接存在的链接指向的词语的集合；权重项ωji，用来表示两个词语之间的边有不同的重要程度；

步骤(1.5)、根据关键词的词频过滤掉词频统计值DF小于阀值(如DFM取值20)的值以及噪音词(如手机等)。

作为优选的，警情分类模型训练模块(8)的具体方法如下：

步骤(2.1)、文本的预处理，样本分词后去除无意义的符号信息、地址、数字、停用词等冗余信息；

步骤(2.2)、文本数值化：使用word2vec工具获取特征集的词向量模型，将文本数据向量化；

步骤(2.3)、输入样本的向量化数据，使用深度学习模型Text-CNN模型进行分类训练，即通过卷积层提取语句的特征，将提取的特征输入到分类器中进行分类；

步骤(2.4)、根据结果调整参数，保存最终模型。

与现有技术相比，本发明的技术方案具有如下有益效果：

当前警情录入系统需要工作人员记录案情时根据经验自己选择案件类型并保存，而且记录警情时系统给出的警情类型种类不够全面。使用本发明的警情分类系统，输入警情数据会得到一个正确有效的分类结果，分类结果可以关联到相关的法律法规以及相关办案经验，以提高工作人员办案效率。

附图说明

图1为本发明提供的一种警情自动分类的结构示意图；

图2为本发明实现一种警情分类系统的功能结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1～2所示，本发明提供一种警情的自动分类与预测方法的具体实施例，如图1所示，接收单条警情数据输入，通过警情分类系统，返回警情类型；

如图2所示，警情分类系统包括：警情数据模块(1)，关键词获取和筛选模块(2)，犯罪类型统计筛选模块(3)，警情类型评估统计(4)，警情类型近义词模块(5)，警情类型相似词模块(6)，警情数据类型关联模块(7)，警情分类模型训练模块(8)；

警情数据模块(1)，是所有警情数据的集合；例如:南巷六号，有一群人拿着棍子打架。被视为一条警情信息；

关键词获取和筛选模块(2)，是用来获取警情数据中的关键词，根据实际情况剔除噪音词后规范化后形成警情类别；如获取的关键词中有手机、打架等相关词语，手机为噪音词，打架替换成为规范化术语打架斗殴后保存为一种警情类别，具体方法如下：

1.1)、将原数据拆分成词组，对词语数组的进行词性标注；

1.2)、每个词组过滤掉停用词，最终只保留词性为名词、动词的单词；如警情信息“南巷六号，有一群人拿着棍子打架。”中文分词后得到词组：南巷/六号/，/有/一群人/拿着/棍子/打架，去掉停用词以及执行此行过滤后变为一群人/拿着/棍子/打架；

1.3)、将所有结果整合得到单词的集合；

1.4)、构建词图G＝(v,e)，其中V为节点集合，由以上步骤生成的词组成，然后采用共现关系构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，e为上述边的集合，K表示窗口大小；即从单词组中循环选择一个单词，将其与其后面k-1个单词分别组合成k-1条边，如词组为“有/一群人/拿着/棍子/打架”，如果k为2，选择单词为“拿着”，则此时窗口为[“拿着”,”棍子”]，会产生(“拿着”，1，“棍子”)一条边，边权值为1，当这条边在之后再次出现时，权值再在基础上加1；最后通过TextRank迭代算法公式计算各节点的权重，直至收敛，最终不同词语会有不同的权重值，权重值高的的词语为关键词；

TextRank迭代算法计算公式为：

WS(Vi)是词语i的权重值；d是阻尼系数，取值范围为0到1，代表从图中某一特定点指向其他任意点的概率，一般设置为0.85；In(Vi)是存在指向词语i的链接的词语集合；Out(Vj)是词语j中的链接存在的链接指向的词语的集合；权重项ωji，用来表示两个词语之间的边有不同的重要程度；

1.5)、根据关键词的词频过滤掉词频统计值DF小于阀值(如DFM取值20)的值以及噪音词(如手机等)；

犯罪类型统计筛选模块(3)是根据刑法罪名以及治安案件类型作为参考对警情类型做相应补充；例如：补充饲养动物干扰正常生活，阻碍执行职务等类型，以防止警情类型缺失；

警情分类模型训练模块(8)是训练一种基于textCNN的警情分类模型；具体方法如下：

2.1)、文本的预处理，样本分词后去除无意义的符号信息、地址、数字、停用词等冗余信息。

2.2)、文本数值化：使用word2vec工具获取特征集的词向量模型，将文本数据向量化。

2.3)、输入样本的向量化数据，使用深度学习模型Text-CNN模型进行分类训练，即通过卷积层提取语句的特征，将提取的特征输入到分类器中进行分类。

2.4)、根据结果调整参数，保存最终模型。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想，以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种警情的自动分类与预测方法，其特征在于，接收单条警情数据输入，通过警情分类系统，返回警情类型；

警情数据模块(1)，是所有警情数据的集合；

关键词获取和筛选模块(2)，是用来获取警情数据中的关键词，根据实际情况剔除噪音词后规范化后形成警情类别；

犯罪类型统计筛选模块(3)是根据刑法罪名以及治安案件类型作为参考对警情类型做相应补充；

警情类型评估统计(4)是在得到关键词集合后，整理出如纠纷、被盗、闹事、丢失、扰民等，名词根据修饰词再做详细区分，然后将其它词根据治安法案件类型、刑法案件类型或案件命名规则对其进行同义替换；

根据具体情况将警情类型聚类，训练模型时标签使用聚类后的警情类型，训练后通过句式分析再得到其具体的类型；

警情类型近义词模块(5)是获取每类警情关键词的近义词，近义词通过相似词林或词典获取；

警情类型相似词模块(6)是获取每类警情关键词的相似词，下载维基百科语料，语料通过jieba分词将并去除停用词，使用word2vec工具将处理好的词汇映射成n维的向量，再通过向量间余弦相似度评估词之间的相似程度；

警情数据类型关联模块(7)将警情类别的相关词、近义词作为关键词群后，通过模糊匹配方式得到一批有标签的数据，其中匹配方式为多词或单词模式；

2.根据权利要求1中所述的一种警情的自动分类与预测方法，其特征在于，关键词获取和筛选模块(2)的具体方法如下：

步骤(1.2)、每个词组过滤掉停用词，最终只保留词性为名词、动词的单词；

步骤(1.3)、将所有结果整合得到单词的集合；

步骤(1.4)、构建词图G＝(v,e)，其中V为节点集合，由以上步骤生成的词组成，然后采用共现关系构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，e为上述边的集合，K表示窗口大小；最后通过TextRank迭代算法公式计算各节点的权重，直至收敛，最终不同词语会有不同的权重值，权重值高的的词语为关键词；

TextRank迭代算法计算公式为：

步骤(1.5)、根据关键词的词频过滤掉词频统计值DF小于阀值(如DFM取值20)的值以及噪音词。

3.根据权利要求1中所述的一种警情的自动分类与预测方法，其特征在于，警情分类模型训练模块(8)的具体方法如下：

步骤(2.4)、根据结果调整参数，保存最终模型。