CN110990562B

CN110990562B - 警情分类方法及其系统

Info

Publication number: CN110990562B
Application number: CN201911035094.5A
Authority: CN
Inventors: 饶启玉; 杜俊超; 袁满荣; 梅滢; 方晖; 马云伦; 段跃; 陈文波; 张俊波; 董继华; 王光华; 黄莎; 姜坤; 徐小磊; 郭晓峰; 黎本茹; 张德明
Original assignee: KUNMING PUBLIC SECURITY BUREAU; Xinzhi Cognitive Digital Technology Co ltd
Current assignee: KUNMING PUBLIC SECURITY BUREAU; Xinzhi Cognitive Digital Technology Co ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2022-08-26
Anticipated expiration: 2039-10-29
Also published as: CN110990562A

Abstract

一种警情分类方法，包括：110、对公安现有每个警情大类别构建3级子类别，形成多个四级类别体系；120、通过由相应的四级类别体系标注过的历史警情文本训练出相应的警情分类模型；130、通过所述警情分类模型对新警情分类。本发明通过机器学习的方式从历史警情中提取出3级子标签,构建四级类别体系，能反映当前群众报警内容的多样性，并通过机器学习方法针对每个警情大类别训练一个警情分类模型，进而进行警情分类，效率高，分类结果更加客观。

Description

警情分类方法及其系统

技术领域

本发明属于警情分类技术领域，尤其涉及一种警情分类方法及其系统。

背景技术

目前群众报警的内容十分繁杂，而警情分类系统的类别体系不够细致，不能反映当前群众报警内容的多样性，并且当前的警情分类功能是接警人员根据报警内容进行人工标注得到的,人工工作量较大,分类结果会受到接警人员的主观影响。

发明内容

基于此，针对上述技术问题，提供一种警情分类方法及其系统。

为解决上述技术问题，本发明采用如下技术方案：

一种警情分类方法，包括：

110、对公安现有每个警情大类别构建3级子类别，形成多个四级类别体系，并得到由相应的四级类别体系标注过的历史警情文本：

(111)对对应所述每个警情大类别的历史警情文本进行分词、提取实体信息，并输入GloVe模型进行学习，得到每个词汇的词汇向量；

(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTM AutoEncoder模型学习得到由特征向量表示的文本；

(113)将由所述特征向量表示的文本输入层级Kmeans无监督聚类模型进行聚类：将由所述特征向量表示的文本聚为N个类别，然后对每个类别中的文本再分别进行聚类得到M个类别，共计N*M个类别，所述N、M为10到100；

(114)采用TFIDF算法从所述N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词；

(115)通过所述关键词建立3级子类别：

对N*M个类别的关键词进行聚类，使相似的关键词被聚合成一类，对每类中的关键词分别进行归纳得到多个第3级子类别；

对所述多个第3级子类别进行聚类，使相似的第3级子类别被聚合成一类，对每类中的第3级子类别进行归纳得到多个第2级子类别；

对所述多个第2级子类别进行聚类，使相似的多个第2级子类别被聚合成一类，对每类中的第2级子类别进行归纳得到多个第1级子类别；

120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型：

(121)对警情文本进行分词、提取实体信息，并输入GloVe模型进行学习，得到每个词汇的词汇向量、实体向量以及位置向量；

(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量，并输入LSTM神经网络进行有监督训练，得到相应四级类别体系的警情分类模型；

130、通过所述警情分类模型对新警情分类：

(131)对警情文本进行分词、提取实体信息，并输入GloVe模型进行学习，得到每个词汇的词汇向量、实体向量以及位置向量；

(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量；

(133)将所述每个词汇的特征向量输入对应的警情分类模型进行分类。

将步骤130的分类结果进行人工校验,对分类出错的警情文本按照所述四级类别体系进行人工分类,通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。

本发明还涉及一种警情分类系统，包括存储模块，所述存储模块中存储有多条指令，所述指令由处理器加载并执行：

(115)通过所述关键词建立3级子类别：

130、通过所述警情分类模型对新警情分类：

本发明通过机器学习的方式从历史警情中提取出3级子标签,构建四级类别体系，能反映当前群众报警内容的多样性，并通过机器学习方法针对每个警情大类别训练一个警情分类模型，进而进行警情分类，效率高，分类结果更加客观。

附图说明

下面结合附图和具体实施方式本发明进行详细说明：

图1为本发明通过Yolo V3网络模型进行人体目标识别的效果图。

具体实施方式

如图1所示，一种警情分类方法，包括：

110、对公安现有每个警情大类别构建3级子类别，形成多个四级类别体系，并得到由相应的四级类别体系标注过的历史警情文本。

目前，公安现有警情分类体系具有刑事警情、治安警情等14个大类别，本发明通过每个大类别的历史警情文本对该大类别构建3级子类别，形成14个四级类别体系：大类别-第1级子类别-第2级子类别-第3级子类别。具体过程如下：

(111)对对应每个警情大类别的历史警情文本(由现有警情分类体系分类的历史警情文本)进行分词、提取实体信息，并输入GloVe模型进行学习，得到每个词汇的词汇向量(word embedding)，参见表1。

(112)将历史警情文本转换为由词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本，即警情文本的每个句子分别由一个特征向量表示。

(113)将由特征向量表示的文本输入层级Kmeans无监督聚类模型进行2层聚类：将由特征向量表示的文本聚为N个类别，然后对每个类别中的文本再分别进行聚类得到M个类别，共计N*M个类别，其中，N、M为10到100，如N、M分别取值10以及100，则共计1000个类别。

(114)采用TFIDF算法从N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词。

(115)通过关键词建立3级子类别：

A、对N*M个类别的关键词进行聚类，使相似的关键词被聚合成一类，对每类中的关键词分别进行归纳得到多个第3级子类别。这里的相似主要是看聚类的结果，聚到一类中的视为相似，并不仅仅是字面含义上的相似。

B、对多个第3级子类别进行聚类，使相似的第3级子类别被聚合成一类，对每类中的第3级子类别进行归纳得到多个第2级子类别。

C、对多个第2级子类别进行聚类，使相似的多个第2级子类别被聚合成一类，对每类中的第2级子类别进行归纳得到多个第1级子类别。

上述归纳可以由人工按照业务要求进行归纳。

四级类别体系构建完成后，可进行人工校验，以修改错误的分类。

由于四级类别体系是在历史警情文本上进行无监督聚类以及人工校验得到的。因此整个过程中，每个历史警情文本是关联到四级类别体系上的，并且进行校验修改时，对类别的改动也会同步关联至相应的历史警情文本，故构建完成四级类别体系后，就可以得到由相应的四级类别体系标注过的历史警情文本。

如将治安警情大类别下的历史警情文本通过步骤(111)-(115)进行处理，如得到聚合成一类的关键词为：打架、发现、被打、有人，则进行归纳后得到第3级子类别为：发现有人被打；如相似的第3级子类别为：发现有人被打、报称被打，进行归纳后得到第2级子类别：打架斗殴；如相似的第2级子类别为：打架斗殴、寻衅滋事，则进行归纳后得到第1级子类别：扰乱公共秩序。最后得到治安警情四级类别体系。

120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型，即分别训练出14个警情分类模型，如通过由治安警情四级类别体系标注过的历史警情文本训练出治安警情分类模型：

(121)对警情文本进行分词、提取实体信息，并输入GloVe模型进行学习，得到每个词汇的词汇向量(word embedding)、实体向量(entity embedding)以及位置向量(position embedding)，位置向量(position embedding)代表每个词汇在警情内容中的位置，参见表1。这里的警情文本是指某个四级类别体系标注过的历史警情文本，或者步骤(134)中通过人工分类后的警情文本。

(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量，并输入LSTM神经网络进行有监督训练，得到相应四级类别体系的警情分类模型。

130、通过警情分类模型对新警情分类：

(131)对新警情文本进行分词、提取实体信息，并输入GloVe模型进行学习，得到每个词汇的词汇向量、实体向量以及位置向量。这里的警情文本为新警情文本。

(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量。

(133)将每个词汇的特征向量输入对应的警情分类模型进行分类。

在本实施例中，在人工能判断大类别的情况下，会在新警情数据中设置一个类别值，每个类别值代表一个大类别，通过识别该类别值，选择相应的警情分类模型进行分类。

当人工不能判断大类别的情况下，即类别值为空时，则通过大类别分类模型对这条条新警情进行大类别分类，该模型的输出为类别值，即该条新警情所属的某个大类别，然后再用对应的警情分类模型分到子类别上。

(134)将步骤(133)的分类结果进行人工校验,对分类出错的警情文本按照四级类别体系进行人工分类(标注),通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。本步骤为优选方案，通过不断迭代提高模型的分类效果。

如某新警情文本为(敏感信息用*代替)：

2019年****时，报警人程**(女，汉族，出生日期：**，身份证号码：****，电话号码：****，户籍地址：****，现住地址：****，到我所报称，2019年****时，报警人锁好***门窗后离开。期间报警人回家过一次，没有发现被盗，直到2019年****时，报警人回到家发现有翻动痕迹，便清点家中财务发现首饰柜中3条项链(购买时间：****、购价：****)、3个戒指(购买时间：****、购价：****)、3对耳环(购买时间：****、购价：****)、现金(现金：****)被盗。共计损失：盗窃手段：****。(无接受证据材料清单)

通过本发明的警情分类模型进行分类得到：刑事警情-侵犯财产-盗窃电动自行车-电动车被盗。经过进行人工校验，发现分类有误，重新按照四级类别体系进行人工标注为：刑事警情-侵犯财产-入室盗窃-家中被盗，手段不清，最后用这些有标记的精准数据对相应的分类模型进行再次的训练，提高了该模型的分类效果。

(115)通过关键词建立3级子类别：

上述归纳可以由人工按照业务要求进行归纳。

130、通过警情分类模型对新警情分类：

如某新警情文本为(敏感信息用*代替)：

表1

但是，本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种警情分类方法，其特征在于，包括：

(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本；

(115)通过所述关键词建立3级子类别：

130、通过所述警情分类模型对新警情分类：

2.根据权利要求1所述的一种警情分类方法及其系统，其特征在于，将步骤130的分类结果进行人工校验,对分类出错的警情文本按照所述四级类别体系进行人工分类,通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。

3.一种警情分类系统，其特征在于，包括存储模块，所述存储模块中存储有多条指令，所述指令由处理器加载并执行：

(115)通过所述关键词建立3级子类别：

130、通过所述警情分类模型对新警情分类：

4.根据权利要求3所述的一种警情分类系统，其特征在于，将步骤130的分类结果进行人工校验,对分类出错的警情文本按照所述四级类别体系进行人工分类,通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。