CN110990562B - 警情分类方法及其系统 - Google Patents
警情分类方法及其系统 Download PDFInfo
- Publication number
- CN110990562B CN110990562B CN201911035094.5A CN201911035094A CN110990562B CN 110990562 B CN110990562 B CN 110990562B CN 201911035094 A CN201911035094 A CN 201911035094A CN 110990562 B CN110990562 B CN 110990562B
- Authority
- CN
- China
- Prior art keywords
- level
- vector
- vocabulary
- category
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种警情分类方法,包括:110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系;120、通过由相应的四级类别体系标注过的历史警情文本训练出相应的警情分类模型;130、通过所述警情分类模型对新警情分类。本发明通过机器学习的方式从历史警情中提取出3级子标签,构建四级类别体系,能反映当前群众报警内容的多样性,并通过机器学习方法针对每个警情大类别训练一个警情分类模型,进而进行警情分类,效率高,分类结果更加客观。
Description
技术领域
本发明属于警情分类技术领域,尤其涉及一种警情分类方法及其系统。
背景技术
目前群众报警的内容十分繁杂,而警情分类系统的类别体系不够细致,不能反映当前群众报警内容的多样性,并且当前的警情分类功能是接警人员根据报警内容进行人工标注得到的,人工工作量较大,分类结果会受到接警人员的主观影响。
发明内容
基于此,针对上述技术问题,提供一种警情分类方法及其系统。
为解决上述技术问题,本发明采用如下技术方案:
一种警情分类方法,包括:
110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本:
(111)对对应所述每个警情大类别的历史警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量;
(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTM AutoEncoder模型学习得到由特征向量表示的文本;
(113)将由所述特征向量表示的文本输入层级Kmeans无监督聚类模型进行聚类:将由所述特征向量表示的文本聚为N个类别,然后对每个类别中的文本再分别进行聚类得到M个类别,共计N*M个类别,所述N、M为10到100;
(114)采用TFIDF算法从所述N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词;
(115)通过所述关键词建立3级子类别:
对N*M个类别的关键词进行聚类,使相似的关键词被聚合成一类,对每类中的关键词分别进行归纳得到多个第3级子类别;
对所述多个第3级子类别进行聚类,使相似的第3级子类别被聚合成一类,对每类中的第3级子类别进行归纳得到多个第2级子类别;
对所述多个第2级子类别进行聚类,使相似的多个第2级子类别被聚合成一类,对每类中的第2级子类别进行归纳得到多个第1级子类别;
120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型:
(121)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量,并输入LSTM神经网络进行有监督训练,得到相应四级类别体系的警情分类模型;
130、通过所述警情分类模型对新警情分类:
(131)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量;
(133)将所述每个词汇的特征向量输入对应的警情分类模型进行分类。
将步骤130的分类结果进行人工校验,对分类出错的警情文本按照所述四级类别体系进行人工分类,通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。
本发明还涉及一种警情分类系统,包括存储模块,所述存储模块中存储有多条指令,所述指令由处理器加载并执行:
110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本:
(111)对对应所述每个警情大类别的历史警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量;
(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTM AutoEncoder模型学习得到由特征向量表示的文本;
(113)将由所述特征向量表示的文本输入层级Kmeans无监督聚类模型进行聚类:将由所述特征向量表示的文本聚为N个类别,然后对每个类别中的文本再分别进行聚类得到M个类别,共计N*M个类别,所述N、M为10到100;
(114)采用TFIDF算法从所述N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词;
(115)通过所述关键词建立3级子类别:
对N*M个类别的关键词进行聚类,使相似的关键词被聚合成一类,对每类中的关键词分别进行归纳得到多个第3级子类别;
对所述多个第3级子类别进行聚类,使相似的第3级子类别被聚合成一类,对每类中的第3级子类别进行归纳得到多个第2级子类别;
对所述多个第2级子类别进行聚类,使相似的多个第2级子类别被聚合成一类,对每类中的第2级子类别进行归纳得到多个第1级子类别;
120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型:
(121)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量,并输入LSTM神经网络进行有监督训练,得到相应四级类别体系的警情分类模型;
130、通过所述警情分类模型对新警情分类:
(131)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量;
(133)将所述每个词汇的特征向量输入对应的警情分类模型进行分类。
将步骤130的分类结果进行人工校验,对分类出错的警情文本按照所述四级类别体系进行人工分类,通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。
本发明通过机器学习的方式从历史警情中提取出3级子标签,构建四级类别体系,能反映当前群众报警内容的多样性,并通过机器学习方法针对每个警情大类别训练一个警情分类模型,进而进行警情分类,效率高,分类结果更加客观。
附图说明
下面结合附图和具体实施方式本发明进行详细说明:
图1为本发明通过Yolo V3网络模型进行人体目标识别的效果图。
具体实施方式
如图1所示,一种警情分类方法,包括:
110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本。
目前,公安现有警情分类体系具有刑事警情、治安警情等14个大类别,本发明通过每个大类别的历史警情文本对该大类别构建3级子类别,形成14个四级类别体系:大类别-第1级子类别-第2级子类别-第3级子类别。具体过程如下:
(111)对对应每个警情大类别的历史警情文本(由现有警情分类体系分类的历史警情文本)进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量(word embedding),参见表1。
(112)将历史警情文本转换为由词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本,即警情文本的每个句子分别由一个特征向量表示。
(113)将由特征向量表示的文本输入层级Kmeans无监督聚类模型进行2层聚类:将由特征向量表示的文本聚为N个类别,然后对每个类别中的文本再分别进行聚类得到M个类别,共计N*M个类别,其中,N、M为10到100,如N、M分别取值10以及100,则共计1000个类别。
(114)采用TFIDF算法从N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词。
(115)通过关键词建立3级子类别:
A、对N*M个类别的关键词进行聚类,使相似的关键词被聚合成一类,对每类中的关键词分别进行归纳得到多个第3级子类别。这里的相似主要是看聚类的结果,聚到一类中的视为相似,并不仅仅是字面含义上的相似。
B、对多个第3级子类别进行聚类,使相似的第3级子类别被聚合成一类,对每类中的第3级子类别进行归纳得到多个第2级子类别。
C、对多个第2级子类别进行聚类,使相似的多个第2级子类别被聚合成一类,对每类中的第2级子类别进行归纳得到多个第1级子类别。
上述归纳可以由人工按照业务要求进行归纳。
四级类别体系构建完成后,可进行人工校验,以修改错误的分类。
由于四级类别体系是在历史警情文本上进行无监督聚类以及人工校验得到的。因此整个过程中,每个历史警情文本是关联到四级类别体系上的,并且进行校验修改时,对类别的改动也会同步关联至相应的历史警情文本,故构建完成四级类别体系后,就可以得到由相应的四级类别体系标注过的历史警情文本。
如将治安警情大类别下的历史警情文本通过步骤(111)-(115)进行处理,如得到聚合成一类的关键词为:打架、发现、被打、有人,则进行归纳后得到第3级子类别为:发现有人被打;如相似的第3级子类别为:发现有人被打、报称被打,进行归纳后得到第2级子类别:打架斗殴;如相似的第2级子类别为:打架斗殴、寻衅滋事,则进行归纳后得到第1级子类别:扰乱公共秩序。最后得到治安警情四级类别体系。
120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型,即分别训练出14个警情分类模型,如通过由治安警情四级类别体系标注过的历史警情文本训练出治安警情分类模型:
(121)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量(word embedding)、实体向量(entity embedding)以及位置向量(position embedding),位置向量(position embedding)代表每个词汇在警情内容中的位置,参见表1。这里的警情文本是指某个四级类别体系标注过的历史警情文本,或者步骤(134)中通过人工分类后的警情文本。
(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量,并输入LSTM神经网络进行有监督训练,得到相应四级类别体系的警情分类模型。
130、通过警情分类模型对新警情分类:
(131)对新警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量。这里的警情文本为新警情文本。
(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量。
(133)将每个词汇的特征向量输入对应的警情分类模型进行分类。
在本实施例中,在人工能判断大类别的情况下,会在新警情数据中设置一个类别值,每个类别值代表一个大类别,通过识别该类别值,选择相应的警情分类模型进行分类。
当人工不能判断大类别的情况下,即类别值为空时,则通过大类别分类模型对这条条新警情进行大类别分类,该模型的输出为类别值,即该条新警情所属的某个大类别,然后再用对应的警情分类模型分到子类别上。
(134)将步骤(133)的分类结果进行人工校验,对分类出错的警情文本按照四级类别体系进行人工分类(标注),通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。本步骤为优选方案,通过不断迭代提高模型的分类效果。
如某新警情文本为(敏感信息用*代替):
2019年****时,报警人程**(女,汉族,出生日期:**,身份证号码:****,电话号码:****,户籍地址:****,现住地址:****,到我所报称,2019年****时,报警人锁好***门窗后离开。期间报警人回家过一次,没有发现被盗,直到2019年****时,报警人回到家发现有翻动痕迹,便清点家中财务发现首饰柜中3条项链(购买时间:****、购价:****)、3个戒指(购买时间:****、购价:****)、3对耳环(购买时间:****、购价:****)、现金(现金:****)被盗。共计损失:盗窃手段:****。(无接受证据材料清单)
通过本发明的警情分类模型进行分类得到:刑事警情-侵犯财产-盗窃电动自行车-电动车被盗。经过进行人工校验,发现分类有误,重新按照四级类别体系进行人工标注为:刑事警情-侵犯财产-入室盗窃-家中被盗,手段不清,最后用这些有标记的精准数据对相应的分类模型进行再次的训练,提高了该模型的分类效果。
本发明还涉及一种警情分类系统,包括存储模块,所述存储模块中存储有多条指令,所述指令由处理器加载并执行:
110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本。
目前,公安现有警情分类体系具有刑事警情、治安警情等14个大类别,本发明通过每个大类别的历史警情文本对该大类别构建3级子类别,形成14个四级类别体系:大类别-第1级子类别-第2级子类别-第3级子类别。具体过程如下:
(111)对对应每个警情大类别的历史警情文本(由现有警情分类体系分类的历史警情文本)进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量(word embedding),参见表1。
(112)将历史警情文本转换为由词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本,即警情文本的每个句子分别由一个特征向量表示。
(113)将由特征向量表示的文本输入层级Kmeans无监督聚类模型进行2层聚类:将由特征向量表示的文本聚为N个类别,然后对每个类别中的文本再分别进行聚类得到M个类别,共计N*M个类别,其中,N、M为10到100,如N、M分别取值10以及100,则共计1000个类别。
(114)采用TFIDF算法从N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词。
(115)通过关键词建立3级子类别:
A、对N*M个类别的关键词进行聚类,使相似的关键词被聚合成一类,对每类中的关键词分别进行归纳得到多个第3级子类别。这里的相似主要是看聚类的结果,聚到一类中的视为相似,并不仅仅是字面含义上的相似。
B、对多个第3级子类别进行聚类,使相似的第3级子类别被聚合成一类,对每类中的第3级子类别进行归纳得到多个第2级子类别。
C、对多个第2级子类别进行聚类,使相似的多个第2级子类别被聚合成一类,对每类中的第2级子类别进行归纳得到多个第1级子类别。
上述归纳可以由人工按照业务要求进行归纳。
四级类别体系构建完成后,可进行人工校验,以修改错误的分类。
由于四级类别体系是在历史警情文本上进行无监督聚类以及人工校验得到的。因此整个过程中,每个历史警情文本是关联到四级类别体系上的,并且进行校验修改时,对类别的改动也会同步关联至相应的历史警情文本,故构建完成四级类别体系后,就可以得到由相应的四级类别体系标注过的历史警情文本。
如将治安警情大类别下的历史警情文本通过步骤(111)-(115)进行处理,如得到聚合成一类的关键词为:打架、发现、被打、有人,则进行归纳后得到第3级子类别为:发现有人被打;如相似的第3级子类别为:发现有人被打、报称被打,进行归纳后得到第2级子类别:打架斗殴;如相似的第2级子类别为:打架斗殴、寻衅滋事,则进行归纳后得到第1级子类别:扰乱公共秩序。最后得到治安警情四级类别体系。
120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型,即分别训练出14个警情分类模型,如通过由治安警情四级类别体系标注过的历史警情文本训练出治安警情分类模型:
(121)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量(word embedding)、实体向量(entity embedding)以及位置向量(position embedding),位置向量(position embedding)代表每个词汇在警情内容中的位置,参见表1。这里的警情文本是指某个四级类别体系标注过的历史警情文本,或者步骤(134)中通过人工分类后的警情文本。
(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量,并输入LSTM神经网络进行有监督训练,得到相应四级类别体系的警情分类模型。
130、通过警情分类模型对新警情分类:
(131)对新警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量。这里的警情文本为新警情文本。
(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量。
(133)将每个词汇的特征向量输入对应的警情分类模型进行分类。
在本实施例中,在人工能判断大类别的情况下,会在新警情数据中设置一个类别值,每个类别值代表一个大类别,通过识别该类别值,选择相应的警情分类模型进行分类。
当人工不能判断大类别的情况下,即类别值为空时,则通过大类别分类模型对这条条新警情进行大类别分类,该模型的输出为类别值,即该条新警情所属的某个大类别,然后再用对应的警情分类模型分到子类别上。
(134)将步骤(133)的分类结果进行人工校验,对分类出错的警情文本按照四级类别体系进行人工分类(标注),通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。本步骤为优选方案,通过不断迭代提高模型的分类效果。
如某新警情文本为(敏感信息用*代替):
2019年****时,报警人程**(女,汉族,出生日期:**,身份证号码:****,电话号码:****,户籍地址:****,现住地址:****,到我所报称,2019年****时,报警人锁好***门窗后离开。期间报警人回家过一次,没有发现被盗,直到2019年****时,报警人回到家发现有翻动痕迹,便清点家中财务发现首饰柜中3条项链(购买时间:****、购价:****)、3个戒指(购买时间:****、购价:****)、3对耳环(购买时间:****、购价:****)、现金(现金:****)被盗。共计损失:盗窃手段:****。(无接受证据材料清单)
本发明通过机器学习的方式从历史警情中提取出3级子标签,构建四级类别体系,能反映当前群众报警内容的多样性,并通过机器学习方法针对每个警情大类别训练一个警情分类模型,进而进行警情分类,效率高,分类结果更加客观。
表1
但是,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。
Claims (4)
1.一种警情分类方法,其特征在于,包括:
110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本:
(111)对对应所述每个警情大类别的历史警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量;
(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本;
(113)将由所述特征向量表示的文本输入层级Kmeans无监督聚类模型进行聚类:将由所述特征向量表示的文本聚为N个类别,然后对每个类别中的文本再分别进行聚类得到M个类别,共计N*M个类别,所述N、M为10到100;
(114)采用TFIDF算法从所述N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词;
(115)通过所述关键词建立3级子类别:
对N*M个类别的关键词进行聚类,使相似的关键词被聚合成一类,对每类中的关键词分别进行归纳得到多个第3级子类别;
对所述多个第3级子类别进行聚类,使相似的第3级子类别被聚合成一类,对每类中的第3级子类别进行归纳得到多个第2级子类别;
对所述多个第2级子类别进行聚类,使相似的多个第2级子类别被聚合成一类,对每类中的第2级子类别进行归纳得到多个第1级子类别;
120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型:
(121)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量,并输入LSTM神经网络进行有监督训练,得到相应四级类别体系的警情分类模型;
130、通过所述警情分类模型对新警情分类:
(131)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量;
(133)将所述每个词汇的特征向量输入对应的警情分类模型进行分类。
2.根据权利要求1所述的一种警情分类方法及其系统,其特征在于,将步骤130的分类结果进行人工校验,对分类出错的警情文本按照所述四级类别体系进行人工分类,通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。
3.一种警情分类系统,其特征在于,包括存储模块,所述存储模块中存储有多条指令,所述指令由处理器加载并执行:
110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本:
(111)对对应所述每个警情大类别的历史警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量;
(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本;
(113)将由所述特征向量表示的文本输入层级Kmeans无监督聚类模型进行聚类:将由所述特征向量表示的文本聚为N个类别,然后对每个类别中的文本再分别进行聚类得到M个类别,共计N*M个类别,所述N、M为10到100;
(114)采用TFIDF算法从所述N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词;
(115)通过所述关键词建立3级子类别:
对N*M个类别的关键词进行聚类,使相似的关键词被聚合成一类,对每类中的关键词分别进行归纳得到多个第3级子类别;
对所述多个第3级子类别进行聚类,使相似的第3级子类别被聚合成一类,对每类中的第3级子类别进行归纳得到多个第2级子类别;
对所述多个第2级子类别进行聚类,使相似的多个第2级子类别被聚合成一类,对每类中的第2级子类别进行归纳得到多个第1级子类别;
120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型:
(121)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量,并输入LSTM神经网络进行有监督训练,得到相应四级类别体系的警情分类模型;
130、通过所述警情分类模型对新警情分类:
(131)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量;
(133)将所述每个词汇的特征向量输入对应的警情分类模型进行分类。
4.根据权利要求3所述的一种警情分类系统,其特征在于,将步骤130的分类结果进行人工校验,对分类出错的警情文本按照所述四级类别体系进行人工分类,通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035094.5A CN110990562B (zh) | 2019-10-29 | 2019-10-29 | 警情分类方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035094.5A CN110990562B (zh) | 2019-10-29 | 2019-10-29 | 警情分类方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990562A CN110990562A (zh) | 2020-04-10 |
CN110990562B true CN110990562B (zh) | 2022-08-26 |
Family
ID=70082586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911035094.5A Active CN110990562B (zh) | 2019-10-29 | 2019-10-29 | 警情分类方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990562B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257435B (zh) * | 2020-09-11 | 2024-05-14 | 安徽中科新辰技术有限公司 | 一种基于人工智能分词技术的警情数据治理方法 |
CN112541075B (zh) * | 2020-10-30 | 2024-04-05 | 中科曙光南京研究院有限公司 | 一种警情文本的标准案发时间提取方法及系统 |
CN113626606B (zh) * | 2021-08-31 | 2024-02-13 | 中国平安财产保险股份有限公司 | 信息分类方法、装置、电子设备及可读存储介质 |
CN113934852A (zh) * | 2021-12-16 | 2022-01-14 | 中国矿业大学(北京) | 一种煤矿违章信息文本自动分类方法和系统 |
CN114579740B (zh) * | 2022-01-20 | 2023-12-05 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN115168594A (zh) * | 2022-09-08 | 2022-10-11 | 北京星天地信息科技有限公司 | 警情信息处理方法和装置、电子设备和存储介质 |
CN117235638A (zh) * | 2023-09-15 | 2023-12-15 | 道枢(上海)数字技术有限公司 | 一种基于预训练模型的警情内容多层级分类方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6535122B1 (en) * | 1998-05-01 | 2003-03-18 | Invensys Systems, Inc. | Method and apparatus for extending processing mask/filtering, and displaying alarm information for a hierarchically categorizing alarm monitoring system |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN109189901A (zh) * | 2018-08-09 | 2019-01-11 | 北京中关村科金技术有限公司 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
CN109255937A (zh) * | 2018-09-03 | 2019-01-22 | 平安科技(深圳)有限公司 | 报警处理方法及终端设备 |
CN109284385A (zh) * | 2018-10-15 | 2019-01-29 | 平安科技(深圳)有限公司 | 基于机器学习的文本分类方法及终端设备 |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN109388712A (zh) * | 2018-09-21 | 2019-02-26 | 平安科技(深圳)有限公司 | 一种基于机器学习的行业分类方法及终端设备 |
CN109472419A (zh) * | 2018-11-16 | 2019-03-15 | 中山大学 | 基于时空的警情预测模型的建立方法、装置和存储介质 |
JP2019066339A (ja) * | 2017-10-02 | 2019-04-25 | 株式会社日立製作所 | 音による診断装置、診断方法、および診断システム |
CN109711483A (zh) * | 2019-01-08 | 2019-05-03 | 西安交通大学 | 一种基于Sparse Autoencoder的电力系统运行方式聚类方法 |
CN110188341A (zh) * | 2019-04-16 | 2019-08-30 | 中国电子科技集团公司电子科学研究院 | 一种警情分析系统 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN113111165A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接警警情类别确定方法和装置 |
CN113779966A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法 |
-
2019
- 2019-10-29 CN CN201911035094.5A patent/CN110990562B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6535122B1 (en) * | 1998-05-01 | 2003-03-18 | Invensys Systems, Inc. | Method and apparatus for extending processing mask/filtering, and displaying alarm information for a hierarchically categorizing alarm monitoring system |
JP2019066339A (ja) * | 2017-10-02 | 2019-04-25 | 株式会社日立製作所 | 音による診断装置、診断方法、および診断システム |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN109189901A (zh) * | 2018-08-09 | 2019-01-11 | 北京中关村科金技术有限公司 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
CN109255937A (zh) * | 2018-09-03 | 2019-01-22 | 平安科技(深圳)有限公司 | 报警处理方法及终端设备 |
CN109388712A (zh) * | 2018-09-21 | 2019-02-26 | 平安科技(深圳)有限公司 | 一种基于机器学习的行业分类方法及终端设备 |
CN109284385A (zh) * | 2018-10-15 | 2019-01-29 | 平安科技(深圳)有限公司 | 基于机器学习的文本分类方法及终端设备 |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN109472419A (zh) * | 2018-11-16 | 2019-03-15 | 中山大学 | 基于时空的警情预测模型的建立方法、装置和存储介质 |
CN109711483A (zh) * | 2019-01-08 | 2019-05-03 | 西安交通大学 | 一种基于Sparse Autoencoder的电力系统运行方式聚类方法 |
CN110188341A (zh) * | 2019-04-16 | 2019-08-30 | 中国电子科技集团公司电子科学研究院 | 一种警情分析系统 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN113111165A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接警警情类别确定方法和装置 |
CN113779966A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法 |
Non-Patent Citations (3)
Title |
---|
Attentional Encoder Network for Targeted Sentiment Classification;Youwei Song等;《arXiv:1902.09314v2 [cs.CL] 1 Apr 2019》;20190401;1-7 * |
基于可靠词汇语义约束的词语向量表达修正研究;梁泳诗等;《中文信息学报》;20190115;56-67 * |
深度学习在智能电网中的应用现状分析与展望;周念成等;《电力系统自动化》;20190225;180-191 * |
Also Published As
Publication number | Publication date |
---|---|
CN110990562A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110990562B (zh) | 警情分类方法及其系统 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
US8543522B2 (en) | Automatic rule discovery from large-scale datasets to detect payment card fraud using classifiers | |
Ilmania et al. | Aspect detection and sentiment classification using deep neural network for Indonesian aspect-based sentiment analysis | |
CN104778186B (zh) | 将商品对象挂载到标准产品单元的方法及系统 | |
CN111143840B (zh) | 一种主机操作指令异常识别的方法及系统 | |
CN109657947A (zh) | 一种面向企业行业分类的异常检测方法 | |
CN111177382B (zh) | 基于FastText算法的智能法条推荐辅助系统 | |
CN110008699B (zh) | 一种基于神经网络的软件漏洞检测方法及装置 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN112487145B (zh) | 一种o2o商铺食品安全监测方法 | |
CN115510500B (zh) | 一种文本内容的敏感分析方法及系统 | |
CN110019807B (zh) | 一种商品分类方法及装置 | |
CN115473726A (zh) | 一种识别域名的方法及装置 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
Rastogi et al. | Impact of behavioral and textual features on opinion spam detection | |
Fursov et al. | Sequence embeddings help to identify fraudulent cases in healthcare insurance | |
CN111581975A (zh) | 案件的笔录文本的处理方法、装置、存储介质和处理器 | |
CN114936615B (zh) | 一种基于表征一致性校对的小样本日志信息异常检测方法 | |
CN113592338B (zh) | 一种食品质量管理安全风险预筛查模型 | |
CN111191455A (zh) | 一种交通事故损害赔偿中法律条文预测方法 | |
KR102265947B1 (ko) | 기계 학습 기반 정보 제공 방법 및 장치 | |
KR102406961B1 (ko) | 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법 | |
CN115618297A (zh) | 识别异常企业的方法及其装置 | |
CN115203382A (zh) | 业务问题场景识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |