CN115168594A - 警情信息处理方法和装置、电子设备和存储介质 - Google Patents

警情信息处理方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115168594A
CN115168594A CN202211092559.2A CN202211092559A CN115168594A CN 115168594 A CN115168594 A CN 115168594A CN 202211092559 A CN202211092559 A CN 202211092559A CN 115168594 A CN115168594 A CN 115168594A
Authority
CN
China
Prior art keywords
historical
information
classification
alarm
classification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211092559.2A
Other languages
English (en)
Inventor
李健
吴�琳
李建兵
余优生
李靖
温立文
贾延青
袁金国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xingtiandi Information Technology Co Ltd
Original Assignee
Beijing Xingtiandi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xingtiandi Information Technology Co Ltd filed Critical Beijing Xingtiandi Information Technology Co Ltd
Priority to CN202211092559.2A priority Critical patent/CN115168594A/zh
Publication of CN115168594A publication Critical patent/CN115168594A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本申请提供了一种警情信息处理方法和装置、电子设备和存储介质,其中,该方法包括:获取待分类的警情信息;将警情信息进行向量化处理,得到对应的数字向量;将数字向量输入警情分类模型,得到分类结果,其中,分类结果包含第一预设数量个预测类型;根据分类结果,分别获取每个预测类型对应的法律信息,并将法律信息发送至用户终端。通过本申请,解决了相关技术中存在分类方法复杂、分类精度低以及无法针对分类结果提供对应的类似案例、适用法条、处置规范等信息的问题。

Description

警情信息处理方法和装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种警情信息处理方法和装置、电子设备和存储介质。
背景技术
随着警情信息量逐年的爆发式增长,公安警务工作日趋繁重。现有接警系统大部分采用人工判断的方式:接警人员收到报警信息后,判断报警信息的类型,然后在此基础上进行调度。人工判断的方法主要问题是效率低、分类精度较差、警务人员任务过重。在这种情况下,利用计算机进行智能辅助决策,充分发挥计算机的决策支持功能,就显得尤为重要。
相关技术通过机器学习的方法实现警情分类,从历史警情中提取出类别体系,并通过机器学习方法针对每个警情大类别训练一个警情分类模型,进而进行警情分类,或基于LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型进行警情分类,上述通过机器学习的方式实现警情分类的方法,其优点是速度快,对小样本学习效果好,缺点是精度低,泛化能力不高。另外,相关技术通过深度学习的方式实现警情分类,使用预训练的卷积神经网络提取词向量的局部特征,得到局部特征向量;使用带注意力机制的循环神经网络对局部特征向量进行特征抽取,得到基于全局的语义特征向量;使用多层神经网络对语义特征向量进行分类,完成对待分类文本的分类,预测准确率97%,上述通过深度学习的方式实现警情分类的方法步骤复杂且精度有待进一步提高。
因此,现有技术存在分类方法复杂、分类精度低以及无法针对分类结果提供对应的类似案例、适用法条、处置规范等信息的问题。
发明内容
本申请提供了一种警情信息处理方法和装置、电子设备和存储介质,以至少解决相关技术中存在分类方法复杂、分类精度低以及无法针对分类结果提供对应的类似案例、适用法条、处置规范等信息的问题。
根据本申请实施例的一个方面,提供了一种警情信息处理方法,该方法包括:
获取待分类的警情信息;
将所述警情信息进行向量化处理,得到对应的数字向量;
将所述数字向量输入警情分类模型,得到分类结果,其中,所述分类结果包含第一预设数量个预测类型;
根据所述分类结果,分别获取每个所述预测类型对应的法律信息,并将所述法律信息发送至用户终端。
根据本申请实施例的另一个方面,还提供了一种警情信息处理装置,该装置包括:
第一获取模块,用于获取待分类的警情信息;
向量化模块,用于将所述警情信息进行向量化处理,得到对应的数字向量;
得到模块,用于将所述数字向量输入警情分类模型,得到分类结果,其中,所述分类结果包含第一预设数量个预测类型;
第二获取模块,用于根据所述分类结果,分别获取每个所述预测类型对应的法律信息,并将所述法律信息发送至用户终端。
可选地,得到模块包括:
第一获取单元,用于获取历史警情数据集,其中,所述历史警情数据集包含第二预设数量个历史案件信息,所述历史案件信息包含历史警情信息、历史分类结果;
向量化处理单元,用于对所述历史警情信息进行向量化处理,得到历史数字向量,并把所述历史数字向量存入所述历史警情数据集,得到更新后的历史警情数据集;
第二获取单元,用于从所述更新后的历史警情数据集中获取训练集,其中,所述训练集包含第三预设数量个所述历史案件信息以及对应的所述历史数字向量;
训练单元,用于将所述训练集中的所述历史数字向量输入训练模型,得到对应的预测分类结果,更新所述训练模型的模型参数,直到每个所述预测分类结果包含所述历史分类结果的概率都大于对应的预设分类阈值,则训练完成,得到所述警情分类模型,其中,所述预设分类阈值用于指示每个历史案件信息所属类别的临界值。
可选地,训练单元包括:
第一获取子模块,用于从所述更新后的历史警情数据集中获取测试集,其中,所述测试集包含第四预设数量个所述历史案件信息以及对应的所述历史数字向量;
第一得到子模块,用于将所述测试集中的所述历史数字向量输入所述警情分类模型,分别得到对应的测试分类结果;
生成子模块,用于将包含所述历史分类结果的所述测试分类结果作为正确结果,并生成所有所述正确结果的正确数量;
正确率子模块,用于将所述正确数量与所述第四预设数量的比值作为所述警情分类模型的正确率。
第二获取子模块,用于获取所述历史警情数据集中所有所述历史分类结果的类型;
第二得到子模块,用于利用目标编码分别表示所述类型,得到编码数据,其中,所述目标编码的位数与所有所述类型的总数相等,且每个所述目标编码仅表征一种所述类型;
输入子模块,用于将所述编码数据输入所述训练模型。
可选地,向量化处理单元包括:
预处理子模块,用于将所有所述历史警情信息进行预处理,得到对应的历史分词信息;
向量化子模块,用于根据词汇表索引号将所述历史分词信息向量化,得到初始数字向量;
扩充子模块,用于将所述初始数字向量扩充至预设长度,得到所述历史数字向量。
可选地,向量化子模块包括:
排序子单元,用于将所述历史分词信息中的词拆分,并按照单个字出现次数由大到小的顺序进行排序,得到字列表;
生成子单元,用于从所述字列表中选取第五预设数量个字生成初始词汇表,得到剩余字列表;
得到子单元,用于从所述剩余字列表中选取所有处于预设字列表中的字存入所述初始词汇表,得到所述词汇表,其中,所述预设字列表包含第六预设数量个需要保留的字;
生成子单元,用于根据预设顺序生成与所述词汇表中字对应的所述词汇表索引号。
可选地,第二获取模块包括:
第三获取单元,用于根据所述分类结果从所述历史警情数据集中获取与所述警情信息匹配的历史案件信息;
第四获取单元,用于根据所述警情信息通过搜索引擎获取法律条文以及对应解释;
发送单元,用于将所述历史案件信息、所述法律条文以及对应解释作为所述法律信息发送至用户终端。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
在本申请实施例中,通过获取待分类的警情信息;将警情信息进行向量化处理,得到对应的数字向量;将数字向量输入警情分类模型,得到分类结果,其中,分类结果包含第一预设数量个预测类型;根据分类结果,分别获取每个预测类型对应的法律信息,并将法律信息发送至用户终端。由于本申请实施例先通过向量化处理使待分类的警情信息转化为数字向量,再利用训练后的警情分类模型将输入的数字向量进行预测分类并得到分类结果,最后根据分类结果检索最为匹配的历史案件信息、对应的法律条文及解释、处置规范等法律信息并发送给用户终端,这样对警情信息处理准确率高又能针对不同预测类型提供法律信息,解决了相关技术中存在分类方法复杂、分类精度低以及无法针对分类结果提供对应的类似案例、适用法条、处置规范等信息的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种可选的警情信息处理方法的流程示意图;
图2是根据本申请实施例的一种可选的基于卷积神经网络训练模型示意图;
图3是根据本申请实施例的一种可选的基于卷积神经网络的警情智能比对方法的流程示意图;
图4是根据本申请实施例的一种可选的警情信息处理装置的结构框图;
图5是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前将警情信息进行分类通常有三种方法:人工方法、基于传统机器学习的分类方法、基于深度学习的分类方法。人工方法是凭借经验或查询比对相关资料后进行警情分类,缺点是反应速度慢,主观性较强,分类精度差。基于传统机器学习的分类方法速度快,对小样本学习效果好,缺点是精度低,泛化能力不高。基于深度学习的分类方法学习能力强,泛化能力强,缺点是需要大量的训练样本进行训练,门槛低。在综合分析各类方法优缺点的基础上,根据实际条件及业务需求,根据本申请实施例的一个方面,提供了一种警情信息处理方法,如图1所示,该方法的流程可以包括以下步骤:
步骤S101,获取待分类的警情信息。
可选地,获取待分类警情信息有两种方式,一种是通过接警中心根据报案人的描述获取,另一种是通过警务终端APP由处警人员实时传回来获取。
步骤S102,将警情信息进行向量化处理,得到对应的数字向量。
可选地,首先删除所有待分类的警情信息中空白的行,去掉括号里面不需要的文字;然后进行中文分词,对分词后的词语通过停用词列表删除一些中文停用词,例如“啊”、“的”之类无效词语。将分词后的每一个字与词汇表中的索引号相对应,将警情内容初步向量化,再将初步向量化结果扩充成固定长度(例如128位,或统计所有向量的最大值),得到与待分类的警情信息对应的数字向量。
步骤S103,将数字向量输入警情分类模型,得到分类结果,其中,分类结果包含第一预设数量个预测类型。
可选地,利用警情分类模型对待分类数字向量进行预测,取前三个最大可能性的预测类型作为分类结果,此时第一预设数量为三。例如对警情信息“2021年1月12日我所接李XX(男,18岁,XX人)报在**桥三街公寓办理贷款怀疑被骗(无财物损失)”预测分类后得到的前三个符合度较高的分类依次为:ZP,LS,DQ。
步骤S104,根据分类结果,分别获取每个预测类型对应的法律信息,并将法律信息发送至用户终端。
可选地,以分类结果和上述预处理后得到的分词结果为关键字,通过综合检索方式得到与待分类警情匹配的警情条目、法律条文及解释,并将检索信息通过弹窗显示或通过警务终端APP即时推送。
在本申请实施例中,通过获取待分类的警情信息;将警情信息进行向量化处理,得到对应的数字向量;将数字向量输入警情分类模型,得到分类结果,其中,分类结果包含第一预设数量个预测类型;根据分类结果,分别获取每个预测类型对应的法律信息,并将法律信息发送至用户终端。这样由于本申请实施例先通过向量化处理使待分类的警情信息转化为数字向量,再利用训练后的警情分类模型将输入的数字向量对待分类警情信息进行预测分类并得到分类结果,再最后根据分类结果检索最为匹配的历史案件信息、对应的法律条文及解释、处置规范等法律信息并发送给用户终端,这样对警情信息处理准确率高又能针对不同预测类型提供法律信息,解决了相关技术中存在分类方法复杂、分类精度低以及无法针对分类结果提供对应的类似案例、适用法条、处置规范等信息的问题。
作为一种可选实施例,在将数字向量输入警情分类模型,得到分类结果之前,方法还包括:
获取历史警情数据集,其中,历史警情数据集包含第二预设数量个历史案件信息,历史案件信息包含历史警情信息、历史分类结果;
对历史警情数据集中的历史警情信息进行向量化处理,得到历史数字向量,并把历史数字向量存入历史警情数据集,得到更新后的历史警情数据集;
从更新后的历史警情数据集中获取训练集,其中,训练集包含第三预设数量个历史案件信息以及对应的历史数字向量;
将训练集中的历史数字向量输入训练模型,得到对应的预测分类结果,更新训练模型的模型参数,直到每个预测分类结果包含历史分类结果的概率都大于对应的预设分类阈值,则训练完成,得到警情分类模型,其中,预设分类阈值用于指示每个历史案件信息所属类别的临界值。
可选地,将某市某区过去一年的接警数据构成历史警情数据集,其中包含38573起警情信息,每一起警情信息包含简要警情信息、分类及对应法律条文索引,此时第三预设数量为38573,因此历史警情数据集包含38573个历史案件信息。
首先删除所有历史警情信息中空白的行,去掉括号里面不需要的文字;然后进行中文分词,对分词后的词语通过停用词列表删除一些中文停用词,例如“啊”、“的”之类无效词语。在分词后的每一个字与词汇表中的索引号相对应,将警情内容逐条向量化,在将初步向量化结果扩充成固定长度(例如128位,或统计所有向量的最大值),得到分别与不同历史警情信息对应的历史数字向量。
把包含38573起警情信息的历史警情数据集的80%作为训练集,20%作为测试集,其中,训练集包含30858个历史案件信息以及对应的历史数字向量。
在本申请实施例中,可以基于卷积神经网络(Convolutional Neural Networks,CNN)搭建神经网络模型作为训练模型。图2是根据本申请实施例的一种可选的基于卷积神经网络训练模型示意图,如图2所示,该训练模型采用5层神经网络,分别是Embedding(嵌入层)、Conv1D(一维卷积层)、GlobalMaxPooling(全局最大池化层)、Dropout(随机失活层)、Dense(全连接层)。由于是多分类问题,激活函数分别采用的是ReLU(Rectified LinearUnit,修正线性单元)和Softmax(归一化指数函数)。将WordEmbedding(词嵌入)层作为嵌入层,该层是将高维词向量(3000)嵌入到一个低维空间(512)中,方便之后的表示和计算,并提升处理效率和减小资源占用;Conv1D(一维卷积)层使用256个卷积核,每个卷积核大小为1×5,卷积核在每个特征上同时向右滑动,计算方式为每个维度的特征与卷积核的卷积之和加上偏移;GlobalMaxPooling(全局最大池化)层对卷积输出的特征直接取最大值,池化后的输出大小与卷积核数目相同,其值为256;Dropout层在训练时让某个神经元的激活值以一定的概率停止工作,不参与本次训练,这样可以避免过拟合,使警情分类模型的泛化性更强;Dense(全连接)层用于将学到的特征表示映射到样本的标记空间。
训练时先把数据集分为80%训练集(30858个),然后进行10次训练,训练过程中,训练模型对每一条警情信息预测最大可能性为前N个的预测类型作为预测的分类结果,N为正整数。不断对训练模型进行训练并调整模型参数,直到每个预测的分类结果包含历史分类结果的概率都大于对应的预设分类阈值之后,训练完成(预测的分类结果包含预测类型的数量不同对应的预设分类阈值也不同,例如,可以设定分类结果包含一个预测类型对应的预设阈值为99.01%,包含三个预测类型对应的预设阈值为99.52%,包含五个预测类型对应的预设阈值为99.59%)。训练过程中采用分类交叉熵(categorical_crossentropy)作为损失函数,并通过最小化损失函数使模型达到收敛状态,减少模型预测值的误差。
在本申请实施例中,通过对基于CNN卷积神经网络的训练模型进行训练得到警情分类模型,一方面,通过警情分类模型对警情信息进行分类,提高了分类效率,另一方面,通过设定预设阈值以及通过最小化损失函数对训练模型进行训练保证了警情分类模型分类结果的正确率,解决了相关技术中存在分类方法复杂、分类精度低的问题。
作为一种可选实施例,根据分类结果,分别获取每个预测类型对应的法律信息包括:
根据分类结果从历史警情数据集中获取与警情信息匹配的历史案件信息;
根据警情信息通过搜索引擎获取法律条文以及对应解释;
将历史案件信息、法律条文以及对应解释作为法律信息发送至用户终端。
可选地,根据分类结果在已有的警情数据即历史警情数据集中提取对应的警情信息子集,警情信息子集中有与待分类警情信息匹配的警情条目。之后基于Elasticsearch搜索引擎,实现以名称、关键字、地址等要素的模糊查询,将待分类的警情信息预处理后得到的分词结果以及分类结果作为关键字与警情信息子集通过做字符重合对比,再以综合检索方式得到与待分类警情匹配的警情条目、法律条文及解释,将检索信息通过弹窗显示或通过警务终端APP即时推送。
在本申请实施例中,在准确获取警情类型的同时,还检索出与当前警情信息最为匹配的已有警情条目、相关法律条文及解释,并将上述信息通过弹窗提示或警务终端APP即时推送,实现警情信息精准、高效、规范的智能化处理。解决了相关技术存在无法针对分类结果提供对应的类似案例、适用法条、处置规范等信息的问题。
作为一种可选实施例,在将训练集中的历史数字向量输入训练模型,得到对应的预测分类结果之后,方法还包括:
从更新后的历史警情数据集中获取测试集,其中,测试集包含第四预设数量个历史案件信息以及对应的历史数字向量;
将测试集中的历史数字向量输入警情分类模型,分别得到对应的测试分类结果;
将包含历史分类结果的测试分类结果作为正确结果,并生成所有正确结果的正确数量;
将正确数量与第四预设数量的比值作为警情分类模型的正确率。
可选地,把包含38573起警情信息的历史警情数据集的20%作为测试集,其中,训练集包含30858个历史案件信息以及对应的历史数字向量,测试集包含7715个历史案件信息以及对应的历史数字向量,此时第四预设数量为7715。
将测试集中的历史数字向量逐一输入上述训练好的警情分类模型,该警情分类模型预测并输出测试分类结果,每个测试分类结果包含最大可能性为前N的预测类型。通过与测试集中的历史分类结果对比,统计所有正确结果的正确数量,如果测试分类结果包含的N个预测类型中包含真实的分类(即历史分类结果),则认为该测试分类结果是正确的,如果不包含,则该测试分类结果错误。
由于测试分类结果包含最大可能性为前N的预测类型,因此将上述正确数量与测试集总历史案件信息个数7715的比值称为该警情分类模型的“前N”正确率。例如,当每个测试分类结果只包含可能性最大的一个预测类型时,所有测试分类结果中唯一的预测类型与对应历史案件信息中的历史分类结果相同的总个数(即测试分类结果正确的个数)占历史案件信息总个数7715的比例为99.01%,表示警情分类模型的输出结果只包含一个可能性最大的预测类型时,该警情分类模型的正确率为99.01%,即“前一”正确率为99.01%。另外,经过计算,该警情分类模型的“前三”正确率为99.52%,“前五”正确率为99.59%。
在本申请实施例中,通过计算正确率,并选择正确率满足分类需求的警情分类模型,解决了相关技术中分类精度低的问题。
作为一种可选实施例,在将训练集中的历史数字向量输入训练模型,得到对应的预测分类结果之前,方法还包括:
获取历史警情数据集中所有历史分类结果的类型;
利用目标编码分别表示类型,得到编码数据,其中,目标编码的位数与所有类型的总数相等,且每个目标编码仅表征一种类型;
将编码数据输入训练模型。
可选地,上述历史警情数据集包含的38573个历史案件信息共有201种类型,发生最多的前五名案件类型为:DQ、ZP、殴打他人、故意损毁财物、发送信息干扰正常生活。
可选地,目标编码为独热编码即One-Hot编码,又称为有效编码。利用独热编码表示不同类型是使用K位寄存器来对K个状态进行编码,每个状态都有它独立的寄存位,并且在任意时候,其中只有一位有效。上述历史案件信息共有201种类型,即有201个状态,需用201位编码表示,例如DQ、ZP的编码分别对应的201位的数字编码为:[100000…],[01000…],每个目标编码仅表征一种类型。
在本申请实施例中,通过将警情类型与独热编码转换,在满足基于卷积神经网络的警情分类模型编码需求的同时,简化了警情信息分类方法,提高了分类效率。
作为一种可选实施例,对历史警情信息进行向量化处理,得到历史数字向量,包括:
将所有历史警情信息进行预处理,得到对应的历史分词信息;
根据词汇表索引号将历史分词信息向量化,得到初始数字向量;
将初始数字向量扩充至预设长度,得到历史数字向量。
可选地,预处理首先删除历史警情信息中空白的行,去掉括号里面不需要的文字。然后进行中文分词,对分词后的词语通过停用词列表删除一些中文停用词,例如“啊”、“的”之类无效词语。例如,一个历史警情信息为“2021年1月1日14时10分张三(男,59岁,RB国人),报案称在某超市购物,手机被盗”,经过上述预处理后得到的历史分词信息为“张三、报案、称、超市、购物、手机、被盗”。
在这里,词汇表的前十五个字:“事,号,主,车,被,称,发,警,民,接,人,现,楼,元,报”,对应的索引号为:[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]。将所有历史警情信息逐条向量化,将每一个历史分词信息中的每一个字与词汇表的索引号相对应进行向量化处理,之后得到对应的初始数字向量。例如,将上述“张三、报案、称、超市、购物、手机、被盗”向量化后的初始数字向量为“57,101,14,86,5,225,112,116,91,38,30,4,52”。
为了卷积计算方便将数字向量扩充成固定长度(如128位,或统计所有向量的最大值)。将上述数字向量扩充成固定长度之后为“0,0,0,……57,101,14,86,5,225,112,116,91,38,30,4,52”。
在本申请实施例中,通过将警情信息等文字转化为向量等数字信息,使警情信息能够被基于卷积神将网络的训练模型以及警情分类模型处理并分类,提高了分类效率。
作为一种可选实施例,在根据词汇表索引号将历史分词信息向量化之前,方法还包括:
将历史分词信息中的词拆分,并按照单个字出现次数由大到小的顺序进行排序,得到字列表;
从字列表中选取第五预设数量个字生成初始词汇表,得到剩余字列表;
从剩余字列表中选取所有处于预设字列表中的字存入初始词汇表,得到词汇表,其中,预设字列表包含第六预设数量个需要保留的字;
根据预设顺序生成与词汇表中字对应的词汇表索引号。
可选地,将所有的历史分词词语合并后进行拆分,统计拆分后每个字出现的次数,并由大到小排序,得到字列表,再从字列表中取前第五预设数量个字得到初始词汇表,第五预设数量是一个正整数,例如3000。将字列表中除了初始词汇表之外剩余部分的字作为剩余字列表。如果该剩余字列表中存在一些字还同时存在于预设字列表中,则这些字也添加到词汇表中。需要说明的是,这里的预设字列表中包含了第六预设数量个(比如300个)需要保留的字,所以,如果剩余字列表中存在一些存储于预设字列表中的字,那需要将这些字也添加到词汇表中。
然后基于词汇表中所有字的预设顺序,依次生成对应的词汇表索引号。例如,根据上述历史分词信息得出的词汇表的前十五个字为“事,号,主,车,被,称,发,警,民,接,人,现,楼,元,报”,生成对应的词汇表索引号为:[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]。
在本申请实施例中,通过对现有大量历史警情数据进行预处理得到提取警情词汇表并生成对应的词汇表索引号,便于训练模型以及训练后得到的警情分类模型对警情信息的分类。
作为一种可选实施例,图3是根据本申请实施例的一种可选的基于CNN卷积神经网络的警情智能比对方法的流程示意图,该方法包括以下步骤:
步骤S301,已有警情数据预处理。
步骤S302,警情词汇表提取与向量化。
步骤S303,警情类型独热编码。
步骤S304,CNN卷积神经网络模型训练。
步骤S305,待分类警情信息获取与向量化。
步骤S306,待分类警情预测分类。
步骤S307,检索最为匹配的警情条目、法律条文及解释。
在本申请实施例中,采用基于CNN卷积神经网络对现有大量历史警情数据进行预处理得到提取警情词汇表;之后,根据警情词汇表警情信息向量化、警情类型独热编码转换;再将向量化、编码数据导入CNN卷积神经网络模型进行训练得到训练模型;获取待分类警情信息并将该警情信息向量化;利用训练模型对待分类的警情信息进行预测分类;根据预分类检索最为匹配的警情条目、对应的法律条文及解释;通过警务终端APP即时推送。解决了相关技术中存在分类方法复杂、分类精度低以及无法针对分类结果提供对应的类似案例、适用法条、处置规范等信息的问题。
根据本申请实施例的另一个方面,还提供了一种用于实施上述警情信息处理方法的警情信息处理装置。图4是据本申请实施例的一种可选的警情信息处理装置的结构框图,如图4所示,该装置可以包括:
第一获取模块401,用于获取待分类的警情信息;
向量化模块402,用于将警情信息进行向量化处理,得到对应的数字向量;
得到模块403,用于将数字向量输入警情分类模型,得到分类结果,其中,分类结果包含第一预设数量个预测类型;
第二获取模块404,用于根据分类结果,分别获取每个预测类型对应的法律信息,并将法律信息发送至用户终端。
作为一种可选实施例,得到模块包括:
第一获取单元,用于获取历史警情数据集,其中,历史警情数据集包含第二预设数量个历史案件信息,历史案件信息包含历史警情信息、历史分类结果;
向量化处理单元,用于对历史警情数据集中的历史警情信息进行向量化处理,得到历史数字向量,并把历史数字向量存入历史警情数据集,得到更新后的历史警情数据集;
第二获取单元,用于从更新后的历史警情数据集中获取训练集,其中,训练集包含第三预设数量个历史案件信息以及对应的历史数字向量;
训练单元,用于将训练集中的历史数字向量输入训练模型,得到对应的预测分类结果,更新训练模型的模型参数,直到每个预测分类结果包含历史分类结果的概率都大于对应的预设分类阈值,则训练完成,得到警情分类模型,其中,预设分类阈值用于指示每个历史案件信息所属类别的临界值。
作为一种可选实施例,训练单元包括:
第一获取子模块,用于从更新后的历史警情数据集中获取测试集,其中,测试集包含第四预设数量个历史案件信息以及对应的历史数字向量;
第一得到子模块,用于将测试集中的历史数字向量输入警情分类模型,分别得到对应的测试分类结果;
生成子模块,用于将包含历史分类结果的测试分类结果作为正确结果,并生成所有正确结果的正确数量;
正确率子模块,用于将正确数量与第四预设数量的比值作为警情分类模型的正确率。
第二获取子模块,用于获取历史警情数据集中所有历史分类结果的类型;
第二得到子模块,用于利用目标编码分别表示类型,得到编码数据,其中,目标编码的位数与所有类型的总数相等,且每个目标编码仅表征一种类型;
输入子模块,用于将编码数据输入训练模型。
作为一种可选实施例,向量化处理单元包括:
预处理子模块,用于将所有历史警情信息进行预处理,得到对应的历史分词信息;
向量化子模块,用于根据词汇表索引号将历史分词信息向量化,得到初始数字向量;
扩充子模块,用于将初始数字向量扩充至预设长度,得到历史数字向量。
作为一种可选实施例,向量化子模块包括:
排序子单元,用于将历史分词信息中的词拆分,并按照单个字出现次数由大到小的顺序进行排序,得到字列表;
生成子单元,用于从字列表中选取第五预设数量个字生成初始词汇表,得到剩余字列表;
得到子单元,用于从剩余字列表中选取所有处于预设字列表中的字存入初始词汇表,得到词汇表,其中,预设字列表包含第六预设数量个需要保留的字;
生成子单元,用于根据预设顺序生成与词汇表中字对应的词汇表索引号。
作为一种可选实施例,第二获取模块包括:
第三获取单元,用于根据分类结果从历史警情数据集中获取与警情信息匹配的历史案件信息;
第四获取单元,用于根据警情信息通过搜索引擎获取法律条文以及对应解释;
发送单元,用于将历史案件信息、法律条文以及对应解释作为法律信息发送至用户终端。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信,其中,
存储器503,用于存储计算机程序;
处理器501,用于执行存储器503上所存放的计算机程序时,实现如下步骤:
获取待分类的警情信息;
将警情信息进行向量化处理,得到对应的数字向量;
将数字向量输入警情分类模型,得到分类结果,其中,分类结果包含第一预设数量个预测类型;
根据分类结果,分别获取每个预测类型对应的法律信息,并将法律信息发送至用户终端。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图5所示,上述存储器503中可以但不限于包括上述警情信息处理装置中的第二获取模块404、向量化模块402、得到模块403、第一获取模块401。此外,还可以包括但不限于上述警情信息处理装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU (Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP (DigitalSignal Processing,数字信号处理器)、ASIC (Application Specific IntegratedCircuit,专用集成电路)、FPGA (Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述警情信息处理方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于存储执行警情信息处理方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取待分类的警情信息;
将警情信息进行向量化处理,得到对应的数字向量;
将数字向量输入警情分类模型,得到分类结果,其中,分类结果包含第一预设数量个预测类型;
根据分类结果,分别获取每个预测类型对应的法律信息,并将法律信息发送至用户终端。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种警情信息处理方法,其特征在于,所述方法包括:
获取待分类的警情信息;
将所述警情信息进行向量化处理,得到对应的数字向量;
将所述数字向量输入警情分类模型,得到分类结果,其中,所述分类结果包含第一预设数量个预测类型;
根据所述分类结果,分别获取每个所述预测类型对应的法律信息,并将所述法律信息发送至用户终端。
2.根据权利要求1所述的方法,其特征在于,在所述将所述数字向量输入警情分类模型,得到分类结果之前,所述方法还包括:
获取历史警情数据集,其中,所述历史警情数据集包含第二预设数量个历史案件信息,所述历史案件信息包含历史警情信息、历史分类结果;
对所述历史警情信息进行向量化处理,得到历史数字向量,并把所述历史数字向量存入所述历史警情数据集,得到更新后的历史警情数据集;
从所述更新后的历史警情数据集中获取训练集,其中,所述训练集包含第三预设数量个所述历史案件信息以及对应的所述历史数字向量;
将所述训练集中的所述历史数字向量输入训练模型,得到对应的预测分类结果,更新所述训练模型的模型参数,直到每个所述预测分类结果包含所述历史分类结果的概率都大于对应的预设分类阈值,则训练完成,得到所述警情分类模型,其中,所述预设分类阈值用于指示每个历史案件信息所属类别的临界值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述分类结果,分别获取每个所述预测类型对应的法律信息包括:
根据所述分类结果从所述历史警情数据集中获取与所述警情信息匹配的历史案件信息;
根据所述警情信息通过搜索引擎获取法律条文以及对应解释;
将所述历史案件信息、所述法律条文以及对应解释作为所述法律信息发送至用户终端。
4.根据权利要求2所述的方法,其特征在于,在所述将所述训练集中的所述历史数字向量输入训练模型,得到对应的预测分类结果之后,所述方法还包括:
从所述更新后的历史警情数据集中获取测试集,其中,所述测试集包含第四预设数量个所述历史案件信息以及对应的所述历史数字向量;
将所述测试集中的所述历史数字向量输入所述警情分类模型,分别得到对应的测试分类结果;
将包含所述历史分类结果的所述测试分类结果作为正确结果,并生成所有所述正确结果的正确数量;
将所述正确数量与所述第四预设数量的比值作为所述警情分类模型的正确率。
5.根据权利要求2所述的方法,其特征在于,在所述将所述训练集中的所述历史数字向量输入训练模型,得到对应的预测分类结果之前,所述方法还包括:
获取所述历史警情数据集中所有所述历史分类结果的类型;
利用目标编码分别表示所述类型,得到编码数据,其中,所述目标编码的位数与所有所述类型的总数相等,且每个所述目标编码仅表征一种所述类型;
将所述编码数据输入所述训练模型。
6.根据权利要求2所述的方法,其特征在于,所述对所述历史警情信息进行向量化处理,得到历史数字向量包括:
将所有所述历史警情信息进行预处理,得到对应的历史分词信息;
根据词汇表索引号将所述历史分词信息向量化,得到初始数字向量;
将所述初始数字向量扩充至预设长度,得到所述历史数字向量。
7.根据权利要求6所述的方法,其特征在于,在所述根据词汇表索引号将所述历史分词信息向量化之前,所述方法还包括:
将所述历史分词信息中的词拆分,并按照单个字出现次数由大到小的顺序进行排序,得到字列表;
从所述字列表中选取第五预设数量个字生成初始词汇表,得到剩余字列表;
从所述剩余字列表中选取所有处于预设字列表中的字存入所述初始词汇表,得到所述词汇表,其中,所述预设字列表包含第六预设数量个需要保留的字;
根据预设顺序生成与所述词汇表中字对应的所述词汇表索引号。
8.一种警情信息处理装置,其特征在于,包括:
第一获取模块,用于获取待分类的警情信息;
向量化模块,用于将所述警情信息进行向量化处理,得到对应的数字向量;
得到模块,用于将所述数字向量输入警情分类模型,得到分类结果,其中,所述分类结果包含第一预设数量个预测类型;
第二获取模块,用于根据所述分类结果,分别获取每个所述预测类型对应的法律信息,并将所述法律信息发送至用户终端。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项中所述的方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任一项中所述的方法步骤。
CN202211092559.2A 2022-09-08 2022-09-08 警情信息处理方法和装置、电子设备和存储介质 Pending CN115168594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211092559.2A CN115168594A (zh) 2022-09-08 2022-09-08 警情信息处理方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211092559.2A CN115168594A (zh) 2022-09-08 2022-09-08 警情信息处理方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115168594A true CN115168594A (zh) 2022-10-11

Family

ID=83480959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211092559.2A Pending CN115168594A (zh) 2022-09-08 2022-09-08 警情信息处理方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115168594A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032714A (zh) * 2019-02-25 2019-07-19 阿里巴巴集团控股有限公司 一种语料标注反馈方法及装置
CN110837601A (zh) * 2019-10-25 2020-02-25 杭州叙简科技股份有限公司 一种警情的自动分类与预测方法
CN110990562A (zh) * 2019-10-29 2020-04-10 新智认知数字科技股份有限公司 警情分类方法及其系统
CN111126057A (zh) * 2019-12-09 2020-05-08 航天科工网络信息发展有限公司 一种分级神经网络的案件情节精准量刑系统
CN111444353A (zh) * 2020-04-03 2020-07-24 杭州叙简科技股份有限公司 一种警情知识图谱的构建及使用方法
CN113297379A (zh) * 2021-05-25 2021-08-24 善诊(上海)信息技术有限公司 一种文本数据多标签分类方法及装置
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
WO2022160449A1 (zh) * 2021-01-28 2022-08-04 平安科技(深圳)有限公司 文本分类方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032714A (zh) * 2019-02-25 2019-07-19 阿里巴巴集团控股有限公司 一种语料标注反馈方法及装置
CN110837601A (zh) * 2019-10-25 2020-02-25 杭州叙简科技股份有限公司 一种警情的自动分类与预测方法
CN110990562A (zh) * 2019-10-29 2020-04-10 新智认知数字科技股份有限公司 警情分类方法及其系统
CN111126057A (zh) * 2019-12-09 2020-05-08 航天科工网络信息发展有限公司 一种分级神经网络的案件情节精准量刑系统
CN111444353A (zh) * 2020-04-03 2020-07-24 杭州叙简科技股份有限公司 一种警情知识图谱的构建及使用方法
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
WO2022160449A1 (zh) * 2021-01-28 2022-08-04 平安科技(深圳)有限公司 文本分类方法、装置、电子设备及存储介质
CN113297379A (zh) * 2021-05-25 2021-08-24 善诊(上海)信息技术有限公司 一种文本数据多标签分类方法及装置

Similar Documents

Publication Publication Date Title
CN106991085B (zh) 一种实体的简称生成方法及装置
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN107844533A (zh) 一种智能问答系统及分析方法
CN111476023A (zh) 识别实体关系的方法及装置
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN112632224B (zh) 基于案例知识图谱的案件推荐方法、装置和电子设备
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
CN112015901A (zh) 文本分类方法及装置、警情分析系统
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
CN115658905A (zh) 一种跨篇章的事件多维画像生成方法
CN112149410A (zh) 语义识别方法、装置、计算机设备和存储介质
CN115329176A (zh) 搜索请求的处理方法、装置、计算机设备及存储介质
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN112256863A (zh) 一种确定语料意图的方法、装置及电子设备
CN115168594A (zh) 警情信息处理方法和装置、电子设备和存储介质
CN115456421A (zh) 工单的分派方法及装置、处理器和电子设备
CN115017894A (zh) 一种舆情风险识别方法及装置
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN114691828A (zh) 数据处理方法、装置、设备以及介质
CN114428806A (zh) 案件隐性知识挖掘方法、装置及电子设备
CN114036289A (zh) 一种意图识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221011

RJ01 Rejection of invention patent application after publication