CN113297834A - 基于警情间语义相似度判断串并案的方法及装置 - Google Patents

基于警情间语义相似度判断串并案的方法及装置 Download PDF

Info

Publication number
CN113297834A
CN113297834A CN202110678907.3A CN202110678907A CN113297834A CN 113297834 A CN113297834 A CN 113297834A CN 202110678907 A CN202110678907 A CN 202110678907A CN 113297834 A CN113297834 A CN 113297834A
Authority
CN
China
Prior art keywords
similarity
calculating
public security
type
alarms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110678907.3A
Other languages
English (en)
Inventor
石庭豪
李明洹
陈耀玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhihuigu Technology Service Co ltd
Original Assignee
Suzhou Zhihuigu Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zhihuigu Technology Service Co ltd filed Critical Suzhou Zhihuigu Technology Service Co ltd
Priority to CN202110678907.3A priority Critical patent/CN113297834A/zh
Publication of CN113297834A publication Critical patent/CN113297834A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明实施例提供了一种基于警情间语义相似度判断串并案的方法及装置,该方法包括借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;利用公安警情词向量,计算警情之间的相似度;将所述相似度大于第一阈值的多个警情辅助判断为串并案。

Description

基于警情间语义相似度判断串并案的方法及装置
技术领域
本发明涉及公安管理领域,特别是涉及一种基于警情间语义相似度判断串并案的方法及装置。
背景技术
在公安的案件,有串案和并案两种叫法。串案,就是一系列不同的案件,通过对作案手段、痕迹、物证等分析,发现其存在联系,进而将这些案件放在一起侦破。并案,是指两个不同的案件,通过作案手段、痕迹、物证,发现其存在联系,而将两个案件放在一起侦破。
现有技术中对串案和并案的处理方式,是通过人的经验来对作案手段、痕迹、物证等已有的数据进行分析,来确定案件之间是否串案或并案处理。其缺点是,串案和并案全部依赖的是个人的经验,没有系统支撑,另外面对海量的警情,很难有效的找到串并案警情,并且存在一定错误率。
发明内容
本发明的目的是克服现有技术中的不足之处,提供一种基于警情间语义相似度判断串并案的方法及装置。
为实现上述目的,本发明一方面提供一种基于警情间的语义相似度辅助判断串并案的方法,包括:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;
利用公安警情词向量,计算警情之间的相似度;
将所述相似度大于第一阈值的多个警情辅助判断为串并案。
优选地,所述利用公安警情词向量,计算警情之间的相似度包括:
使用余弦相似度,计算警情的公安警情词向量之间的相似度,确定警情之间的相似度。
本发明另一方面还提供一种基于综合相似度辅助判断串并案的方法,包括:
基于警情间的融合路径权重相似度计算警情间的第一类型相似度;
基于警情间的语义相似度计算警情间的第二类型相似度;
基于专家规则计算警情间的第三类型相似度;
基于第一类型相似度、第二类型相似度和第三类型相似度,辅助判断警情之间是否为串并案;
其中,基于警情间的语义相似度计算警情间的第二类型相似度包括:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;利用公安警情词向量,计算警情之间的第二类型相似度。
本发明再一方面还提供一种计算机,包括处理器和存储器,所述处理器用于执行存储器中存储的指令以执行如下步骤:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;
利用公安警情词向量,计算警情之间的相似度;
将所述相似度大于第一阈值的多个警情辅助判断为串并案。
本发明再一方面还提供一种计算机,包括处理器和存储器,所述处理器用于执行存储器中存储的指令以执行如下步骤:
基于警情间的融合路径权重相似度计算警情间的第一类型相似度;
基于警情间的语义相似度计算警情间的第二类型相似度;
基于专家规则计算警情间的第三类型相似度;
基于第一类型相似度、第二类型相似度和第三类型相似度,辅助判断警情之间是否为串并案;
其中,基于警情间的语义相似度计算警情间的第二类型相似度包括:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;利用公安警情词向量,计算警情之间的第二类型相似度。
本实施例提供的技术方案通过实现中警情间的语义近似度确定警情之间的相似度,并以此辅助确定多个警情是否为串并案,极大改善了公安人员的办案效率。
本发明的其他有益效果将在说明书中进行进一步说明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种基于警情间的语义相似度辅助判断串并案的方法的流程示意图;
图2为本发明另一实施例还提供一种基于综合相似度辅助判断串并案的方法的流程示意图;
图3是图2中步骤S201的一种具体实现流程图;
图4为警情概念本体库的概念层次关系的一个示例示意图;
图5是图2中步骤S202的一种具体实现流程图;
图6是图2中步骤S203的一种具体实现流程图;
图7是警情概念图谱形成的一个具体示例的示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
图1示出了本发明实施例一提供的一种基于警情间的语义相似度辅助判断串并案的方法的流程示意图,该方法包括:
步骤S101:借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量。
可以利用利用word2vec算法在公安的警情语料中进行公安领域训练词向量模型。
具体地,可以采用word2vec的方法进行词向量模型训练。首先对警情语料进行分词,去除停用词,然后利用one-hot的形式进行表示。模型训练利用CBOW方法来进行模型的训练。输入层为警情上下文单词的one-hot表示。然后对所有的one-hot表示词向量的输入乘以权重矩阵W。然后对所得到的向量相加求平均作为隐层向量,大小为1*N。最后乘以权重矩阵W,得到向量{1*V}激活函数处理得到V-dim概率分布,概率最大的index所指示的单词为预测出的中间词。训练的过程是loss函数最小。通过训练得到了权重矩阵W,词向量的one-hot表示乘以训练得到的权重矩阵W即为公安警情词向量。
步骤S102:利用公安警情词向量,计算警情之间的相似度。
一种具体的方式是使用余弦相似度,计算警情的公安警情词向量之间的相似度,确定警情之间的相似度。余弦值越大,则相似度越高。
步骤S103:将所述相似度大于第一阈值的多个警情辅助判断为串并案。
本实施例提供的技术方案通过实现中警情间的语义近似度确定警情之间的相似度,并以此辅助确定多个警情是否为串并案,极大改善了公安人员的办案效率。
本发明另一实施例还提供一种基于综合相似度辅助判断串并案的方法,参照图2所示,该方法包括:
步骤S201:基于警情间的融合路径权重相似度计算警情间的第一类型相似度。
其中步骤S201中基于警情间的融合路径权重相似度计算警情间的第一类型相似度,具体可以通过图3示出的流程图实现,包括如下步骤:
步骤S301:构建警情知识图谱,所述警情知识图谱将警情转化为结构化知识。
警情图谱的目的是为了将警情转化为结构化的知识,让机器可以理解警情,并且发现警情之间的一些关联关系。构建警情图谱首先是构建警情概念本体,然后基于本体进行要素信息抽取,将抽取的要素存储到图数据库构成警情知识图谱,供后续串并案关系发现。
具体地,警情概念本体的构建可以基于警情7何要(何时、何地、何事、何人、何因、何物、何果)对警情中涉及到的涉案人员,涉案地址,涉案物品,涉案时间,涉案手段等几大类概念要素进行细分,得到用于刻画警情的概念本体。由此,警情概念本体包括警情的多个概念要素。
对警情中的关键要素进行抽取的过程可以基于信息收取算法实现。例如可以使用基于预训练语言模型bert的信息抽取算法,对警情中的关键要素进行抽取。
步骤S302:计算不同警情中抽取的要素的概念之间的路径相似度进行加权求和,得到所述警情间的第一类型相似度。
具体地,可以根据警情知识图谱中的警情概念本体库的概念层次关系(如图4中所示的一种概念层次关系),基于不同警情中两个细粒度的概念在概念层次中的深度和路径关系,通过下式计算两个细粒度概念之间的第一类型相似度Sim(ci,cj):
Figure BDA0003122052880000051
其中,depth(ci)和depth(cj)分别是术语ci和cj在概念层次中的深度,depth(clcs)表示术语ci和cj在概念层次中共同父概念的深度,lcs表示术语ci和cj在概念层次中的共同父概念。
而不同警情中抽取的要素的概念之间的路径相似度进行加权求和可以通过下式表示:
Sim(j1,j2)=α1×SimC1+α2×SimC2+…+αn×SimCn
其中,Sim(j1,j2)为警情j1和j2的第一类型相似度,SimCi表示警情j1和j2在Ci概念下两个细粒度概念的相似度,αi是加权求和中SimCi对应的权重。
步骤S202:基于警情间的语义相似度计算警情间的第二类型相似度。
其中步骤S202中基于警情问的语义相似度计算警情间的第二类型相似度可以具体通过图5中示出的流程图实现,包括如下步骤:
步骤S501:借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量。本步骤与上述实施例一种步骤S101中的实现类似,这里不再赘述。
步骤S502:利用公安警情词向量,计算警情之间的第二类型相似度。本步骤与上述实施例一种步骤102的实现类似,区别仅在于,将步骤S102中计算得到的相似度,确定为第二类型相似度。
步骤S203:基于专家规则计算警情间的第三类型相似度;
其中,步骤S203中基于专家规则计算警情间的第三类型相似度具体可以通过如图6示出的流程图实现,包括如下步骤:
步骤S601:以产生式规则对研判专家知识进行表达。
例如可以生成如下研判规则:
If概念1=x1 and概念2=x2 and概念3=x3 then y。
步骤S602:从警情中抽取关键要素并进行概念化,形成警情概念图谱。
例如参照图7示出的警情概念图谱形成的过程,首先从原始警情中抽取出关键要素,然后建立如图7中示出的警情概念图谱。
步骤S603:通过警情概念图谱,建立研判专家知识与警情的关系。
步骤S604:借助研判专家知识对警情进行研判,基于研判结论之间的相关性,确定警情之间第三类型相似度。
具体地,研判专家知识可以表达为多个研判规则,对于每个警情,基于全研判规则都可以得到多种类型的研判结论。而警情之间可以借助这些研判结论中相同或相近的结论占全部类型研判结论的比例,确定警情之间的第三类型相似度。例如,在两个警情之间,基于多个研判规则得出的相同研判结论的数量越多,则该两个警情之间的第三类型相似度越高。
步骤S204:基于第一类型相似度、第二类型相似度和第三类型相似度,辅助判断警情之间是否为串并案。
例如,可以将第一类型相似度、第二类型相似度和第三类型相似度进行加权求和,得到警情之间的综合相似度,并基于综合相似度确定多个警情是否为串并案。
将步骤S204中计算的相似度大于第一阈值的多个警情辅助判断为串并案,可以由相关公安人员再次人工核实,一经确认则可以做为串并案处理,加快侦破效率。
采用综合相似度辅助确定个警情是否为串并案,可以避免采用单一类型相似度导致遗漏发现警情之间的关联信息,进而遗漏发现串并案。
本发明另一实施例还提供一种计算机,包括处理器和存储器,所述处理器用于执行存储器中存储的指令以执行如下步骤:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;
利用公安警情词向量,计算警情之间的相似度;
将所述相似度大于第一阈值的多个警情辅助判断为串并案。
本发明再一实施例还提供一种计算机,包括处理器和存储器,所述处理器用于执行存储器中存储的指令以执行如下步骤:
基于警情间的融合路径权重相似度计算警情间的第一类型相似度;
基于警情间的语义相似度计算警情间的第二类型相似度;
基于专家规则计算警情间的第三类型相似度;
基于第一类型相似度、第二类型相似度和第三类型相似度,辅助判断警情之间是否为串并案;
其中,基于警情间的语义相似度计算警情间的第二类型相似度包括:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;利用公安警情词向量,计算警情之间的第二类型相似度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于警情间的语义相似度辅助判断串并案的方法,其特征在于,包括:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;
利用公安警情词向量,计算警情之间的相似度;
将所述相似度大于第一阈值的多个警情辅助判断为串并案。
2.如权利要求1所述的方法,其特征在于,所述利用公安警情词向量,计算警情之间的相似度包括:
使用余弦相似度,计算警情的公安警情词向量之间的相似度,确定警情之间的相似度。
3.一种基于综合相似度辅助判断串并案的方法,其特征在于,包括:
基于警情间的融合路径权重相似度计算警情间的第一类型相似度;
基于警情间的语义相似度计算警情间的第二类型相似度;
基于专家规则计算警情间的第三类型相似度;
基于第一类型相似度、第二类型相似度和第三类型相似度,辅助判断警情之间是否为串并案;
其中,基于警情间的语义相似度计算警情间的第二类型相似度包括:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;利用公安警情词向量,计算警情之间的第二类型相似度。
4.一种计算机,包括处理器和存储器,所述处理器用于执行存储器中存储的指令以执行如下步骤:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;
利用公安警情词向量,计算警情之间的相似度;
将所述相似度大于第一阈值的多个警情辅助判断为串并案。
5.一种计算机,包括处理器和存储器,所述处理器用于执行存储器中存储的指令以执行如下步骤:
基于警情间的融合路径权重相似度计算警情间的第一类型相似度;
基于警情间的语义相似度计算警情间的第二类型相似度;
基于专家规则计算警情间的第三类型相似度;
基于第一类型相似度、第二类型相似度和第三类型相似度,辅助判断警情之间是否为串并案;
其中,基于警情间的语义相似度计算警情间的第二类型相似度包括:
借助预先训练得到的公安领域训练词向量模型,将计算原始警情信息转化为公安警情词向量;利用公安警情词向量,计算警情之间的第二类型相似度。
CN202110678907.3A 2021-06-18 2021-06-18 基于警情间语义相似度判断串并案的方法及装置 Pending CN113297834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110678907.3A CN113297834A (zh) 2021-06-18 2021-06-18 基于警情间语义相似度判断串并案的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110678907.3A CN113297834A (zh) 2021-06-18 2021-06-18 基于警情间语义相似度判断串并案的方法及装置

Publications (1)

Publication Number Publication Date
CN113297834A true CN113297834A (zh) 2021-08-24

Family

ID=77328752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110678907.3A Pending CN113297834A (zh) 2021-06-18 2021-06-18 基于警情间语义相似度判断串并案的方法及装置

Country Status (1)

Country Link
CN (1) CN113297834A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619064A (zh) * 2019-08-29 2019-12-27 苏州千视通视觉科技股份有限公司 一种基于深度学习的案件研判方法及装置
CN110837601A (zh) * 2019-10-25 2020-02-25 杭州叙简科技股份有限公司 一种警情的自动分类与预测方法
CN111159387A (zh) * 2019-12-12 2020-05-15 北京睿企信息科技有限公司 基于多维度报警信息文本相似度分析的推荐方法
CN111241848A (zh) * 2020-01-15 2020-06-05 江苏联著实业股份有限公司 一种基于机器学习的文章阅读理解答案检索系统及装置
CN111858940A (zh) * 2020-07-27 2020-10-30 湘潭大学 一种基于多头注意力的法律案例相似度计算方法及系统
CN112925877A (zh) * 2019-12-06 2021-06-08 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619064A (zh) * 2019-08-29 2019-12-27 苏州千视通视觉科技股份有限公司 一种基于深度学习的案件研判方法及装置
CN110837601A (zh) * 2019-10-25 2020-02-25 杭州叙简科技股份有限公司 一种警情的自动分类与预测方法
CN112925877A (zh) * 2019-12-06 2021-06-08 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及系统
CN111159387A (zh) * 2019-12-12 2020-05-15 北京睿企信息科技有限公司 基于多维度报警信息文本相似度分析的推荐方法
CN111241848A (zh) * 2020-01-15 2020-06-05 江苏联著实业股份有限公司 一种基于机器学习的文章阅读理解答案检索系统及装置
CN111858940A (zh) * 2020-07-27 2020-10-30 湘潭大学 一种基于多头注意力的法律案例相似度计算方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
李佳;王竞文;闫继培;杨春宇;: "针对新型电信网络诈骗犯罪的串并案方法研究与改进", 警察技术, no. 03, 7 May 2020 (2020-05-07) *
李文;王炜立;: "中文文本理解技术在法律案情文本分类中的应用", 南昌大学学报(工科版), no. 01, 30 March 2007 (2007-03-30) *
葛斌;李芳芳;郭丝路;汤大权;: "基于知网的词汇语义相似度计算方法研究", 计算机应用研究, no. 09, 15 September 2010 (2010-09-15) *
鲍世方;: "基于Spark/GraphX图聚类算法的入室盗窃串并案研究", 计算机应用与软件, no. 09, 15 September 2017 (2017-09-15) *

Similar Documents

Publication Publication Date Title
US11893355B2 (en) Semantic map generation from natural-language-text documents
CN106600052B (zh) 一种基于时空轨迹的用户属性与社会网络检测系统
AU2019204776A1 (en) Preventative diagnosis prediction and solution determination of future event using internet of things and artificial intelligence
CN111160005A (zh) 基于事件演化知识本体的事件预测方法、装置及终端设备
CN111064620A (zh) 基于运维知识库的电网多媒体会议室设备维护方法和系统
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN115018656A (zh) 风险识别方法、风险识别模型的训练方法、装置和设备
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
CN108519993A (zh) 基于多数据流计算的社交网络热点事件检测方法
CN112100617A (zh) 一种异常sql检测方法及装置
CN113297834A (zh) 基于警情间语义相似度判断串并案的方法及装置
CN115296933B (zh) 一种工业生产数据风险等级评估方法及系统
Sakai et al. Photo image classification using pre-trained deep network for density-based spatiotemporal analysis system
Nurdeni et al. Extracting information from Twitter data to identify types of assistance for victims of natural disasters: an Indonesian case study
Shiri et al. Toward the automated construction of probabilistic knowledge graphs for the maritime domain
CN115618297A (zh) 识别异常企业的方法及其装置
CN111553826B (zh) 智慧城市数据处理方法
CN114580738A (zh) 一种社交媒体危机事件预测方法及系统
Hong et al. Analytics and evolving landscape of machine learning for emergency response
Punjabi et al. Forensic Intelligence-Combining Artificial Intelligence with Digital Forensics
CN114036922A (zh) 基于融合路径权重相似度判断关联事件的方法及装置
KR102306932B1 (ko) 민원 데이터를 이용한 위기 대응 방법 및 그 시스템
US20240135106A1 (en) Semantic map generation from natural-language-text documents
Appice et al. Complex Pattern Mining: New Challenges, Methods and Applications
Islami et al. Enhancing Anomaly Classification Over Log Files through Topic Modeling and Ensemble Methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination