CN111753872A - 串并案关联性分析方法、装置、设备和存储介质 - Google Patents
串并案关联性分析方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111753872A CN111753872A CN202010396342.5A CN202010396342A CN111753872A CN 111753872 A CN111753872 A CN 111753872A CN 202010396342 A CN202010396342 A CN 202010396342A CN 111753872 A CN111753872 A CN 111753872A
- Authority
- CN
- China
- Prior art keywords
- record data
- current
- data
- similarity
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000012098 association analyses Methods 0.000 claims description 12
- 238000012097 association analysis method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000008520 organization Effects 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010219 correlation analysis Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种串并案关联性分析方法,包括:获取相同案件类型中的至少两个笔录数据;对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签;取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果;所述人物属性标签为所述特征标签中的一种;对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵;根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;根据所述匹配结果和所述聚类结果确定当前两个笔录数据的关联程度。本发明还公开了一种串并案关联性分析装置、一种串并案关联性分析设备和一种计算机可读存储介质。采用本发明实施例,能够提高串并案件中关联程度分析的效率,提高破案效率。
Description
技术领域
本发明涉及警务信息处理领域,尤其涉及一种串并案关联性分析方法、装置、设备和存储介质。
背景技术
串并案分析作为打击系列犯罪案件的重要方法,可以挖掘案件之间的内在联系,减轻警务人员的工作量,提高破案效率。在现有技术中,主要靠警务人员通过人工分析数据,对比线索实现案件串并。人工分析的方式效率比较低,且随着现在案件和犯罪人员不断增多,犯罪形态纷繁复杂,大量时间、地域跨度比较大的流窜案件,难以有效汇总线索串并侦破。
发明内容
本发明实施例的目的是提供一种串并案关联性分析方法、装置、设备和存储介质,能够提高串并案件中关联程度分析的效率,提高破案效率。
为实现上述目的,本发明实施例提供了一种串并案关联性分析方法,包括:
获取相同案件类型中的至少两个笔录数据;
对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签;
取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果;其中,所述人物属性标签为所述特征标签中的一种;
对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵;
根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;
根据所述匹配结果和所述聚类结果确定当前两个笔录数据的关联程度。
作为上述方案的改进,所述特征标签还包括时间段标签、日期标签、地点性质标签、地区位置标签、年龄段标签和作案手段标签中的至少一种。
作为上述方案的改进,所述对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵,包括:
计算当前两个笔录数据中单个特征标签的相似度;
根据所述单个特征标签的相似度计算当前两个笔录数据的综合相似度;
根据所述综合相似度生成相似度矩阵。
作为上述方案的改进,所述人物属性标签包括身份证、手机号、银行账户、支付宝账号和车牌号中的至少两种特征数据;则,所述取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果,包括:
取任意两个笔录数据中的人物属性标签进行匹配,判断所述人物属性标签中是否至少有一种特征数据匹配成功;
若是,则判定人物属性标签匹配成功;若否,则判定人物属性标签匹配失败。
作为上述方案的改进,所述根据所述匹配结果和所述聚类结果输出当前两个笔录数据的关联程度,包括:
当所述匹配结果为匹配成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为一级关联数据;
当所述匹配结果为匹配成功,且所述聚类结果为不在同一个密集簇时,将当前两个笔录数据标记为二级关联数据;
当所述匹配结果为匹配不成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为三级关联数据。
为实现上述目的,本发明实施例还提供了一种串并案关联性分析装置,包括:
笔录数据获取模块,用于获取相同案件类型中的至少两个笔录数据;
数据处理模块,用于对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签;
特征标签匹配模块,用于取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果;其中,所述人物属性标签为所述特征标签中的一种;
相似度计算模块,用于对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵;
聚类模块,用于根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;
关联程度确定模块,用于根据所述匹配结果和聚类结果确定当前两个笔录数据的关联程度。
作为上述方案的改进,所述相似度计算模块,具体用于:
计算当前两个笔录数据中单个特征标签的相似度;
根据所述单个特征标签的相似度计算当前两个笔录数据的综合相似度;
根据所述综合相似度生成相似度矩阵。
作为上述方案的改进,所述关联程度确定模块,具体用于:
当所述匹配结果为匹配成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为一级关联数据;
当所述匹配结果为匹配成功,且所述聚类结果为不在同一个密集簇时,将当前两个笔录数据标记为二级关联数据;
当所述匹配结果为匹配不成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为三级关联数据。
为实现上述目的,本发明实施例还公开一种串并案关联性分析设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的串并案关联性分析方法。
为实现上述目的,本发明实施例还公开一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的串并案关联性分析方法。
与现有技术相比,本发明公开的通信设备控制方法、装置、设备和系统,首先对笔录数据做处理,以生成若干个特征标签,对笔录数据进行实体量化,转化为具有业务意义且可行性分析的特征指标;然后,取任意两个笔录数据中的人物属性标签进行匹配,并对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵,根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;最后,根据所述匹配结果和所述聚类结果确定当前两个笔录数据的关联程度。能够提高串并案件中关联程度分析的效率,提高破案效率。
附图说明
图1是本发明实施例提供的一种串并案关联性分析方法的流程图;
图2是本发明实施例提供的一种串并案关联性分析装置的结构框图;
图3是本发明实施例提供的一种串并案关联性分析设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种串并案关联性分析方法的流程图;所述串并案关联性分析方法,包括:
S1、获取相同案件类型中的至少两个笔录数据;
S2、对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签;
S3、取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果;其中,所述人物属性标签为所述特征标签中的一种;
S4、对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵;
S5、根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;
S6、根据所述匹配结果和所述聚类结果确定当前两个笔录数据的关联程度。
具体地,在步骤S1中,所述笔录数据存储在公安机关数据库,所述数据库中存储有多种不同案件类型的笔录数据,比如所述案件类型为盗窃、交通肇事、抢劫等类型。
具体地,在步骤S2中,对所述笔录数据进行实体提取,提取出9个实体,分别为:时间'TIME',人名'PER',机构名'ORG',地址'LOC',涉案物品'GOODS',涉案金额'MONEY',作案工具'TOOL',年龄'AGE',个人信息'INFORMATION'。
值得说明的是,所述个人信息包括但不限于身份证、手机号、银行账户、支付宝账号、车牌号等。
示例性的,所述笔录数据可以是电子版的笔录数据,或者由纸质版(警务人员手写)的笔录数据经过机器自动识别后生成的电子版笔录数据,从而能够自动对笔录数据中的信息进行提取,进一步确定所述笔录数据中的实体数据。值得说明的是,对所述笔录数据进行信息识别/提取的过程可参考现有技术中的数据处理过程,本发明对此不做具体限定。
进一步地,对识别到的实体进行实体量化,得到若干个特征标签,此时,所述对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签,包括步骤S21~S25。
S21、对时间实体量化为时间段、日期标签,规则如下:
a.时间段标签:凌晨(00:00-06:00)、上午(06:00-11:00)、中午(11:00-13:00)、下午(13:00-16:00)、晚上(18:00-00:00);
b.日期标签:工作日、非工作日、节假日、节假日前三天、节假日后三天。其中节假日以国家规定的休假和调整为准,先对节假日、节假日前三天、节假日后三天进行划分,再划分工作日、非工作日。
S22、对机构名、地址实体进行量化,生成地点性质、地区位置标签,规则如下:
a.地点性质标签:影剧院类、娱乐场所、体育健身、文化场馆、风景园区、生活服务、行车交通、交易市场、公共服务、使馆、小区住宅、办公场所;
b.地区位置标签:对地址实体按规则进行提取出省市县镇,格式为省/市/区/县/镇(没有的填充0或者none)。
S23、对年龄实体进行离散化,生成年龄段标签,规则如下:
a.青少年:≦17岁;
b.青年:18-45岁;
c.中年:46-69岁;
d.老年:≥69岁。
S24、对地址、机构名、作案工具、涉案物品、涉案金额实体进行量化,生成作案手段标签如下:入户盗窃、携带凶器盗窃、扒窃公私财物。
S25、对个人信息实体进行整合,比如对身份证、手机号、银行账户、支付宝账号、车牌号实体进行整合,生成人物属性标签,即{身份证,手机号,银行账户,支付宝账号、车牌号}。
具体地,在步骤S3中,取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果,包括:
取任意两个笔录数据中的人物属性标签进行匹配,判断所述人物属性标签中是否至少有一种特征数据匹配成功;若是,则判定人物属性标签匹配成功;若否,则判定人物属性标签匹配失败。
示例性的,当任意两个人物属性标签中的身份证相同,则判定人物属性标签匹配成功,此时可以初步认定为这两件案件可能存在关联,在后续步骤中结合案件相似度进行进一步判断。
具体地,在步骤S4中,基于加权相似度算法计算,对系统中任意的两个笔录数据的时间段x1、日期x2、地点性质x3、地区位置x4、年龄段x5、作案手段x6、身份证x7、手机号x8、银行账户x9、支付宝账号x10、车牌号x11共11维特征标签进行相似度计算。
可选地,所述对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵,包括步骤S41~S43。
S41、计算当前两个笔录数据中单个特征标签的相似度simx(i,j),公式如下:
其中,x表示上述标签中的其中一个类别标签;标签xi、xj表示任意两个笔录文本的同一个类别的标签;len表示计算元素个数。
值得说明的是,在计算单个特征标签的相似度前,需要先对11个类别标签剔除不确定特征值(比如“其他”,“未知”,“不合法”,空值),并做去重处理后,然后再分别对任意两个笔录文本的单个标签计算相似度。
S42、根据所述单个特征标签的相似度计算当前两个笔录数据的综合相似度sim,公式如下:
其中,0≤γ1,γ2≤1,γ1+γ2=1,可在后期通过业务经验进行调节取值;若γ1<γ2,作用是弱化时间段、日期、地点性质、地区位置、年龄段、作案手段标签,强化人物属性标签;若γ1>γ2,则弱化人物属性标签;若γ1=γ2,则取所有单个标签的相似度总和的均值。
S43、根据所述综合相似度生成相似度矩阵SIM,公式如下:
具体地,在步骤S5中,采用聚类算法(密度聚类)根据所述相似度矩阵对所述笔录数据进行聚类处理,识别出相关案件的密集簇。值得说明的是,具体的聚类过程可参考现有技术中的聚类处理过程,在此不再赘述。
具体地,在步骤S6中,所述根据所述匹配结果和所述聚类结果输出当前两个笔录数据的关联程度,包括步骤S61~S63:
S61、当所述匹配结果为匹配成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为一级关联数据;此时表明两个笔录数据的关联性强;
S62、当所述匹配结果为匹配成功,且所述聚类结果为不在同一个密集簇时,将当前两个笔录数据标记为二级关联数据;此时表明两个笔录数据的关联性较强;
S63、当所述匹配结果为匹配不成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为三级关联数据;此时表明两个笔录数据的关联性一般。
值得说明的是,所述一级关联数据、所述二级关联数据与所述三级关联数据的关联性强度满足:一级关联数据>二级关联数据>三级关联数据。当所述匹配结果为匹配不成功,且所述聚类结果为不在同一个密集簇时,此时表明两个笔录数据的无关联,对当前两个笔录数据不做标记。
与现有技术相比,本发明公开的通信设备控制方法,首先对笔录数据做处理,以生成若干个特征标签,对笔录数据进行实体量化,转化为具有业务意义且可行性分析的特征指标;然后,取任意两个笔录数据中的人物属性标签进行匹配,并对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵,根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;最后,根据所述匹配结果和所述聚类结果确定当前两个笔录数据的关联程度。能够提高串并案件中关联程度分析的效率,提高破案效率。
参见图2,图2是本发明实施例提供的一种串并案关联性分析装置10的结构框图;所述串并案关联性分析装置10包括:
笔录数据获取模块11,用于获取相同案件类型中的至少两个笔录数据;
数据处理模块12,用于对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签;
特征标签匹配模块13,用于取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果;其中,所述人物属性标签为所述特征标签中的一种;
相似度计算模块14,用于对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵;
聚类模块15,用于根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;
关联程度确定模块16,用于根据所述匹配结果和聚类结果确定当前两个笔录数据的关联程度。
具体地,所述笔录数据存储在公安机关数据库,所述数据库中存储有多种不同案件类型的笔录数据,比如所述案件类型为盗窃、交通肇事、抢劫等类型。
具体地,数据处理模块12对所述笔录数据进行实体提取,提取出9个实体,分别为:时间'TIME',人名'PER',机构名'ORG',地址'LOC',涉案物品'GOODS',涉案金额'MONEY',作案工具'TOOL',年龄'AGE',个人信息'INFORMATION'。
值得说明的是,所述个人信息包括但不限于身份证、手机号、银行账户、支付宝账号、车牌号等。
示例性的,所述笔录数据可以是电子版的笔录数据,或者由纸质版(警务人员手写)的笔录数据经过机器自动识别后生成的电子版笔录数据,从而所述数据处理模块12能够自动对笔录数据中的信息进行提取,进一步确定所述笔录数据中的实体数据。值得说明的是,对所述笔录数据进行信息识别/提取的过程可参考现有技术中的数据处理过程,本发明对此不做具体限定。
进一步地,所述数据处理模块12对识别到的实体进行实体量化,得到若干个特征标签,此时,所述对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签,包括步骤S21~S25。
S21、对时间实体量化为时间段、日期标签,规则如下:
a.时间段标签:凌晨(00:00-06:00)、上午(06:00-11:00)、中午(11:00-13:00)、下午(13:00-16:00)、晚上(18:00-00:00);
b.日期标签:工作日、非工作日、节假日、节假日前三天、节假日后三天。其中节假日以国家规定的休假和调整为准,先对节假日、节假日前三天、节假日后三天进行划分,再划分工作日、非工作日。
S22、对机构名、地址实体进行量化,生成地点性质、地区位置标签,规则如下:
a.地点性质标签:影剧院类、娱乐场所、体育健身、文化场馆、风景园区、生活服务、行车交通、交易市场、公共服务、使馆、小区住宅、办公场所;
b.地区位置标签:对地址实体按规则进行提取出省市县镇,格式为省/市/区/县/镇(没有的填充0或者none)。
S23、对年龄实体进行离散化,生成年龄段标签,规则如下:
a.青少年:≦17岁;
b.青年:18-45岁;
c.中年:46-69岁;
d.老年:≥69岁。
S24、对地址、机构名、作案工具、涉案物品、涉案金额实体进行量化,生成作案手段标签如下:入户盗窃、携带凶器盗窃、扒窃公私财物。
S25、对个人信息实体进行整合,比如对身份证、手机号、银行账户、支付宝账号、车牌号实体进行整合,生成人物属性标签,即{身份证,手机号,银行账户,支付宝账号、车牌号}。
具体地,所述特征标签匹配模块13具体用于:取任意两个笔录数据中的人物属性标签进行匹配,判断所述人物属性标签中是否至少有一种特征数据匹配成功;若是,则判定人物属性标签匹配成功;若否,则判定人物属性标签匹配失败。
示例性的,当任意两个人物属性标签中的身份证相同,则判定人物属性标签匹配成功,此时可以初步认定为这两件案件可能存在关联,在后续步骤中结合案件相似度进行进一步判断。
具体地,所述相似度计算模块14基于加权相似度算法计算,对系统中任意的两个笔录数据的时间段x1、日期x2、地点性质x3、地区位置x4、年龄段x5、作案手段x6、身份证x7、手机号x8、银行账户x9、支付宝账号x10、车牌号x11共11维特征标签进行相似度计算。
可选地,所述相似度计算模块14用于计算当前两个笔录数据中单个特征标签的相似度simx(i,j),公式如下:
其中,x表示上述标签中的其中一个类别标签;标签xi、xj表示任意两个笔录文本的同一个类别的标签;len表示计算元素个数。
值得说明的是,在计算单个特征标签的相似度前,需要先对11个类别标签剔除不确定特征值(比如“其他”,“未知”,“不合法”,空值),并做去重处理后,然后再分别对任意两个笔录文本的单个标签计算相似度。
所述相似度计算模块14根据所述单个特征标签的相似度计算当前两个笔录数据的综合相似度sim,公式如下:
其中,0≤γ1,γ2≤1,γ1+γ2=1,可在后期通过业务经验进行调节取值;若γ1<γ2,作用是弱化时间段、日期、地点性质、地区位置、年龄段、作案手段标签,强化人物属性标签;若γ1>γ2,则弱化人物属性标签;若γ1=γ2,则取所有单个标签的相似度总和的均值。
所述相似度计算模块14根据所述综合相似度生成相似度矩阵SIM,公式如下:
具体地,所述聚类模块15采用聚类算法(密度聚类)根据所述相似度矩阵对所述笔录数据进行聚类处理,识别出相关案件的密集簇。值得说明的是,具体的聚类过程可参考现有技术中的聚类处理过程,在此不再赘述。
具体地,所述关联程度确定模块16具体用于:
当所述匹配结果为匹配成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为一级关联数据;此时表明两个笔录数据的关联性强;
当所述匹配结果为匹配成功,且所述聚类结果为不在同一个密集簇时,将当前两个笔录数据标记为二级关联数据;此时表明两个笔录数据的关联性较强;
当所述匹配结果为匹配不成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为三级关联数据;此时表明两个笔录数据的关联性一般。
值得说明的是,所述一级关联数据、所述二级关联数据与所述三级关联数据的关联性强度满足:一级关联数据>二级关联数据>三级关联数据。当所述匹配结果为匹配不成功,且所述聚类结果为不在同一个密集簇时,此时表明两个笔录数据的无关联,对当前两个笔录数据不做标记。
与现有技术相比,本发明公开的通信设备控制装置10,首先对笔录数据做处理,以生成若干个特征标签,对笔录数据进行实体量化,转化为具有业务意义且可行性分析的特征指标;然后,取任意两个笔录数据中的人物属性标签进行匹配,并对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵,根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;最后,根据所述匹配结果和所述聚类结果确定当前两个笔录数据的关联程度。能够提高串并案件中关联程度分析的效率,提高破案效率。
参见图3,图3是本发明实施例提供的一种串并案关联性分析设备20的结构框图。该实施例的串并案关联性分析设备20包括:处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述人体关键点检测模型生成方法实施例中的步骤,例如图1所示的步骤S1~S6。或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如笔录数据获取模块11。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述串并案关联性分析设备20中的执行过程。例如,所述计算机程序可以被分割成笔录数据获取模块11、数据处理模块12、特征标签匹配模块13、相似度计算模块14、聚类模块15和关联程度确定模块16,各模块具体功能请参考上述实施例所述的串并案关联性分析装置10的具体工作过程,在此不再赘述。
所述串并案关联性分析设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述串并案关联性分析设备20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是串并案关联性分析设备20的示例,并不构成对串并案关联性分析设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述串并案关联性分析设备20还可以包括输入输出设备、网络接入设备、总线等。
所述处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器21也可以是任何常规的处理器等,所述处理器21是所述串并案关联性分析设备20的控制中心,利用各种接口和线路连接整个串并案关联性分析设备20的各个部分。
所述存储器22可用于存储所述计算机程序和/或模块,所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述串并案关联性分析设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述串并案关联性分析设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器21执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种串并案关联性分析方法,其特征在于,包括:
获取相同案件类型中的至少两个笔录数据;
对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签;
取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果;其中,所述人物属性标签为所述特征标签中的一种;
对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵;
根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;
根据所述匹配结果和所述聚类结果确定当前两个笔录数据的关联程度。
2.如权利要求1所述的串并案关联性分析方法,其特征在于,所述特征标签还包括时间段标签、日期标签、地点性质标签、地区位置标签、年龄段标签和作案手段标签中的至少一种。
3.如权利要求1所述的串并案关联性分析方法,其特征在于,所述对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵,包括:
计算当前两个笔录数据中单个特征标签的相似度;
根据所述单个特征标签的相似度计算当前两个笔录数据的综合相似度;
根据所述综合相似度生成相似度矩阵。
4.如权利要求1所述的串并案关联性分析方法,其特征在于,所述人物属性标签包括身份证、手机号、银行账户、支付宝账号和车牌号中的至少两种特征数据;则,所述取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果,包括:
取任意两个笔录数据中的人物属性标签进行匹配,判断所述人物属性标签中是否至少有一种特征数据匹配成功;
若是,则判定人物属性标签匹配成功;若否,则判定人物属性标签匹配失败。
5.如权利要求1所述的串并案关联性分析方法,其特征在于,所述根据所述匹配结果和所述聚类结果输出当前两个笔录数据的关联程度,包括:
当所述匹配结果为匹配成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为一级关联数据;
当所述匹配结果为匹配成功,且所述聚类结果为不在同一个密集簇时,将当前两个笔录数据标记为二级关联数据;
当所述匹配结果为匹配不成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为三级关联数据。
6.一种串并案关联性分析装置,其特征在于,包括:
笔录数据获取模块,用于获取相同案件类型中的至少两个笔录数据;
数据处理模块,用于对每一所述笔录数据进行数据处理,以生成所述笔录数据的若干个特征标签;
特征标签匹配模块,用于取任意两个笔录数据中的人物属性标签进行匹配,并输出匹配结果;其中,所述人物属性标签为所述特征标签中的一种;
相似度计算模块,用于对当前两个笔录数据进行相似度计算,生成当前两个笔录数据的相似度矩阵;
聚类模块,用于根据所述相似度矩阵对所述笔录数据进行聚类,并输出聚类结果;
关联程度确定模块,用于根据所述匹配结果和聚类结果确定当前两个笔录数据的关联程度。
7.如权利要求6所述的串并案关联性分析装置,其特征在于,所述相似度计算模块,具体用于:
计算当前两个笔录数据中单个特征标签的相似度;
根据所述单个特征标签的相似度计算当前两个笔录数据的综合相似度;
根据所述综合相似度生成相似度矩阵。
8.如权利要求6所述的串并案关联性分析装置,其特征在于,所述关联程度确定模块,具体用于:
当所述匹配结果为匹配成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为一级关联数据;
当所述匹配结果为匹配成功,且所述聚类结果为不在同一个密集簇时,将当前两个笔录数据标记为二级关联数据;
当所述匹配结果为匹配不成功,且所述聚类结果为在同一个密集簇时,将当前两个笔录数据标记为三级关联数据。
9.一种串并案关联性分析设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的串并案关联性分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任意一项所述的串并案关联性分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010396342.5A CN111753872A (zh) | 2020-05-12 | 2020-05-12 | 串并案关联性分析方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010396342.5A CN111753872A (zh) | 2020-05-12 | 2020-05-12 | 串并案关联性分析方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111753872A true CN111753872A (zh) | 2020-10-09 |
Family
ID=72673684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010396342.5A Pending CN111753872A (zh) | 2020-05-12 | 2020-05-12 | 串并案关联性分析方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753872A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859128A (zh) * | 2023-02-23 | 2023-03-28 | 成都瑞安信信息安全技术有限公司 | 一种基于档案数据交互相似度的分析方法和系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009130662A1 (en) * | 2008-04-22 | 2009-10-29 | Tubitak-Turkiye Bilimsel Ve Teknolojik Arastirma Kurumu | Reduction of the time period necessary for comparison in criminal databases by using a universal set formation method where the universal set is subject to time-varying subset formation |
CN105260449A (zh) * | 2015-10-10 | 2016-01-20 | 张福辉 | 一种案件关键字符串串并的检测方法 |
CN106127241A (zh) * | 2016-06-17 | 2016-11-16 | 中国电子科技集团公司第二十八研究所 | 一种串并案分类方法及串并案分类系统 |
CN107092929A (zh) * | 2017-04-19 | 2017-08-25 | 广州可度析信息科技有限公司 | 基于聚类技术的刑事犯罪案件关联串并方法及系统 |
CN107145895A (zh) * | 2017-03-13 | 2017-09-08 | 东方网力科技股份有限公司 | 基于k‑means算法的公安犯罪类案研判方法 |
US20190057286A1 (en) * | 2017-08-16 | 2019-02-21 | Microsoft Technology Licensing, Llc | Crime scene analysis using machine learning |
CN109684628A (zh) * | 2018-11-23 | 2019-04-26 | 武汉烽火众智数字技术有限责任公司 | 基于案情语义分析的案件智能推送方法及系统 |
CN109800304A (zh) * | 2018-12-29 | 2019-05-24 | 北京奇安信科技有限公司 | 案件笔录的处理方法、装置、设备及介质 |
CN110019374A (zh) * | 2019-03-26 | 2019-07-16 | 杭州数梦工场科技有限公司 | 基于特征的数据项处理方法、装置、存储介质及计算机设备 |
CN110909542A (zh) * | 2019-11-15 | 2020-03-24 | 珠海市新德汇信息技术有限公司 | 智能语义串并分析方法及系统 |
-
2020
- 2020-05-12 CN CN202010396342.5A patent/CN111753872A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009130662A1 (en) * | 2008-04-22 | 2009-10-29 | Tubitak-Turkiye Bilimsel Ve Teknolojik Arastirma Kurumu | Reduction of the time period necessary for comparison in criminal databases by using a universal set formation method where the universal set is subject to time-varying subset formation |
CN105260449A (zh) * | 2015-10-10 | 2016-01-20 | 张福辉 | 一种案件关键字符串串并的检测方法 |
CN106127241A (zh) * | 2016-06-17 | 2016-11-16 | 中国电子科技集团公司第二十八研究所 | 一种串并案分类方法及串并案分类系统 |
CN107145895A (zh) * | 2017-03-13 | 2017-09-08 | 东方网力科技股份有限公司 | 基于k‑means算法的公安犯罪类案研判方法 |
CN107092929A (zh) * | 2017-04-19 | 2017-08-25 | 广州可度析信息科技有限公司 | 基于聚类技术的刑事犯罪案件关联串并方法及系统 |
US20190057286A1 (en) * | 2017-08-16 | 2019-02-21 | Microsoft Technology Licensing, Llc | Crime scene analysis using machine learning |
CN109684628A (zh) * | 2018-11-23 | 2019-04-26 | 武汉烽火众智数字技术有限责任公司 | 基于案情语义分析的案件智能推送方法及系统 |
CN109800304A (zh) * | 2018-12-29 | 2019-05-24 | 北京奇安信科技有限公司 | 案件笔录的处理方法、装置、设备及介质 |
CN110019374A (zh) * | 2019-03-26 | 2019-07-16 | 杭州数梦工场科技有限公司 | 基于特征的数据项处理方法、装置、存储介质及计算机设备 |
CN110909542A (zh) * | 2019-11-15 | 2020-03-24 | 珠海市新德汇信息技术有限公司 | 智能语义串并分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
王文浩: "警情信息串并案检测系统的研究与实现", 《中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑》, no. 8, pages 23 - 40 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859128A (zh) * | 2023-02-23 | 2023-03-28 | 成都瑞安信信息安全技术有限公司 | 一种基于档案数据交互相似度的分析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507936B (zh) | 图像信息审核方法、装置、电子设备及可读存储介质 | |
CN111159387B (zh) | 基于多维度报警信息文本相似度分析的推荐方法 | |
CN109767322A (zh) | 基于大数据的可疑交易分析方法、装置和计算机设备 | |
CN112651342B (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN111986794B (zh) | 基于人脸识别的防冒挂号方法、装置、计算机设备及介质 | |
CN111538816B (zh) | 基于ai识别的问答方法、装置、电子设备及介质 | |
CN110826316A (zh) | 一种应用于裁判文书中敏感信息的识别方法 | |
CN111950621A (zh) | 基于人工智能的目标数据检测方法、装置、设备及介质 | |
CN110909195A (zh) | 基于区块链的图片标注方法、装置及存储介质、服务器 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN113064994A (zh) | 会议质量评估方法、装置、设备及存储介质 | |
CN113903363A (zh) | 基于人工智能的违规行为检测方法、装置、设备及介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN115618415A (zh) | 敏感数据识别方法、装置、电子设备和存储介质 | |
CN113269179B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111753872A (zh) | 串并案关联性分析方法、装置、设备和存储介质 | |
CN114595321A (zh) | 问题标注方法、装置、电子设备及存储介质 | |
CN112347792A (zh) | 一种基于关系抽取的反欺诈验证识别方法与系统 | |
CN112560711A (zh) | 非机动车交通违法判定方法、系统、装置及存储介质 | |
CN115658976A (zh) | 基于局部敏感哈希的设备指纹分析方法及系统 | |
CN111447563B (zh) | 一种目标对象追踪方法及安防系统 | |
CN114610854A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN113706207A (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN114925352B (zh) | 账号注册风险检测方法、装置、设备及存储介质 | |
CN113868487B (zh) | 基于GeoHash地址编码的行员选取方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201009 |