CN110532317B - 案件分析数据处理方法、装置、设备和可读存储介质 - Google Patents
案件分析数据处理方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN110532317B CN110532317B CN201910795004.6A CN201910795004A CN110532317B CN 110532317 B CN110532317 B CN 110532317B CN 201910795004 A CN201910795004 A CN 201910795004A CN 110532317 B CN110532317 B CN 110532317B
- Authority
- CN
- China
- Prior art keywords
- case
- information
- characteristic information
- data
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提出一种案件分析数据处理方法、装置、设备和可读存储介质,其中,方法包括:获取待分析案件集合中各个案件的原始数据;根据所述各个案件的原始数据,确定所述各个案件的各项特征信息;根据所述各个案件的各项特征信息和预设的特征信息连边规则,确定所述待分析案件集合的图数据;获取频繁子图的度量值;根据所述度量值和预定的频繁子图挖掘算法,确定所述待分析案件集合的图数据中的频繁子图数据。基于频繁子图的数据,有利于同时从多个维度分析案件的规律和趋势,使得分析结果更加全面。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种案件分析数据处理方法、装置、设备和可读存储介质。
背景技术
随着社会发展,各种违法犯罪行为层出不穷,作案手段,方式,作案群体和受害人群体也日趋多元化;在此背景下,挖掘犯罪活动规律和犯罪趋势成为一个难题。目前业内主要的分析方式是传统的统计案件信息,然后将统计信息汇总。在统计的过程中,可能会从多个角度去统计,或者,将某一类型的案件信息筛选出来,做专项统计。使用传统的统计方法,无法同时从多个维度分析案件发生规律和趋势,分析结果较为片面。
发明内容
本发明实施例提供一种案件分析数据处理方法、装置、设备和可读存储介质,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种案件分析数据处理方法,包括:
获取待分析案件集合中各个案件的原始数据;
根据所述各个案件的原始数据,确定所述各个案件的各项特征信息;
根据所述各个案件的各项特征信息和预设的特征信息连边规则,确定所述待分析案件集合的图数据;
获取频繁子图的度量值;
根据所述度量值和预定的频繁子图挖掘算法,确定所述待分析案件集合的图数据中的频繁子图数据。
在一种实施方式中,所述根据所述各个案件的原始数据,确定所述各个案件的各项特征信息,包括:
根据预设的特征信息项目,从所述各个案件的原始数据中提取对应的各项初始特征信息;
对所述各项初始特征信息进行归一化处理,得到所述各个案件的各项特征信息。
在一种实施方式中,所述根据所述各个案件的各项特征信息和预设的特征信息连边规则,确定所述待分析案件集合的图数据,包括:
对于所述各个案件,根据对应的所述各项特征信息,确定多个顶点,并,根据所述预设的特征信息连边规则,确定所述多个顶点的连边;
根据所述多个顶点和所述连边,确定所述各个案件的单图数据;
利用所述各个案件的单图数据中特征信息值相同的所述顶点,连接所述各个案件的单图数据,得到所述待分析案件集合的图数据。
在一种实施方式中,所述根据所述各个案件的各项特征信息和预设的特征信息连边规则,确定所述待分析案件集合的图数据,包括:
对于所述各个案件,根据对应的所述各项特征信息,确定多个顶点,并,根据预设的特征信息连边规则,确定所述多个顶点的连边;
根据所述多个顶点和所述连边,确定所述各个案件的单图数据,将所述各个案件的单图数据的集合作为所述待分析案件集合的图数据。
在一种实施方式中,还包括:
在接收到对指定特征信息的子图生成指令的情况下,在所述待分析案件集合的图数据中,确定所述指定特征信息对应的第一顶点,以及所述第一顶点连接的各个顶点;
根据所述第一顶点以及所述第一顶点连接的各个顶点,生成所述指定特征信息的子图。
在一种实施方式中,还包括:
根据所述频繁子图数据,生成案件分析信息;
根据所述频繁子图数据和所述案件分析信息,生成案件分析报告。
在一种实施方式中,所述各项特征信息包括人员特征信息和案件特征信息;
所述人员特征信息包括嫌疑人员的特征信息和受害人员的特征信息;
所述嫌疑人员的特征信息和所述受害人员的特征信息均包括:姓名信息、角色信息、年龄信息、性别信息、学历信息、婚姻状态信息、居住地信息、籍贯信息和工作信息;
所述案件特征信息包括案件标识号信息、案件类型信息、作案时间信息、作案地点信息、作案工具信息和作案手法信息。
在一种实施方式中,对于同一所述案件,所述预设的特征信息连边规则,包括:
所述案件标识号信息分别连接所述嫌疑人员的姓名信息和所述受害人员的姓名信息;
所述姓名信息分别连接对应的所述角色信息、所述年龄信息、所述性别信息、所述婚姻状态信息、所述居住地信息、所述籍贯信息和所述工作信息;
所述角色信息分别连接对应的所述年龄信息、所述性别信息、所述学历信息、所述婚姻状态信息、所述居住地信息、所述籍贯信息和所述工作信息;
所述嫌疑人员的姓名信息分别连接所述案件类型信息、所述作案时间信息、所述作案地点信息、所述作案工具信息和所述作案手法信息;
所述案件类型信息、所述作案时间信息、所述作案地点信息、所述作案工具信息和所述作案手法信息相互间两两连接。
在一种实施方式中,所述度量值为支持度阈值。
第二方面,本发明实施例提供一种案件分析数据处理装置,包括:
原始数据获取模块,用于获取待分析案件集合中各个案件的原始数据;
特征信息确定模块,用于根据所述各个案件的原始数据,确定所述各个案件的各项特征信息;
图数据确定模块,用于根据所述各个案件的各项特征信息和预设的特征信息连边规则,确定所述待分析案件集合的图数据;
度量值获取模块,用于获取频繁子图的度量值;
频繁子图确定模块,用于根据所述度量值和预定的频繁子图挖掘算法,确定所述待分析案件集合的图数据中的频繁子图数据。
在一种实施方式中,所述特征信息确定模块,包括:
初始特征信息确定单元,用于根据预设的特征信息项目,从所述各个案件的原始数据中提取对应的各项初始特征信息;
归一化处理单元,用于对所述各项初始特征信息进行归一化处理,得到所述各个案件的各项特征信息。
在一种实施方式中,所述图数据确定模块,包括:
顶点和连边确定单元,用于对于所述各个案件,根据对应的所述各项特征信息,确定多个顶点,并,根据所述预设的特征信息连边规则,确定所述多个顶点的连边;
单图数据确定单元,用于根据所述多个顶点和所述连边,确定所述各个案件的单图数据;
第一图数据确定单元,用于利用所述各个案件的单图数据中特征信息值相同的所述顶点,连接所述各个案件的单图数据,得到所述待分析案件集合的图数据。
在一种实施方式中,所述图数据确定模块,包括:
顶点和连边确定单元,用于对于所述各个案件,根据对应的所述各项特征信息,确定多个顶点,并,根据预设的特征信息连边规则,确定所述多个顶点的连边;
第二图数据确定单元,用于根据所述多个顶点和所述连边,确定所述各个案件的单图数据,将所述各个案件的单图数据的集合作为所述待分析案件集合的图数据。
在一种实施方式中,还包括:
指定子图生成指令接收模块,用于在接收到对指定特征信息的子图生成指令的情况下,在所述待分析案件集合的图数据中,确定所述指定特征信息对应的第一顶点,以及所述第一顶点连接的各个顶点;
指定子图生成模块,根据所述第一顶点以及所述第一顶点连接的各个顶点,生成所述指定特征信息的子图。
在一种实施方式中,还包括:
案件分析信息生成模块,用于根据所述频繁子图数据,生成案件分析信息;
案件分析报告生成模块,用于根据所述频繁子图数据和所述案件分析信息,生成案件分析报告。
第三方面,本发明实施例提供了一种案件分析数据处理设备,所述案件分析数据处理设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述案件分析数据处理设备的结构中包括处理器和存储器,所述存储器用于存储支持所述案件分析数据处理设备执行上述案件分析数据处理方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述案件分析数据处理设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储案件分析数据处理的装置所用的计算机软件指令,其包括用于执行上述第一方面中案件分析数据处理的方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:使用图的方式构建案件的特征关联图,并借助频繁子图挖掘算法,提取频繁子图数据。基于频繁子图数据,有利于同时从多个维度分析案件的规律和趋势,使得分析结果更加全面。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的案件分析数据处理方法的流程图;
图2示出根据本发明实施例的案件分析数据处理方法的步骤S12的流程图;
图3示出根据本发明实施例的案件分析数据处理方法的步骤S13的一种实施方式的流程图;
图4示出根据本发明实施例的案件分析数据处理方法的案件单图数据的一种示例图;
图5示出根据本发明实施例的案件分析数据处理方法的步骤S13的另一种实施方式的流程图;
图6示出根据本发明实施例的案件分析数据处理方法的频繁子图的一种示例图;
图7示出根据本发明实施例的案件分析数据处理方法的频繁子图的另一种示例图;
图8示出根据本发明实施例的案件分析数据处理装置的结构框图;
图9示出根据本发明实施例的案件分析数据处理设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例提供的案件分析数据处理方法的流程图,该方法包括:
S11、获取待分析案件集合中各个案件的原始数据;
S12、根据各个案件的原始数据,确定各个案件的各项特征信息;
S13、根据各个案件的各项特征信息和预设的特征信息连边规则,确定待分析案件集合的图数据;
S14、获取频繁子图的度量值;
S15、根据度量值和预定的频繁子图挖掘算法,确定待分析案件集合的图数据中的频繁子图数据。
频繁子图挖掘是指将关联规则学习用于图的数据,在图的集合中发现满足度量值的公共子图。例如,采用支持度作为度量值的频繁子图挖掘是以子图在输入图数据中出现的次数来作为度量的,挖掘出出现次数大于预设次数的子图作为频繁子图。关联规则学习是一种在大型数据库中发现变量之间的有趣性关系的方法。关联规则学习挖掘的目的是从事务数据集中分析数据项之间潜在的关联关系,揭示其中蕴含的对于用户有价值的模式。
本实施例从案件的原始数据中提取特征信息,然后使用图的方式构建案件的特征关联图,得到待分析案件集合的图数据。借助频繁子图挖掘算法,在待分析案件集合的图数据中提取满足度量值的子图,作为频繁子图数据。基于频繁子图数据,可以同时从多个维度分析案件的规律和趋势,分析结果更加全面。
在一种实施方式中,步骤S11的原始数据可以包括公安案件卷宗和案件记录内容。
在一种实施方式中,参见图2,图2示出步骤S12的流程示意图,步骤S12包括:
S21、根据预设的特征信息项目,从各个案件的原始数据中确定对应的各项初始特征信息。
例如,需要预设的特征信息项目包括了犯罪嫌疑人的姓名信息、角色信息和年龄信息;那么,则对应从原始数据中找到与犯罪嫌疑人的姓名信息、角色信息和年龄信息相关的初始特征信息。例如,在案件1的原始数据中记录了“犯罪嫌疑人张三的年龄为24岁”,对应确定的特征初始信息包括:姓名信息:张三,角色信息:犯罪嫌疑人,年龄信息:24岁。特征初始信息的记录存储方式可以为纯文本或者表格的方式。
S22、对各项初始特征信息进行归一化处理,得到各个案件的各项特征信息。
这里的归一化处理可以理解为将特征信息的描述语言进行统一,从而解决各个案件的原始数据的描述用词不相同的问题,以便后续进行子图的构建和频繁子图的提取。
例如,将学历属于中学的学历描述语言均用“中学”进行表示。例如“初一”、“初二”、“初三”、“高一”、“高二”、“高三”、“初中”、“高中”、“XXX中学毕业”等学历特征初始信息,在经过归一化处理后,得到对应的学历特征信息为“中学”。
又例如,预先设定归一化处理后所对应的年龄特征信息描述语言为0-14、15-19、20-29、30-39、40-49、50-59、60-90。那么,在案件记录内容中,犯罪嫌疑人张三的年龄记录为24岁,受害人王五的年龄记录为十六岁。经过归一化处理后,犯罪嫌疑人张三的年龄特征信息为20-29,受害人王五的年龄特征信息为15-19。
在一种实施方式中,各项特征信息包括人员特征信息和案件特征信息;
人员特征信息包括嫌疑人员的特征信息和受害人员的特征信息。
嫌疑人员的特征信息和受害人员的特征信息均包括:姓名信息、角色信息、年龄信息、性别信息、学历信息、婚姻状态信息、居住地信息、籍贯信息和工作信息;
案件特征信息包括案件标识号信息、案件类型信息、作案时间信息、作案地点信息、作案工具信息和作案手法信息。
在一种示例中,作案时间信息可以包括:早上(6-12点)、中午(12-14点)、下午(14-18点)、晚上(18-24点)、凌晨(0-6点)。上述作案时间信息的归一化方式只是一种示例,本领域人员可以根据需求调整作案时间信息的归一化方式,如0-1点、1-2点、……22-23点、23-24点。
在一种示例中,案件标识号信息可以包括案件的编号信息。
在其它实施方式中,案件特征信息还可以包括作案动机信息、作案对象信息(如妇女、学生、小孩和老人)。
在其它实施方式中,人员特征信息还可以包括证人的特征信息和旁观者的特征信息等。
一种示例,可以将案件的各项特征信息以表格的方式进行记录。表1为记录人员特征信息的一种示例,表2为记录案件特征信息的一种示例。也可以将表1和表2整合为一个表。表1和表2仅为示例,具体的记录形式可以根据实际需求进行调整。
表1
人员 | 身份 | 角色 | 性别 | 年龄 | 学历 | 婚姻状况 | 工作 | 籍贯 | 居住地 |
张三 | 310xxx | 犯罪嫌疑人 | 男 | 20-29 | 中学 | 未婚 | 无 | 上海 | 上海 |
王五 | 310xxx | 受害人 | 男 | 15-19 | 大学 | 未婚 | 工程师 | 上海 | 上海 |
表2
案件编号 | 犯罪嫌疑人 | 受害者 | 案件类型 | 作案时间 | 作案地点 | 作案手法 |
案件1 | 张三 | 王五 | XXX | 凌晨 | 市区 | XXX |
案件2 | 李四 | 朱六 | XXX | 中午 | 郊区 | 无 |
在一种实施方式中,参见图3,步骤S13,包括:
S31、对于各个案件,根据对应的各项特征信息,确定多个顶点,并,根据预设的特征信息连边规则,确定多个顶点的连边;
S32、根据多个顶点和连边,确定各个案件的单图数据;
示例,以表1和表2中的部分特征信息为例,可以建立如图4所示的单图数据,图4中:以特征信息为顶点,如“张三”、“20-29”,并对部分特征信息之间进行连边,如“张三”和“20-29”之间进行连边。
S33、利用各个案件的单图数据中特征信息值相同的顶点,连接各个案件的单图数据,得到待分析案件集合的图数据。
通常,不同案件的单图数据中,肯定会存在不少的特征信息值相同的顶点,例如学历、年龄、案件时间、类型、作案地点等。通过这些特征信息值相同的顶点作为公共顶点,实现不同案件的单图数据之间的连接,得到整个待分析案件集合的图数据。例如,在案件1中犯罪嫌疑人张三的年龄为20-29,假设在案件3中犯罪嫌疑人刘六的年龄也为20-29,那么顶点“张三”和“刘六”连接到同一顶点“20-29”。
在另一种实施方式中,参见图5,步骤S13,包括:
S51、对于各个案件,根据对应的各项特征信息,确定多个顶点,并,根据预设的特征信息连边规则,确定多个顶点的连边;
S52、根据多个顶点和连边,确定各个案件的单图数据,将各个案件的单图数据的集合作为待分析案件集合的图数据。
在一种实施方式中,还包括步骤:
在接收到对指定特征信息的子图生成指令的情况下,在待分析案件集合的图数据中,确定指定特征信息对应的第一顶点,以及第一顶点连接的各个顶点;
根据第一顶点以及第一顶点连接的各个顶点,生成指定特征信息的子图。
通过上述实施方式,可以指定一个特征信息,生成与这个特征信息有关的子图,用户可以基于这个子图获取与指定的特征信息相关的特征信息,从而进行案件分析。尤其是在步骤S33的基础上,生成的指定特征信息的子图中,指定特征信息所关联的特征信息来自不同的案件。
在一种实施方式中,步骤S13中,对于同一案件,预设的特征信息连边规则,包括:
案件标识号信息分别连接嫌疑人员的姓名信息和受害人员的姓名信息;
姓名信息分别连接对应的角色信息、年龄信息、性别信息、婚姻状态信息、居住地信息、籍贯信息和工作信息;
角色信息分别连接对应的年龄信息、性别信息、学历信息、婚姻状态信息、居住地信息、籍贯信息和工作信息;
嫌疑人员的姓名信息分别连接案件类型信息、作案时间信息、作案地点信息、作案工具信息和作案手法信息;
案件类型信息、作案时间信息、作案地点信息、作案工具信息和作案手法信息相互间两两连接。
上述实施方式仅仅为一种优选实施方式。特征信息的连边规则的设定可以依据案件分析的不同需求进行调整。基于上述优选实施方式中可以得到如下有益效果:
比如,选择将案件类型信息、作案时间信息、作案地点信息、作案工具信息和作案手法信息相互间两两连接,有利于提取到包括了案件特征信息的频繁子图,从而容易发现案件高发的特征信息。例如得到图6示例的频繁子图,基于该频繁子图可以发现市区凌晨是暴力事件高发地,同时,还可以表明,在该案件的集合中,发生过多起有如上特征的案件。
比如,选择将角色信息分别连接到对应的角色信息、年龄信息、性别信息、婚姻状态信息、居住地信息、籍贯信息和工作信息;有利于提取到包括某几项犯罪嫌疑人的关联的特征信息的频繁子图,从而容易发现犯罪嫌疑人的特征规律。例如得到图7示例的频繁子图,从中发现20-29岁的男性,中学学历的人容易成为犯罪嫌疑人。
又比如,案件标识号信息分别连接嫌疑人员的姓名信息,嫌疑人员的姓名信息分别连接案件类型信息、作案时间信息、作案地点信息、作案工具信息和作案手法信息,这样的连边规则很容易发现串并案和惯犯信息。如某一个犯罪嫌疑人的出现在频繁子图中,说明该人是惯犯,并且在多起案件中作案。另外,结合该犯罪嫌疑人的频繁子图,还可以进一步分析该惯犯的惯用作案特征。
在一种实施方式中,顶点的形状可以根据特征信息的类型采用对应的形状进行显示。例如图4中,姓名信息以圆形表示,年龄信息、学历信息、角色信息、性别信息以三角形表示,作案时间信息、作案地点信息、案件类型信息、作案手法信息以菱形表示。
在一种实施方式中,度量值为支持度阈值。支持度阈值也可以理解为最小支持度。支持度型挖掘是以子图在输入数据库中出现的次数来作为度量,大部分的频繁子图挖掘算法都是基于支持度的。本实施例优选支持度阈值。
支持度阈值可以根据案件总量和/或待分析案件合集的图数据所包含的子图数量来设置。通常,案件总量较多的情况下,支持度阈值可以设置小一些,以真实反映犯罪活动规律和趋势。通常,当子图数量比较多的情况下,支持度阈值可以设置稍小一些,否则,可以设置较大的支持度阈值。
在其它实施方式中,度量值也可以为支持度阈值-置信度阈值。基于支持度-置信度的挖掘算法,要求频繁子图同时满足最小支持度和最小置信度。
在其它实施方式中,度量值也可以最小描述长度(minimum description length,MDL)。基于MDL的挖掘,是以压缩输入数据的程度来度量,一般采用公式valuo(s,g)=dl(g)/(dl(g1)+dl(g2))来计算,其中,s是子图,g是输入的图集合,dl(g)表示图集合g的存储空间,dl(g2)表示把g中所有出现s的地方都用同一个顶点替换后的图形所需的存储空间。
除了上述提及的几种度量值,还有其它度量值,可以根据实际需求进行选择,此处不再赘述。
在一种实施方式中,在步骤S13中,还包括:删除孤立的案件单图数据。孤立的案件单图数据指与其它案件单图数据均不具有特征信息值相同的顶点的案件单图数据。删除孤立的案件单图数据,有利于减少求解频繁子图时的计算量,提高分析案件效率。
在一种实施方式中,在步骤S13中,若保留孤立的案件单图数据,可以将选择将度量值设置得低一些,以减少这些孤立的案件单图数据对频繁子图求解的影响。
在一种实施方式中,步骤S14中,度量值可以包括多个值;则,步骤S15中可以得到不同的度量值所对应的频繁子图,从而更好的分层次研究违法/犯罪的规律和趋势。
在一种实施方式中,步骤S14中,获取频繁子图的度量值可以为根据预设的默认值确定频繁子图的度量值,也可以为获取来自用户所输入的度量值。
在一种实施方式中,步骤S15中,预定的频繁子图挖掘算法可以包括Gspan频繁子图挖掘算法和类Apriori算法。
在一种实施方式中,还包括:
根据频繁子图数据,生成案件分析信息;案件分析信息可以包括违法犯罪活动规律信息和违法犯罪趋势信息。
根据频繁子图数据和案件分析信息,生成案件分析报告。
一种示例,进行全网的案件分析,全网分为各个辖区。具体的案件分析示例如下:
首先,获取全网中各个辖区的案件集合的原始数据;
然后,对于同一辖区内的各个案件,根据各个案件的原始数据,确定各个案件的各项特征信息;根据对应的各项特征信息,确定各个案件的单图数据;利用各个案件的单图数据中特征信息值相同的顶点,连接各个案件的单图数据,得到该辖区的图数据。
接着,将各个辖区的图数据的集合作为全网的图数据;
最后,获取频繁子图的度量值;根据度量值和预定的频繁子图挖掘算法,确定全网的频繁子图数据。根据全网的频繁子图数据进行案件分析。
图8示出根据本发明实施例提供的一种案件分析数据处理装置的结构框图,该装置包括:
原始数据获取模块81,用于获取待分析案件集合中各个案件的原始数据;
特征信息确定模块82,用于根据各个案件的原始数据,确定各个案件的各项特征信息;
图数据确定模块83,用于根据各个案件的各项特征信息和预设的特征信息连边规则,确定待分析案件集合的图数据;
度量值获取模块84,用于获取频繁子图的度量值;
频繁子图确定模块85,用于根据度量值和预定的频繁子图挖掘算法,确定待分析案件集合的图数据中的频繁子图数据。
在一种实施方式中,特征信息确定模块82,包括:
初始特征信息确定单元,用于根据预设的特征信息项目,从各个案件的原始数据中确定对应的各项初始特征信息;
归一化处理单元,用于对各项初始特征信息进行归一化处理,得到各个案件的各项特征信息。
在一种实施方式中,图数据确定模块83,包括:
顶点和连边确定单元,用于对于各个案件,根据对应的各项特征信息,确定多个顶点,并,根据预设的特征信息连边规则,确定多个顶点的连边;
单图数据确定单元,用于根据多个顶点和连边,确定各个案件的单图数据;
第一图数据确定单元,用于利用各个案件的单图数据中特征信息值相同的顶点,连接各个案件的单图数据,得到待分析案件集合的图数据。
在一种实施方式中,图数据确定模块83,包括:
顶点和连边确定单元,用于对于各个案件,根据对应的各项特征信息,确定多个顶点,并,根据预设的特征信息连边规则,确定多个顶点的连边;
第二图数据确定单元,用于根据多个顶点和连边,确定各个案件的单图数据,将各个案件的单图数据的集合作为待分析案件集合的图数据。
在一种实施方式中,还包括:
指定子图生成指令接收模块,用于在接收到对指定特征信息的子图生成指令的情况下,在待分析案件集合的图数据中,确定指定特征信息对应的第一顶点,以及第一顶点连接的各个顶点;
指定子图生成模块,根据第一顶点以及第一顶点连接的各个顶点,生成指定特征信息的子图。
在一种实施方式中,还包括:
案件分析信息生成模块,用于根据频繁子图数据,生成案件分析信息;
案件分析报告生成模块,用于根据频繁子图数据和案件分析信息,生成案件分析报告。
本发明实施例装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图9示出根据本发明实施例的案件分析数据处理设备的结构框图。如图9所示,该案件分析数据处理设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行计算机程序时实现上述实施例中的案件分析数据处理方法。存储器910和处理器920的数量可以为一个或多个。
该案件分析数据处理设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (17)
1.一种案件分析数据处理方法,其特征在于,包括:
获取待分析案件集合中各个案件的原始数据;
根据所述各个案件的原始数据,确定所述各个案件的各项特征信息;
对于所述各个案件,根据对应的所述各项特征信息,确定多个顶点,并根据预设的特征信息连边规则,确定所述多个顶点的连边;
根据所述多个顶点和所述连边,确定所述各个案件的单图数据;
根据所述单图数据确定所述待分析案件集合的图数据;
获取频繁子图的度量值;
根据所述度量值和预定的频繁子图挖掘算法,确定所述待分析案件集合的图数据中的频繁子图数据;
根据所述频繁子图数据进行案件分析。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各个案件的原始数据,确定所述各个案件的各项特征信息,包括:
根据预设的特征信息项目,从所述各个案件的原始数据中提取对应的各项初始特征信息;
对所述各项初始特征信息进行归一化处理,得到所述各个案件的各项特征信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述单图数据确定所述待分析案件集合的图数据,包括:
利用所述各个案件的单图数据中特征信息值相同的所述顶点,连接所述各个案件的单图数据,得到所述待分析案件集合的图数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述单图数据确定所述待分析案件集合的图数据,包括:
将所述各个案件的单图数据的集合作为所述待分析案件集合的图数据。
5.根据权利要求1所述的方法,其特征在于,还包括:
在接收到对指定特征信息的子图生成指令的情况下,在所述待分析案件集合的图数据中,确定所述指定特征信息对应的第一顶点,以及所述第一顶点连接的各个顶点;
根据所述第一顶点以及所述第一顶点连接的各个顶点,生成所述指定特征信息的子图。
6.根据权利要求1所述的方法,其特征在于,还包括:
根据所述频繁子图数据,生成案件分析信息;
根据所述频繁子图数据和所述案件分析信息,生成案件分析报告。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述各项特征信息包括人员特征信息和案件特征信息;
所述人员特征信息包括嫌疑人员的特征信息和受害人员的特征信息;
所述嫌疑人员的特征信息和所述受害人员的特征信息均包括:姓名信息、角色信息、年龄信息、性别信息、学历信息、婚姻状态信息、居住地信息、籍贯信息和工作信息;
所述案件特征信息包括案件标识号信息、案件类型信息、作案时间信息、作案地点信息、作案工具信息和作案手法信息。
8.根据权利要求7所述的方法,其特征在于,对于同一所述案件,所述预设的特征信息连边规则,包括:
所述案件标识号信息分别连接所述嫌疑人员的姓名信息和所述受害人员的姓名信息;
所述姓名信息分别连接对应的所述角色信息、所述年龄信息、所述性别信息、所述婚姻状态信息、所述居住地信息、所述籍贯信息和所述工作信息;
所述角色信息分别连接对应的所述年龄信息、所述性别信息、所述学历信息、所述婚姻状态信息、所述居住地信息、所述籍贯信息和所述工作信息;
所述嫌疑人员的姓名信息分别连接所述案件类型信息、所述作案时间信息、所述作案地点信息、所述作案工具信息和所述作案手法信息;
所述案件类型信息、所述作案时间信息、所述作案地点信息、所述作案工具信息和所述作案手法信息相互间两两连接。
9.根据权利要求1所述的方法,其特征在于,所述度量值为支持度阈值。
10.一种案件分析数据处理装置,其特征在于,包括:
原始数据获取模块,用于获取待分析案件集合中各个案件的原始数据;
特征信息确定模块,用于根据所述各个案件的原始数据,确定所述各个案件的各项特征信息;
图数据确定模块,用于对于所述各个案件,根据对应的所述各项特征信息,确定多个顶点,并,根据预设的特征信息连边规则,确定所述多个顶点的连边;根据所述多个顶点和所述连边,确定所述各个案件的单图数据;根据所述单图数据确定所述待分析案件集合的图数据;
度量值获取模块,用于获取频繁子图的度量值;
频繁子图确定模块,用于根据所述度量值和预定的频繁子图挖掘算法,确定所述待分析案件集合的图数据中的频繁子图数据;
所述装置还用于根据所述频繁子图数据进行案件分析。
11.根据权利要求10所述的装置,其特征在于,所述特征信息确定模块,包括:
初始特征信息确定单元,用于根据预设的特征信息项目,从所述各个案件的原始数据中确定对应的各项初始特征信息;
归一化处理单元,用于对所述各项初始特征信息进行归一化处理,得到所述各个案件的各项特征信息。
12.根据权利要求10所述的装置,其特征在于,所述图数据确定模块,包括:
第一图数据确定单元,用于利用所述各个案件的单图数据中特征信息值相同的所述顶点,连接所述各个案件的单图数据,得到所述待分析案件集合的图数据。
13.根据权利要求10所述的装置,其特征在于,所述图数据确定模块,包括:
第二图数据确定单元,用于将所述各个案件的单图数据的集合作为所述待分析案件集合的图数据。
14.根据权利要求10所述的装置,其特征在于,还包括:
指定子图生成指令接收模块,用于在接收到对指定特征信息的子图生成指令的情况下,在所述待分析案件集合的图数据中,确定所述指定特征信息对应的第一顶点,以及所述第一顶点连接的各个顶点;
指定子图生成模块,根据所述第一顶点以及所述第一顶点连接的各个顶点,生成所述指定特征信息的子图。
15.根据权利要求10所述的装置,其特征在于,还包括:
案件分析信息生成模块,用于根据所述频繁子图数据,生成案件分析信息;
案件分析报告生成模块,用于根据所述频繁子图数据和所述案件分析信息,生成案件分析报告。
16.一种案件分析数据处理设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
17.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910795004.6A CN110532317B (zh) | 2019-08-26 | 2019-08-26 | 案件分析数据处理方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910795004.6A CN110532317B (zh) | 2019-08-26 | 2019-08-26 | 案件分析数据处理方法、装置、设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532317A CN110532317A (zh) | 2019-12-03 |
CN110532317B true CN110532317B (zh) | 2022-06-14 |
Family
ID=68664349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910795004.6A Active CN110532317B (zh) | 2019-08-26 | 2019-08-26 | 案件分析数据处理方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532317B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391533A (zh) * | 2017-04-18 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 生成图形数据库查询结果的方法及装置 |
CN107591204A (zh) * | 2017-08-01 | 2018-01-16 | 山东大学 | 基于时序画像图的再住院预测方法和系统 |
CN107729466A (zh) * | 2017-10-12 | 2018-02-23 | 杭州中奥科技有限公司 | 关系网络的构建方法、装置及电子设备 |
CN109710712A (zh) * | 2018-12-17 | 2019-05-03 | 中国人民公安大学 | 一种基于案件要素分析的犯罪热点特征挖掘方法及系统 |
CN109783531A (zh) * | 2018-12-07 | 2019-05-21 | 北京明略软件系统有限公司 | 一种关系发现方法和装置、计算机可读存储介质 |
CN109918544A (zh) * | 2019-03-14 | 2019-06-21 | 重庆邮电大学 | 基于粗糙集的职务犯罪社会关系网络智能分析方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180159876A1 (en) * | 2016-12-05 | 2018-06-07 | International Business Machines Corporation | Consolidating structured and unstructured security and threat intelligence with knowledge graphs |
-
2019
- 2019-08-26 CN CN201910795004.6A patent/CN110532317B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391533A (zh) * | 2017-04-18 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 生成图形数据库查询结果的方法及装置 |
CN107591204A (zh) * | 2017-08-01 | 2018-01-16 | 山东大学 | 基于时序画像图的再住院预测方法和系统 |
CN107729466A (zh) * | 2017-10-12 | 2018-02-23 | 杭州中奥科技有限公司 | 关系网络的构建方法、装置及电子设备 |
CN109783531A (zh) * | 2018-12-07 | 2019-05-21 | 北京明略软件系统有限公司 | 一种关系发现方法和装置、计算机可读存储介质 |
CN109710712A (zh) * | 2018-12-17 | 2019-05-03 | 中国人民公安大学 | 一种基于案件要素分析的犯罪热点特征挖掘方法及系统 |
CN109918544A (zh) * | 2019-03-14 | 2019-06-21 | 重庆邮电大学 | 基于粗糙集的职务犯罪社会关系网络智能分析方法及系统 |
Non-Patent Citations (3)
Title |
---|
唐德权、张悦等.基于图数据挖掘算法的犯罪规律研究及应用.《计算机技术与发展》.2011,第21卷(第11期), * |
基于图数据挖掘算法的犯罪规律研究及应用;唐德权、张悦等;《计算机技术与发展》;20111110;第21卷(第11期);正文第1-3节 * |
有组织犯罪集团挖掘算法;唐德权等;《计算机系统应用》;20150915;第24卷(第9期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110532317A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zygmont et al. | Robust factor analysis in the presence of normality violations, missing data, and outliers: Empirical questions and possible solutions | |
Shi | Selection of bandwidth type and adjustment side in kernel density estimation over inhomogeneous backgrounds | |
Gueta et al. | Quantifying the value of user-level data cleaning for big data: A case study using mammal distribution models | |
CN111462845A (zh) | 动态表单生成方法、装置、计算机设备和存储介质 | |
CN107729376B (zh) | 保险数据审核方法、装置、计算机设备及存储介质 | |
US20130091138A1 (en) | Contextualization, mapping, and other categorization for data semantics | |
US7797356B2 (en) | Dynamically detecting exceptions based on data changes | |
CN113360580A (zh) | 基于知识图谱的异常事件检测方法、装置、设备及介质 | |
CN111104427A (zh) | 全球物流单号识别方法、装置、计算机设备及存储介质 | |
CN109690571A (zh) | 基于学习的组标记系统和方法 | |
CN110362481A (zh) | 自动测试方法及终端设备 | |
Garrido et al. | Do I get the privacy I need? Benchmarking utility in differential privacy libraries | |
Green et al. | Reading the leaves: A comparison of leaf rank and automated areole measurement for quantifying aspects of leaf venation | |
AU2021204470A1 (en) | Benefit surrender prediction | |
CN110532317B (zh) | 案件分析数据处理方法、装置、设备和可读存储介质 | |
CN111681730A (zh) | 医学影像报告的分析方法和计算机可读存储介质 | |
CN116168403A (zh) | 医疗数据分类模型训练方法、分类方法、装置及相关介质 | |
Amirian et al. | Data science and analytics | |
US20150170068A1 (en) | Determining analysis recommendations based on data analysis context | |
Khokhlov et al. | Data security and quality evaluation framework: Implementation empirical study on android devices | |
US10186058B2 (en) | Visualization of cross-pivoted data | |
CN114065194A (zh) | 异常接口申请的检测方法及其装置、电子设备及存储介质 | |
CN103488693A (zh) | 数据处理装置和数据处理方法 | |
Liu et al. | Log-rank-type tests for equality of distributions in high-dimensional spaces | |
Manhas et al. | Role of structural equation modelling in theory testing and development |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |