CN109684628A - 基于案情语义分析的案件智能推送方法及系统 - Google Patents
基于案情语义分析的案件智能推送方法及系统 Download PDFInfo
- Publication number
- CN109684628A CN109684628A CN201811413021.0A CN201811413021A CN109684628A CN 109684628 A CN109684628 A CN 109684628A CN 201811413021 A CN201811413021 A CN 201811413021A CN 109684628 A CN109684628 A CN 109684628A
- Authority
- CN
- China
- Prior art keywords
- case
- merit
- similarity
- sim
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000012163 sequencing technique Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 230000014509 gene expression Effects 0.000 description 6
- 238000011835 investigation Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000002716 delivery method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于案情语义分析的案件智能推送方法及系统,该方法包括以下步骤:S1,对案件的案情描述文本进行预处理,包括分词及词性标注、停用词去除;S2,根据预处理后的案情描述文本,提取案件的重要特征,构成案情的特征向量;S3,根据上述特征向量,关联相关案件,采用案件特征相似度计算方法获得该案件与各个相关案件的综合相似度,将相关案件按照相似度排序,推送相似度高的案件。通过本发明提供的方法及系统,可以减少案情分析手工处理的工作量,极大降低警务人员工作成本及时间成本,提高破案效率。
Description
技术领域
本发明涉及警用案情分析领域,尤其涉及一种基于案情语义分析的案件智能推送方法及系统。
背景技术
串案和并案(简称串并案)是侦破系列案件、特别是在个案侦查陷入困境时的常用方法。串并案分析是指通过对不同地域或不同时间的起案件中发现的各种痕迹、线索进行分析,找出其中可能为同一犯罪主体所为的案件,并把看似无关联的线索、物证进行综合分析,找出足够的证据锁定犯罪嫌疑人。当今社会,随着犯罪呈现职业化、团伙化、流窜化的趋势,系列案件占有相当大的比重,因此对若干有内在联系的不同案件进行串并,发现其规律和特征,可变个案侦查为串案侦查,使得侦查工作效益最大化。
公安系统经过多年的建设已经初见成效,但在公安情报工作的研究中尚处于起步阶段,尤其是对公安系统刑事案件的侦查决策方面的深入应用还较少见。目前公安系统已经积累了大量的案件及其相关数据,但对这些数据的使用方式多数还停留在传统的检索查询上,数据价值正在被浪费,为了避免“数据丰富,知识贫乏”的现象,应积极开展公共安全数据的分析挖掘方面的研究,尽早发现案事件的相似程度、发展趋势,进而探寻犯罪的规律与特点,进行必要的犯罪预测和预防。
现有技术中,通常会将预侦破的案件在公安系统里查询,从而得到该案件的串并案,然而这种方法无法将公安系统内的各个案件相互关联,无法将公安系统内的大量案件进行串并案分类,无法实现对相关案件及作案人员的推送,从而无法更有效的利用公安系统进行串并案分析。
发明内容
本发明的目的在于提供一种基于案情语义分析的案件智能推送方法及系统,旨在用于解决现有技术无法将公安系统内的各个案件相互关联,无法实现对相关案件的推送的问题。
本发明是这样实现的:
一方面,本发明提供一种基于案情语义分析的案件智能推送方法,包括以下步骤:
S1,对案件的案情描述文本进行预处理,包括分词及词性标注、停用词去除;
S2,根据预处理后的案情描述文本,提取案件的重要特征,构成案情的特征向量;
S3,根据上述特征向量,关联相关案件,采用案件特征相似度计算方法获得该案件与各个相关案件的综合相似度,将相关案件按照相似度排序,推送相似度高的案件。
进一步地,所述步骤S1具体包括:
S1.1,采用分词器对案情描述文本进行分词与词性标注,识别出里面的名词、动词和动名词;
S1.2,根据分词及词性标注的结果,结合专业停用词典以及无用词性字典,去除专有停用词以及无意义的词。
进一步地,所述步骤S2具体包括:
S2.1,利用字典以及词性标注从预处理后的案情描述文本中抽取案件的时间、地点、类别;
S2.2,根据分词的词性标注从预处理后的案情描述文本中提取出案件人名;
S2.3,根据预设的正则,从预处理后的案情描述文本中提取出案件的号码特征;
S2.4,将上述三个步骤抽取到的案件的特征进行合并,并进行去重处理,构成案情的特征向量。
进一步地,所述步骤S3具体包括:
S3.1,提取案情特征向量中的号码、人名和类别,按这三个特征关联相关案件;
S3.2,采用层次分析法获取类别、地点、时间、人名和号码在案件相似度分析中所占的权重;
S3.3,根据案件的类别、地点、时间、人名和号码,计算该案件与各个相关案件之间的综合相似度,计算案件X与案件Y之间的综合相似度的计算公式如下:
sim(X,Y)=α*sim_type(X,Y)+β*sim_place(X,Y)+γ*sim_time(X,Y)+δ*sim_name(X,Y)+ε*sim_number(X,Y),
其中sim_type(X,Y)、sim_place(X,Y)、sim_time(X,Y)、sim_name(X,Y)、sim_number(X,Y)分别指案件之间的类别相似度、地点相似度、时间相似度、人名相似度、号码相似度;α、β、γ、δ、ε分别指类别、地点、时间、人名、号码的权重;
S3.4,将相关案件按照相似度排序,推送相似度高的案件。
进一步地,案件之间的类别相似度的计算方法如下:
案件之间的时间相似度的计算方法如下:
案件之间的地点相似度的计算方法如下:
案件之间的人名相似度的计算方法如下:
案件之间的号码相似度的计算方法如下:
进一步地,该方法还包括:
S4,根据上述特征向量,对已破案件以及相关的违法犯罪人员进行分析,查询出关联人员,采用人员特征相似度计算方法获得人员相似度,推送出可能作案的高危人员。
另一方面,本发明还提供一种基于案情语义分析的案件智能推送系统,包括案情语义分析模块、案情特征提取模块和案件特征信息关联模块:
所述案情语义分析模块用于对案情描述文本进行预处理,包括分词及词性标注、停用词去除;
所述案情特征提取模块用于根据预处理后的案情描述文本,提取案件的重要特征,构成案情的特征向量;
所述案件特征信息关联模块用于将案件按照特征向量进行关联,采用案件特征相似度计算方法获得该案件与各个相关案件的综合相似度,将相关案件按照相似度排序,推送相似度高的案件。
进一步地,所述案情语义分析模块具体用于:
采用分词器对案情描述文本进行分词与词性标注,识别出里面的名词、动词和动名词;
根据分词及词性标注的结果,结合专业停用词典以及无用词性字典,去除专有停用词以及无意义的词。
进一步地,所述案情特征提取模块具体用于:
利用字典以及词性标注从预处理后的案情描述文本中抽取案件的时间、地点、类别;
根据分词的词性标注从预处理后的案情描述文本中提取出案件人名;
根据预设的正则,从预处理后的案情描述文本中提取出案件的号码特征;
将上述三个步骤抽取到的案件的特征进行合并,并进行去重处理,构成案情的特征向量。
进一步地,所述案件特征信息关联模块具体用于:
提取案情特征向量中的号码、人名和类别,按这三个特征关联相关案件;
采用层次分析法获取类别、地点、时间、人名和号码在案件相似度分析中所占的权重;
根据案件的类别、地点、时间、人名和号码,计算该案件与各个相关案件之间的综合相似度,计算案件X与案件Y之间的综合相似度的计算公式如下:
sim(X,Y)=α*sim_type(X,Y)+β*sim_place(X,Y)+γ*sim_time(X,Y)+δ*sim_name(X,Y)+ε*sim_number(X,Y),
其中sim_type(X,Y)、sim_place(X,Y)、sim_time(X,Y)、sim_name(X,Y)、sim_number(X,Y)分别指案件之间的类别相似度、地点相似度、时间相似度、人名相似度、号码相似度;α、β、γ、δ、ε分别指类别、地点、时间、人名、号码的权重;
将相关案件按照相似度排序,推送相似度高的案件。
与现有技术相比,本发明具有以下有益效果:
本发明提供的这种基于案情语义分析的案件智能推送方法及系统,能够快速、准确的对案件的案情描述文本进行分析处理并提取案件特征向量,根据案件的特征向量采用案件特征相似度计算方法获取案件间的综合相似度,并根据相似度进行排序并推送;通过本发明提供的方法及系统,可以减少案情分析手工处理的工作量,极大降低警务人员工作成本及时间成本,提高破案效率。
附图说明
图1为本发明实施例提供的一种基于案情语义分析的案件智能推送方法的流程图;
图2为本发明实施例提供的一种基于案情语义分析的案件智能推送方法的详细流程图;
图3为本发明实施例提供的一种基于案情语义分析的案件智能推送系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1和图2所示,本发明实施例提供一种基于案情语义分析的案件智能推送方法,包括以下步骤:
S1,对案件的案情描述文本进行预处理,包括分词及词性标注、停用词去除,其中,停用词包括无用词以及专有停用词;
优选地,所述步骤S1具体包括:
S1.1,采用分词器对案情描述文本进行分词及词性标注,识别出里面的名词、动词和动名词;
S1.2,根据分词及词性标注的结果,结合专业停用词典以及无用词性字典,去除专有停用词以及无意义的词。
在一个实施例中,采用中科院分词系统NLPIR对案情描述文本进行分词及词性标注。无用词的去除是指根据词性剔除对文本分类无用的词,例如拟声词、副词、介词和连词;专有停用词去除是指根据应用场景和原始文档特点,去除出现频率非常高但对分类无用的领域专有停用词,如“犯罪嫌疑人”、“受害人”、“价值”、“报案”等公安领域专有停用词。
S2,根据预处理后的案情描述文本,通过基于正则和词性相结合的方法提取案件的重要特征,包括案件的时间、人名、号码、地点以及类别,构成案情的特征向量。
优选地,所述步骤S2具体包括:
S2.1,利用字典以及词性标注从预处理后的案情描述文本中抽取案件的时间、地点、类别。在一个实施例中,对案发时间采用正则表达式“[\d]{4}年[\d]{2}月([\d]日)?”提取;利用某地区的街道用户字典提取出区域特征;采用案件类别关键字字典提取出案件类别特征。
S2.2,根据分词的词性标注从预处理后的案情描述文本中提取出案件人名;
S2.3,根据预设的正则,采用正则表达式从预处理后的案情描述文本中提取出案件的号码特征,包括身份证号、银行卡号、车牌号码、电话号码、QQ号、微信号等;
S2.4,将上述三个步骤抽取到的案件的特征进行合并,并进行去重处理,构成案情的特征向量。
S3,根据上述特征向量,关联相关案件,采用案件特征相似度计算方法获得该案件与各个相关案件的综合相似度,一并存储到数据库,将相关案件按照相似度排序,推送相似度高的案件。
优选地,所述步骤S3具体包括:
S3.1,提取案情特征向量中的号码、人名和类别,按这三个特征关联相关案件;
S3.2,采用层次分析法AHP(Analytic Hierarchy Process)获取类别、地点、时间、人名和号码在案件相似度分析中所占的权重,该方法是将与决策相关的元素分解成目标、准则和方案等层次,并在此基础上进行定性和定量的分析;
S3.3,根据案件的类别、地点、时间、人名和号码,计算该案件与各个相关案件之间的综合相似度,计算案件X与案件Y之间的综合相似度的计算公式如下:
sim(X,Y)=α*sim_type(X,Y)+β*sim_place(X,Y)+γ*sim_time(X,Y)+δ*sim_name(X,Y)+ε*sim_number(X,Y),
其中sim_type(X,Y)、sim_place(X,Y)、sim_time(X,Y)、sim_name(X,Y)、sim_number(X,Y)分别指案件之间的类别相似度、地点相似度、时间相似度、人名相似度、号码相似度;α、β、γ、δ、ε分别指类别、地点、时间、人名、号码的权重;案件类别包括刑事案件、民事案件、经济案件等;
S3.4,将相关案件按照相似度排序,推送相似度高的案件。
在一个实施例中,案件之间的类别相似度的计算方法如下:
案件之间的时间相似度的计算方法如下:
案件之间的地点相似度的计算方法如下:
案件之间的人名相似度的计算方法如下:
案件之间的号码相似度的计算方法如下:
上述方法中,引入特征相似度计算方法,综合考虑时间、地点、类别、人名和号码五个维度的特征,计算综合特征相似度,从而识别出相似度高的案件进行推送。
作为本实施例的优选,该方法还包括:
S4,根据上述特征向量,对已破案件以及相关的违法犯罪人员进行分析,查询出关联人员,采用人员特征相似度计算方法获得人员相似度,一并存储到数据库,推送出可能作案的高危人员。
上述步骤的具体流程与步骤S3类似,在此不再赘述。通过推送可能作案的高危人员,可帮助警务人员尽快破案,提高破案效率。
本发明实施例提供的这种基于案情语义分析的案件智能推送方法,能够快速、准确的对案件的案情描述文本进行分析处理并提取案件特征向量,根据案件的特征向量采用案件特征相似度计算方法获取案件间的综合相似度,将案情中的五个维度:时间、地点、类别、人名、号码利用层次分析法同时应用在相似度计算中,使得案件距离的描述更加准确;并根据特征向量进行关联,根据相似度进行排序并推送。通过该方法可以减少案情分析手工处理的工作量,极大降低警务人员工作成本及时间成本,提高破案效率。
以下结合一个公安串并案分析的实例具体阐述本发明提供的案件推送方法,具体包括如下步骤:
(1)案情语义分析:
对案件的案情描述文本进行预处理,包括中文分词及词性标注、停用词去除两部分;
实施例中,原始案情一描述文本为:“2018年5月6日上午,吉庆街13号黎文(421002197105035561)家中遭到撬门,两万余元人民币被盗”,经过预处理后得到关键词向量(2018年/t 5月/t 12日/t上午/t,/wd吉庆街/n 13/m号/q黎文/nr(/wkz421002197105035561/m)/wky家中/n遭到/v撬门/v,/wd两万/m余/m元/q人民币/n被盗/v。/wj);
原始案情二描述文本为:“2018年5月8日上午,吴红(4210021979009013261)将电动车停在前进五路17号的院内时被盗”,经过预处理后得到关键词向量(2018年/t 4月/t18日/t上午/t,/wd吴红/nr(/wkz4210021979009013261/m)/wky将/p电动车/n停/vi在/p前进五路/n 17/m号/q院内/s时/ng被盗/v。/wj);
(2)案件特征提取:
案件一:案发时间采用正则表达式“[\d]{4}年[\d]{2}月([\d]日)?”提取为“2018年5月6日上午”;利用地区的街道用户词典可提取出案发地点为“吉庆街13号”;利用案件类别关键词词典提取案件类别关键词为“家”、“撬门”、“被盗”;根据分词词性/nr提取出人名“黎文”;根据正则表达式提取出身份证号码是“421002197105035561”;通过案件特征提取步骤,将案件文本转化成特征向量;
案件二:案发时间采用正则表达式“[\d]{4}年[\d]{2}月([\d]日)?”提取为“2018年4月18日上午”;利用地区的街道用户词典可提取出案发地点为“前进五路17号”;利用案件类别关键词词典提取案件类别关键词为“院内”、“电动车”,“被盗”;根据分词词性/nr提取出人名“吴红”;根据正则表达式提取出身份证号码是“4210021979009013261”;通过案件特征提取步骤,将案件文本转化成特征向量;
(3)案情特征关联:
实施例中,两个案件特征向量分别为(2018年5月6日上午,青山街13号家中,撬门入室盗窃);和(2018年5月12日上午,前进五路17号,电动车被盗);两个案件之间的时间相似度与案件发生的日期和时段相关,案件发生的日期相差天数越小,发生具体时段越相近,时间相似度越高,计算获得案件时间相似度sim_time(X,Y)为0.1429;
地点相似度与案件发生的地理位置信息和案发场所信息相关;案件发生地点之间的地表距离越近,表明它们是串并案件的可能性越大;案件发生的场所相同,也表明是串并案件的可能性较大,计算获得案件地点相似度sim_place(P,Q)为0.05(两地的地表距离为9公里);
计算获得案件类别相似度sim_type(P,Q)为0.1667;
利用层次分析法AHP,根据初始判断矩阵A确定时间、地点、人名、号码和类别这五个维度相似度的权重分别为0.0276、0.0944、0.1563、0.1837和0.5380;其中,根据三个维度的权重以及三个维度的相似度,获得两个案件的综合相似度sim(P,Q)=0.5380*sim_type(P,Q)+0.0944*sim_time(P,Q)+0.1563*sim_place(P,Q)++0.1837*sim_number(P,Q)+0.0276*sim_name(P,Q);其具体值为0.2598,以案件之间的综合相似度,从而识别出相似度高的案件并推送。
基于同一发明构思,本发明实施例还提供了一种基于案情语义分析的案件智能推送系统,由于该系统所解决问题的原理与前述实施例一种基于案情语义分析的案件智能推送方法相似,因此该系统的实施可以参见前述方法的实施,重复之处不再赘述。
下述为本发明实施例提供的一种基于案情语义分析的案件智能推送系统,可以用于执行上述方法实施例。
如图3所示,该系统包括案情语义分析模块、案情特征提取模块和案件特征信息关联模块。
所述案情语义分析模块101用于对案情描述文本进行预处理,包括分词及词性标注、停用词去除;
所述案情特征提取模块102用于根据预处理后的案情描述文本,提取案件的重要特征,构成案情的特征向量;
所述案件特征信息关联模块103用于将案件按照特征向量进行关联,采用案件特征相似度计算方法获得该案件与各个相关案件的综合相似度,将相关案件按照相似度排序,推送相似度高的案件。
优选地,所述案情语义分析模块101具体用于:
采用分词器对案情描述文本进行分词与词性标注,识别出里面的名词、动词和动名词;
根据分词及词性标注的结果,结合专业停用词典以及无用词性字典,去除专有停用词以及无意义的词。
优选地,所述案情特征提取模块102具体用于:
利用字典以及词性标注从预处理后的案情描述文本中抽取案件的时间、地点、类别;
根据分词的词性标注从预处理后的案情描述文本中提取出案件人名;
根据预设的正则,从预处理后的案情描述文本中提取出案件的号码特征;
将上述三个步骤抽取到的案件的特征进行合并,并进行去重处理,构成案情的特征向量。
优选地,所述案件特征信息关联模块103具体用于:
提取案情特征向量中的号码、人名和类别,按这三个特征关联相关案件;
采用层次分析法获取类别、地点、时间、人名和号码在案件相似度分析中所占的权重;
根据案件的类别、地点、时间、人名和号码,计算该案件与各个相关案件之间的综合相似度,计算案件X与案件Y之间的综合相似度的计算公式如下:
sim(X,Y)=α*sim_type(X,Y)+β*sim_place(X,Y)+γ*sim_time(X,Y)+δ*sim_name(X,Y)+ε*sim_number(X,Y),
其中sim_type(X,Y)、sim_place(X,Y)、sim_time(X,Y)、sim_name(X,Y)、sim_number(X,Y)分别指案件之间的类别相似度、地点相似度、时间相似度、人名相似度、号码相似度;α、β、γ、δ、ε分别指类别、地点、时间、人名、号码的权重;
将相关案件按照相似度排序,推送相似度高的案件。
作为本实施例的优选,该系统还包括违法人员信息关联模块,所述违法人员信息关联模块用于根据所述案情特征提取模块102获得的特征向量,对已破案件以及相关的违法犯罪人员进行分析,查询出关联人员,采用人员特征相似度计算方法获得人员相似度,一并存储到数据库,推送出可能作案的高危人员。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于案情语义分析的案件智能推送方法,其特征在于,包括以下步骤:
S1,对案件的案情描述文本进行预处理,包括分词及词性标注、停用词去除;
S2,根据预处理后的案情描述文本,提取案件的重要特征,构成案情的特征向量;
S3,根据上述特征向量,关联相关案件,采用案件特征相似度计算方法获得该案件与各个相关案件的综合相似度,将相关案件按照相似度排序,推送相似度高的案件。
2.如权利要求1所述的基于案情语义分析的案件智能推送方法,其特征在于,所述步骤S1具体包括:
S1.1,采用分词器对案情描述文本进行分词与词性标注,识别出里面的名词、动词和动名词;
S1.2,根据分词及词性标注的结果,结合专业停用词典以及无用词性字典,去除专有停用词以及无意义的词。
3.如权利要求1所述的基于案情语义分析的案件智能推送方法,其特征在于,所述步骤S2具体包括:
S2.1,利用字典以及词性标注从预处理后的案情描述文本中抽取案件的时间、地点、类别;
S2.2,根据分词的词性标注从预处理后的案情描述文本中提取出案件人名;
S2.3,根据预设的正则,从预处理后的案情描述文本中提取出案件的号码特征;
S2.4,将上述三个步骤抽取到的案件的特征进行合并,并进行去重处理,构成案情的特征向量。
4.如权利要求1所述的基于案情语义分析的案件智能推送方法,其特征在于,所述步骤S3具体包括:
S3.1,提取案情特征向量中的号码、人名和类别,按这三个特征关联相关案件;
S3.2,采用层次分析法获取类别、地点、时间、人名和号码在案件相似度分析中所占的权重;
S3.3,根据案件的类别、地点、时间、人名和号码,计算该案件与各个相关案件之间的综合相似度,计算案件X与案件Y之间的综合相似度的计算公式如下:
sim(X,Y)=α*sim_type(X,Y)+β*sim_place(X,Y)+γ*sim_time(X,Y)+δ*sim_name(X,Y)+ε*sim_number(X,Y),
其中sim_type(X,Y)、sim_place(X,Y)、sim_time(X,Y)、sim_name(X,Y)、sim_number(X,Y)分别指案件之间的类别相似度、地点相似度、时间相似度、人名相似度、号码相似度;α、β、γ、δ、ε分别指类别、地点、时间、人名、号码的权重;
S3.4,将相关案件按照相似度排序,推送相似度高的案件。
5.如权利要求4所述的基于案情语义分析的案件智能推送方法,其特征在于:
案件之间的类别相似度的计算方法如下:
案件之间的时间相似度的计算方法如下:
案件之间的地点相似度的计算方法如下:
案件之间的人名相似度的计算方法如下:
案件之间的号码相似度的计算方法如下:
6.如权利要求1所述的基于案情语义分析的案件智能推送方法,其特征在于,该方法还包括:
S4,根据上述特征向量,对已破案件以及相关的违法犯罪人员进行分析,查询出关联人员,采用人员特征相似度计算方法获得人员相似度,推送出可能作案的高危人员。
7.一种基于案情语义分析的案件智能推送系统,其特征在于:包括案情语义分析模块、案情特征提取模块和案件特征信息关联模块:
所述案情语义分析模块用于对案情描述文本进行预处理,包括分词及词性标注、停用词去除;
所述案情特征提取模块用于根据预处理后的案情描述文本,提取案件的重要特征,构成案情的特征向量;
所述案件特征信息关联模块用于将案件按照特征向量进行关联,采用案件特征相似度计算方法获得该案件与各个相关案件的综合相似度,将相关案件按照相似度排序,推送相似度高的案件。
8.如权利要求7所述的基于案情语义分析的案件智能推送系统,其特征在于,所述案情语义分析模块具体用于:
采用分词器对案情描述文本进行分词与词性标注,识别出里面的名词、动词和动名词;
根据分词及词性标注的结果,结合专业停用词典以及无用词性字典,去除专有停用词以及无意义的词。
9.如权利要求7所述的基于案情语义分析的案件智能推送系统,其特征在于,所述案情特征提取模块具体用于:
利用字典以及词性标注从预处理后的案情描述文本中抽取案件的时间、地点、类别;
根据分词的词性标注从预处理后的案情描述文本中提取出案件人名;
根据预设的正则,从预处理后的案情描述文本中提取出案件的号码特征;
将上述三个步骤抽取到的案件的特征进行合并,并进行去重处理,构成案情的特征向量。
10.如权利要求7所述的基于案情语义分析的案件智能推送系统,其特征在于,所述案件特征信息关联模块具体用于:
提取案情特征向量中的号码、人名和类别,按这三个特征关联相关案件;
采用层次分析法获取类别、地点、时间、人名和号码在案件相似度分析中所占的权重;
根据案件的类别、地点、时间、人名和号码,计算该案件与各个相关案件之间的综合相似度,计算案件X与案件Y之间的综合相似度的计算公式如下:
sim(X,Y)=α*sim_type(X,Y)+β*sim_place(X,Y)+γ*sim_time(X,Y)+δ*sim_name(X,Y)+ε*sim_number(X,Y),
其中sim_type(X,Y)、sim_place(X,Y)、sim_time(X,Y)、sim_name(X,Y)、sim_number(X,Y)分别指案件之间的类别相似度、地点相似度、时间相似度、人名相似度、号码相似度;α、β、γ、δ、ε分别指类别、地点、时间、人名、号码的权重;
将相关案件按照相似度排序,推送相似度高的案件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811413021.0A CN109684628A (zh) | 2018-11-23 | 2018-11-23 | 基于案情语义分析的案件智能推送方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811413021.0A CN109684628A (zh) | 2018-11-23 | 2018-11-23 | 基于案情语义分析的案件智能推送方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684628A true CN109684628A (zh) | 2019-04-26 |
Family
ID=66185854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811413021.0A Pending CN109684628A (zh) | 2018-11-23 | 2018-11-23 | 基于案情语义分析的案件智能推送方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684628A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN110162790A (zh) * | 2019-05-24 | 2019-08-23 | 贵州大学 | 一种基于神经网络的犯罪行为识别方法 |
CN110390083A (zh) * | 2019-06-17 | 2019-10-29 | 平安科技(深圳)有限公司 | 近似案件的推送方法、装置、计算机设备和存储介质 |
CN110909542A (zh) * | 2019-11-15 | 2020-03-24 | 珠海市新德汇信息技术有限公司 | 智能语义串并分析方法及系统 |
CN111144068A (zh) * | 2019-11-26 | 2020-05-12 | 方正璞华软件(武汉)股份有限公司 | 一种相似仲裁案件推荐方法及装置 |
CN111159387A (zh) * | 2019-12-12 | 2020-05-15 | 北京睿企信息科技有限公司 | 基于多维度报警信息文本相似度分析的推荐方法 |
CN111753872A (zh) * | 2020-05-12 | 2020-10-09 | 高新兴科技集团股份有限公司 | 串并案关联性分析方法、装置、设备和存储介质 |
CN111797247A (zh) * | 2020-09-10 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的案件推送方法、装置、电子设备及介质 |
CN114090798A (zh) * | 2021-11-12 | 2022-02-25 | 盐城金堤科技有限公司 | 文本的去重方法及装置、计算机存储介质、电子设备 |
CN116433051A (zh) * | 2023-06-09 | 2023-07-14 | 中国人民公安大学 | 一种城市区域警务策略动态调整方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011085991A (ja) * | 2009-10-13 | 2011-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法、文書検索装置、文書検索プログラム |
CN106294319A (zh) * | 2016-08-04 | 2017-01-04 | 武汉数为科技有限公司 | 一种串并案识别方法 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
-
2018
- 2018-11-23 CN CN201811413021.0A patent/CN109684628A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011085991A (ja) * | 2009-10-13 | 2011-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法、文書検索装置、文書検索プログラム |
CN106294319A (zh) * | 2016-08-04 | 2017-01-04 | 武汉数为科技有限公司 | 一种串并案识别方法 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
Non-Patent Citations (1)
Title |
---|
杨玉章: "三定侦查法实战应用研究", 河南科学技术出版社, pages: 0352 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN110162790A (zh) * | 2019-05-24 | 2019-08-23 | 贵州大学 | 一种基于神经网络的犯罪行为识别方法 |
CN110390083A (zh) * | 2019-06-17 | 2019-10-29 | 平安科技(深圳)有限公司 | 近似案件的推送方法、装置、计算机设备和存储介质 |
CN110390083B (zh) * | 2019-06-17 | 2023-12-22 | 平安科技(深圳)有限公司 | 近似案件的推送方法、装置、计算机设备和存储介质 |
CN110909542B (zh) * | 2019-11-15 | 2023-11-21 | 珠海市新德汇信息技术有限公司 | 智能语义串并分析方法及系统 |
CN110909542A (zh) * | 2019-11-15 | 2020-03-24 | 珠海市新德汇信息技术有限公司 | 智能语义串并分析方法及系统 |
CN111144068A (zh) * | 2019-11-26 | 2020-05-12 | 方正璞华软件(武汉)股份有限公司 | 一种相似仲裁案件推荐方法及装置 |
CN111159387A (zh) * | 2019-12-12 | 2020-05-15 | 北京睿企信息科技有限公司 | 基于多维度报警信息文本相似度分析的推荐方法 |
CN111159387B (zh) * | 2019-12-12 | 2024-03-29 | 北京睿企信息科技有限公司 | 基于多维度报警信息文本相似度分析的推荐方法 |
CN111753872A (zh) * | 2020-05-12 | 2020-10-09 | 高新兴科技集团股份有限公司 | 串并案关联性分析方法、装置、设备和存储介质 |
CN111797247A (zh) * | 2020-09-10 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的案件推送方法、装置、电子设备及介质 |
CN114090798A (zh) * | 2021-11-12 | 2022-02-25 | 盐城金堤科技有限公司 | 文本的去重方法及装置、计算机存储介质、电子设备 |
CN116433051B (zh) * | 2023-06-09 | 2023-08-18 | 中国人民公安大学 | 一种城市区域警务策略动态调整方法和系统 |
CN116433051A (zh) * | 2023-06-09 | 2023-07-14 | 中国人民公安大学 | 一种城市区域警务策略动态调整方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684628A (zh) | 基于案情语义分析的案件智能推送方法及系统 | |
CN108073569B (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
CN112380318A (zh) | 基于标签相似度的企业政策匹配方法 | |
US20070112838A1 (en) | Method and system for classifying media content | |
CN106156365A (zh) | 一种知识图谱的生成方法及装置 | |
CN106294319A (zh) | 一种串并案识别方法 | |
CN109597889B (zh) | 一种基于文本分类和深度神经网络的定罪方法和系统 | |
CN101075251A (zh) | 一种基于数据挖掘的文本搜索方法 | |
CN109711613A (zh) | 一种基于人员关系模型和事件关联模型的预警方法及系统 | |
Nomoto | NEAL: A neurally enhanced approach to linking citation and reference | |
CN115828112A (zh) | 一种故障事件的响应方法、装置、电子设备及存储介质 | |
Basilio et al. | Identification of operational demand in law enforcement agencies: An application based on a probabilistic model of topics | |
CN110188341A (zh) | 一种警情分析系统 | |
Pradhan et al. | Exploratory data analysis and crime prediction for smart cities | |
Shabat et al. | Named entity recognition in crime using machine learning approach | |
CN111611404A (zh) | 一种基于地质文本语料预测目标区矿产的方法 | |
Kotsiantis et al. | Multimedia mining. | |
Bali et al. | Clustering Technique Approach to Detect the Special Patterns for Medical Video Mining | |
Peng et al. | A machine learning-based framework for mobile forensics | |
Li et al. | Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis | |
Hou et al. | A Document Content Extraction Model Using Keyword Correlation Analysis. | |
CN109977193B (zh) | 一种基于语义分析技术的赌博人员识别方法 | |
Leveling et al. | On metonymy recognition for geographic IR. | |
Alruily et al. | Crime type document classification from arabic corpus | |
EP1876539A1 (en) | Method and system for classifying media content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |
|
RJ01 | Rejection of invention patent application after publication |