CN111259951A - 案件检测方法、装置、电子设备及可读存储介质 - Google Patents

案件检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111259951A
CN111259951A CN202010034236.2A CN202010034236A CN111259951A CN 111259951 A CN111259951 A CN 111259951A CN 202010034236 A CN202010034236 A CN 202010034236A CN 111259951 A CN111259951 A CN 111259951A
Authority
CN
China
Prior art keywords
case
machine learning
learning model
current
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010034236.2A
Other languages
English (en)
Inventor
杨鹏飞
李亮
李尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202010034236.2A priority Critical patent/CN111259951A/zh
Publication of CN111259951A publication Critical patent/CN111259951A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Abstract

本申请提供一种案件检测方法、装置、电子设备及可读存储介质。方法包括:获取当前案件的第一案件信息;将第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由第一机器学习模型对当前案件进行分类的分类结果,以及得到由第二机器学习模型从第一案件信息提取的案件特征;基于分类结果及案件特征,生成当前案件的特征码,特征码包括分别与分类结果及案件特征对应的码段,用于检测当前案件与历史案件的相似度。在本方案中,分别利用第一机器学习模型、第二机器学习模型对第一案件信息进行识别,以得到当前案件的分类结果及案件特征,有利于提高得到分类结果及案件特征的准确性,从而有利于改善案件相似度检测的准确性差的问题。

Description

案件检测方法、装置、电子设备及可读存储介质
技术领域
本发明涉及计算机数据处理技术领域,具体而言,涉及一种案件检测方法、装置、电子设备及可读存储介质。
背景技术
在日常的案件侦破中,随着时间推移将逐渐积累越来越多的案件,使得历史案件中可能存在与当前案件关联或相似的案件。侦破人员在侦破当前的案件时,可以通过与当前案件相似的已破案件提供侦破思路和经验,或者基于与当前案件相似未破案件合并线索,串并侦破。目前,在检测案件相似度的过程中,受限于目前的数据分析处理方式,使得检测的案件的相似度准确性差。
发明内容
本申请提供一种案件检测方法、装置、电子设备及可读存储介质,能够改善案件相似度检测的准确性差的问题。
为了实现上述目的,本申请实施例所提供的技术方案如下所示:
第一方面,本申请实施例提供一种案件检测方法,所述方法包括:
获取当前案件的第一案件信息;
将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由所述第一机器学习模型对所述当前案件进行分类的分类结果,以及得到由所述第二机器学习模型从所述第一案件信息提取的案件特征;
基于所述分类结果及所述案件特征,生成所述当前案件的特征码,所述特征码包括分别与所述分类结果及所述案件特征对应的码段,用于检测所述当前案件与历史案件的相似度。
在上述的实施方式中,分别利用第一机器学习模型、第二机器学习模型对第一案件信息进行识别,以得到当前案件的分类结果及案件特征,有利于提高得到分类结果及案件特征的准确性。另外,利用当前案件的分类结果及案件特征生成特征码,有利于利用特征码检测当前案件与历史案件的相似度,从而有利于改善案件相似度检测的准确性差的问题。
结合第一方面,在一些可选的实施方式中,所述方法还包括:
基于所述特征码及每个历史案件的特征码,确定所述当前案件与每个历史案件的相似度;
从所述历史案件中选取指定数量的相似度最大的案件为所述当前案件的相似案件。
在上述的实施方式中,通过基于相似度确定与当前案件的相似案件,有利于提高相似案件与当前案件的关联程度,进而有利于用户利用相似案件提高案件侦破的效率。
结合第一方面,在一些可选的实施方式中,所述方法还包括:
基于所述当前案件、所述相似案件、获取的与所述相似案件对应的相似案件,生成案件关系图。
在上述的实施方式中,关系图可以将相似度较低的两案件间接联系在一起,从而有利于提高案件关联的可靠性,避免存在联系的两个或多个案件因直接相似度较低而被忽略。
结合第一方面,在一些可选的实施方式中,所述基于所述特征码及每个历史案件的特征码,确定所述当前案件与每个历史案件的相似度,包括:
基于所述当前案件的所述特征码与每个历史案件的特征码的汉明距离,确定所述当前案件与每个历史案件的相似度,其中,所述特征码中同一位置的码段的特征属性及字节长度相同。
在上述的实施方式中,特征码中同一位置的码段的特征属性及字节长度相即为统一案件的特征码的格式,在特征码格式统一后,有利于通过汉明距离快速确定当前案件与历史案件之间的相似度。
结合第一方面,在一些可选的实施方式中,在所述将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型之前,所述方法还包括:
获取用于训练的案件信息集合,所述案件信息集合包括多个案件对应的第二案件信息,每个所述第二案件信息包括案件的分类标注;
通过所述案件信息集合训练第一机器学习模型,得到经过训练的所述第一机器学习模型,以对所述第一案件信息分类;
通过所述案件信息集合训练第二机器学习模型,得到经过训练的所述第二机器学习模型,以从所述第一案件信息提取案件特征,其中,训练所述第二机器学习模型的每个所述第二案件信息包括案件特征标注。
在上述的实施方式中,分别对第一机器学习模型、第二机器学习模型进行训练,使得第一机器学习模型、第二机器学习模型可以分别对案件信息进行分类及案件特征的提取。
结合第一方面,在一些可选的实施方式中,所述第一机器学习模型包括BERT模型,所述第二机器学习模型包括BERT模型、BiLSTM模型及CRF模型。
结合第一方面,在一些可选的实施方式中,所述案件特征包括作案手段、作案时间、侵害对象中的至少一种。
第二方面,本申请实施例还提供一种案件检测装置,所述装置包括:
获取单元,用于获取当前案件的第一案件信息;
输入单元,用于将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由所述第一机器学习模型对所述当前案件进行分类的分类结果,以及得到由所述第二机器学习模型从所述第一案件信息提取的案件特征;
特征检测单元,用于基于所述分类结果及所述案件特征,生成所述当前案件的特征码,所述特征码包括分别与所述分类结果及所述案件特征对应的码段,用于检测所述当前案件与历史案件的相似度。
第三方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的存储器、处理器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构示意图。
图2为本申请实施例提供的案件检测方法的流程示意图。
图3为本申请实施例提供的基于案件检测方法得到的案件关系图的示意图。
图4为本申请实施例提供的案件检测装置的功能框图。
图标:10-电子设备;11-处理模块;12-存储模块;100-案件检测装置;110-获取单元;120-输入单元;130-特征检测单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面结合附图,对本申请实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,本申请实施例提供一种电子设备10,可以基于案件的案件信息对案件进行分类,以及从案件信息中提取案件的案件特征。其中,案件的分类及案件特征可以根据实际情况进行设置。例如,案件特征可以包括但不限于作案手段、作案时机、侵害对象。案件的分类结果为根据案件的作案手段、案发场所、受损物品等要素对案件进行精细划分得到的分类,分类结果可以包括但不限于攀爬入室盗窃、暴力开锁入室盗窃、技术开锁入室盗窃、盗窃便利店、抢夺首饰、拾物平分等。
在本实施例中,电子设备10可以包括相互耦合的存储模块12、处理模块11,存储模块12内存储计算机程序,当计算机程序被处理模块11执行时,使得电子设备10执行下述的案件检测方法。
当然,电子设备10还可以包括其他模块,例如,电子设备10还可以包括用于通信的通信模块。处理模块11、存储模块12、通信模块各个元件之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
电子设备10可以是,但不限于,个人电脑(Personal Computer,PC)、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动上网设备(Mobile InternetDevice,MID)、服务器等。网络可以是,但不限于,有线网络或无线网络。
请参照图2,本申请实施例还提供一种案件检测方法,可以应用于上述的电子设备10,由电子设备10执行或实现案件检测方法中的各步骤,能够改善对案件之间相似度检测的准确性及可靠性差的问题。在本实施例中,案件检测方法可以包括步骤S210至步骤S230,如下:
步骤S210,获取当前案件的第一案件信息;
步骤S220,将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由所述第一机器学习模型对所述当前案件进行分类的分类结果,以及得到由所述第二机器学习模型从所述第一案件信息提取的案件特征;
步骤S230,基于所述分类结果及所述案件特征,生成所述当前案件的特征码,所述特征码包括分别与所述分类结果及所述案件特征对应的码段,用于检测所述当前案件与历史案件的相似度。
在上述的实施方式中,通过利用第一机器学习模型、第二机器学习模型分别对第一案件信息进行识别,以得到当前案件的分类结果及案件特征,有利于提高得到分类结果及案件特征的准确性。另外,利用当前案件的分类结果及案件特征生成特征码,有利于利用特征码检测当前案件与历史案件的相似度,从而有利于改善案件相似度检测的准确性差的问题。
下面将对图2中所示的案件检测方法中的各步骤进行详细阐述,如下:
步骤S210,获取当前案件的第一案件信息。
在本实施例中,当前案件为当前需要进行处理的案件,可以称为待处理案件。当前案件的案件信息即为第一案件信息。当前案件的信息可以根据实际情况由人员记录得到。案件信息包括人员收集、录入的文本信息,文本信息的文字内容用于描述案件的详细情况,可以根据实际情况录入得到。例如,案件信息可以包括人员录入的作案工具、作案手段、作案时间、作案地点、侵害对象其中一项或多项内容。
人员在录入得到案件的案件信息后,当需要对该案件进行分析处理时,便可以将该案件的案件信息输入至电子设备10,电子设备10所接收到的案件信息即为获取的第一案件信息。
若电子设备10为终端设备,则用户可以直接在该终端设备上录入案件的案件信息,或者,将预先完成录入的案件的案件信息输入至终端设备,以使电子设备10获取到案件的案件信息。
若电子设备10为服务器,用户可以将案件信息通过终端设备传输至服务器,以供服务器对案件信息进行后续的分析处理,然后由服务器将分析处理得到的结果发送至终端设备。终端设备可以是但不限于个人电脑、智能手机等。
步骤S220,将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由所述第一机器学习模型对所述当前案件进行分类的分类结果,以及得到由所述第二机器学习模型从所述第一案件信息提取的案件特征。
可理解地,在得到案件的第一案件信息后,电子设备10可以将案件信息分别输入经过训练的第一机器学习模型、第二机器学习模型,由第一机器学习模型、第二机器学习模型对案件信息自动进行分析处理。其中,第二机器学习模型可以从第一案件信息中提取得到第一案件的案件特征。案件特征包括但不限于作案手段、作案时机、侵害对象等属性的特征。
作案手段、作案时机、侵害对象等属性的具体案件特征可以根据第一案件信息的内容而确定。例如,作案手段可以包括但不限于作案工具、采用作案工具的作案方式。作案时机包括但不限于作案时间、作案天气、作案场景。作案时间可以包括特殊日期。特殊日期可以根据实际情况进行确定,例如特殊日期可以包括但不限于侵害对象的发薪日期、节假日等。作案场景可以包括特殊场景。特殊场景可以根据实际情况进行确定,例如,特殊场景可以包括但不限于取款场景、公交、地铁、拥挤的公共场所等。
在本实施例中,第一机器学习模型可以用于对案件进行分类,并输出案件的分类结果。例如,第一机器学习模型可以包括BERT(英文全称为Bidirectional EncoderRepresentations from Transformers)模型。可理解地,BERT模型为一种神经网络模型,经过训练的BERT模型可以对文本内容的语义进行解析从而能够对文本内容的语义对文本进行分类。当然,第一机器学习模型也可以为其他用于文本语义分类的模型,这里不做具体限定。
第二机器学习模型可以从案件信息中提取得到案件特征,并输出所提取得到的案件特征。在第二机器学习模型中,可以包括多个相互配合的神经网络模型,以提高从案件信息中提取案件特征的准确性及可靠性。例如,第二机器学习模型可以包括BERT模型、BiLSTM(英文全称为Bi-directional Long Short-Term Memory)模型及CRF(ConditionalRandomField,条件随机场)模型。组合BERT模型、BiLSTM模型及CRF模型得到的第二机器学习模型可以称为BERT+BiLSTM+CRF模型。
当然,第二机器模型还可以为其他模型的组合。例如,第二机器模型可以为BiLSTM模型与CRF模型组合。或者,第二机器学习模型可以为IDCNN模型与CRF模型的组合。
在本实施例中,经过训练的第二机器学习模型中的BERT模型可以用于对案件信息的文本内容做分词、分类处理。BiLSTM模型由前向LSTM与后向LSTM组合而成。经过训练的BiLSTM模型可以在文本的自然语言处理任务中,分析上下文信息。CRF模型在训练过程中可以为一个案件特征进行标注的过程中,可以利用BiLSTM模型得到的上下文特征信息,以提高后续提取案件特征的准确性及可靠性。经过训练的第二机器学习模型,可以通过BERT模型、BiLSTM模型及CRF模型相互配合,能够提高从第一案件信息中提取案件特征的准确性及可靠性。
其中,BiLSTM模型输出的数据(包括对案件信息的文本内容进行分词处理得到的分词结果)可以作为BiLSTM模型的输入数据,BiLSTM模型的输出数据(包括基于分词结果的进行上下文分析得到的上下文特征信息)可以作为CRF模型的输入数据,CRF模型的输出数据即为从案件信息中提取得到的案件特征。
在步骤S220之前,方法还可以包括对第一机器学习模型、第二机器学习模型进行模型训练的步骤。例如,在步骤S220之前,方法还可以包括:获取用于训练的案件信息集合,所述案件信息集合包括多个案件对应的第二案件信息,每个所述第二案件信息包括案件的分类标注;通过所述案件信息集合训练第一机器学习模型,得到经过训练的所述第一机器学习模型,以对所述第一案件信息分类;通过所述案件信息集合训练第二机器学习模型,得到经过训练的所述第二机器学习模型,以从所述第一案件信息提取案件特征,其中,训练所述第二机器学习模型的每个所述第二案件信息包括案件特征标注。
在本实施例中,用于模型训练的案件信息集合所包括案件信息的数量可以根据实际情况进行确定,例如,案件信息集合所包括案件信息的数量可以为百个以上,千个以上,万个以上的数量。通常而言,案件信息集合所包括的案件信息的数量越多,训练得到的模型的识别检测的准确性越高。
第二案件信息即为训练模型时所获取的案件的案件信息。电子设备10可以利用案件信息集合分别对第一机器学习模型、第二机器学习模型进行训练。在对第一机器学习模型进行训练时,训练所用的案件信息集合中的每个案件信息包括相应的分类标注。该分类标注可以是人工对案件信息中的文本字段进行的分类标注。例如,用户可以针对每个案件的作案手段、案发场所、受损物品等要素对案件进行精细划分(如攀爬入室盗窃、暴力开锁入室盗窃、技术开锁入室盗窃、盗窃便利店、抢夺首饰、拾物平分等),通过对案件细类的字段进行标注,形成用于训练第一机器学习模型的案件信息集合。
分类标注即为对案件信息中的字段所表示的案件类型进行标识。分类标注可以根据实际情况进行设置,例如可以包括攀爬入室盗窃、暴力开锁入室盗窃等分类标注。案件特征标注即为对案件信息中的字段对应的特征属性进行标注。
例如,对作案手段、作案时机等案件特征属性进行标注。比如,将案件信息中存在的如“早上:6:30-8:00”、“上午:8:00-11:30”、“中午:11:30-14:00”、“下午:14:00---17:30”、“晚上:17:30至第二天早晨6:30”作为标注为作案时间,将案件信息中存在的如“刀”、“棍棒”、“胶带”标注为作案工具。将“偷盗”、“抢劫”等标注为作案手段。将“晴”、“雾”、“雨”等标注为作案天气。将“学生”、“夜归女性”、“医院病人家属”等标注为侵害对象。当然,标注的内容还可以为其他内容,这里不再一一赘述。通过对案件信息中的相应字段内容进行精细化的分类标注、案件特征标注,可以使得第一、第二机器学习模型对所标注的内容进行学习,从而使得第一、第二机器学习模型在完成训练后,可以分别实现对案件信息的自动分类、从案件信息中自动提取案件特征。
若第一机器学习模型为BERT模型,在模型训练期间,可以通过BERT预训练神经网络算法,利用案件信息集合训练BERT模型,完成模型的训练后。还可以通过案件信息对BERT模型进行测试,在测试期间,可以将BERT模型输出的存在错误的结果进行修正,从而提高BERT模型对案件信息分类的准确性。在完成BERT模型的测试后,所得到的BERT模型即为经过训练的BERT模型,可以用于对实现自动化高精度的案件细类划分。另外,针对案情信息较少的案件,通过案件信息中的所属细分类,也能实现案件的精细划分。
同样地,在对第二机器学习模型进行训练时,对第二机器学习模型中的各个模型的训练方式与上述的训练BERT模型的方式相类似。区别在于,用于训练第二机器学习模型中的案件信息集合中的标注与训练第一机器学习模型的标注不相同。在训练第一机器学习模型期间,案件信息集合中的每个案件信息的标注为案件的分类标注;在训练第二机器学习模型期间,案件信息集合中的每个案件信息的标注为案件特征标注。
例如,若第二机器学习模型为BERT+BiLSTM+CRF模型,则需要对BERT模型、BiLSTM模型及CRF模型进行训练。其中,电子设备10可以自动将BERT模型、BiLSTM模型及CRF模型集成在一个机器学习模型中,在模型训练期间,电子设备10通过将具有案件特征标注的案件信息集合输入至BERT+BiLSTM+CRF模型,自动进行模型训练。在完成训练后,可以对模型进行测试,即,将BERT+BiLSTM+CRF模型输出的错误结果进行修正,以提高BERT+BiLSTM+CRF模型的准确性。完成模型的测试后,所得到的模型即为经过训练的第二机器学习模型。
步骤S230,基于所述分类结果及所述案件特征,生成所述当前案件的特征码,所述特征码包括分别与所述分类结果及所述案件特征对应的码段,用于检测所述当前案件与历史案件的相似度。
在本实施例中,案件特征码可以为文字、或与文字对应的数字,可以作为案件信息的多个维度的词向量,每个维度对应特征码中的一个码段。案件特征码的格式通常为统一格式,以便于后续利用各个案件的案件特征码进行案件相似度的识别。案件特征码的格式可以由用户根据实际情况进行设置。
例如,案件特征码的通用表达式可以为CaseFeature=[案件分类|作案手段|作案时机|侵害对象],CaseFeature即为案件特征码,以便于通过比对案件之间的特征码来识别案件之间的相似度。[]内的“案件分类”、“作案手段”、“作案时机”、“侵害对象”分别为案件特征码的相应特征属性。每个特征属性对应一个码段。在上述的通用表达式中,案件特征码包括4个码段。当然,案件特征码还可以包括其他特征属性的码段,或者对已有的码段的属性进行细分,得到更多的码段,这里对特征码的格式不再赘述。
例如,假设,当前案件的案件分类为“攀爬入室盗窃”,其码段为“0001”;作案手段为“攀爬偷盗”,其码段为“0001”;作案时机为“17:30-6:30”,其码段为“0001”;侵害对象为“小区住户”,其码段为“0001”,则该案件的特征码为[0001|0001|0001|0001]。
在本实施例中,方法还可以包括:基于所述特征码及每个历史案件的特征码,确定所述当前案件与每个历史案件的相似度;从所述历史案件中选取指定数量的相似度最大的案件为所述当前案件的相似案件。
在本实施例中,历史案件为电子设备10预先存储的一个或多个案件,历史案件包括相应的案件的特征码。电子设备10可以计算当前案件的特征码与历史案件的特征码之间的相似度,以作为两案件之间的相似度,基于此,通过将案件信息转换为案件特征码,再利用案件特征码检测案件之间的相似度,有利于在不忽略案件信息中的线索的情况下简化案件相似度的计算。
在得到当前案件与一个或多个历史案件的相似度后,电子设备10可以对相似度进行筛选。案件相似度的取值范围为[0,1],或者为[0,100%]。指定数量可以根据实际情况进行确定,例如,可以为一个或多个。
作为一种可选的实施方式,在筛选出指定数量的相似度最大的历史案件后,还可以判断与各个历史案件的相似度是否大于或等于预设阈值,若相应的相似度大于或等于预设阈值,则认为相似度大于或等于预设阈值的历史案件为当前案件的相似度。其中,预设阈值为表征相似度较大的阈值,例如,预设阈值可以为0.7、0.8等。两案件的相似度大于或等于预设阈值,则表示两案件为相似案件,相似案件便可能为案件之间存在关联的案件。
电子设备10在得到相似案件后,便可以将相似案件推送至办案人员。若相似案件为已侦破案件,办案人员便可以基于该相似案件所记录的侦破方式作为侦破当前案件的参考,为办案人员提供侦破方向,从而有利于当前案件的快速侦破。若相似案件为未侦破案件,办案人员便可以根据当前案件及该相似案件,合并线索,便于串并侦破两案件,从而有利于提高案件的侦破效率。
在本实施例中,基于所述特征码及每个历史案件的特征码,确定所述当前案件与每个历史案件的相似度,包括:基于所述当前案件的所述特征码与每个历史案件的特征码的汉明距离,确定所述当前案件与每个历史案件的相似度,其中,所述特征码中同一位置的码段的特征属性及字节长度相同。
在本实施例中,电子设备10可以存储有相应的历史案件的特征码。当前案件的特征码与历史案件的特征码的格式相同。相同位置的码段的字节长度相同,特征属性也相同,基于此,便于通过汉明距离检测两特征码之间的相似度。汉明距离即为两段相同长度数字/文字中,相同位置但数字/文字不相同的数字/文字数量。
相似度的计算公式可以为
Figure BDA0002364030650000131
公式中,C为两字段的相似度,L为两长度相同的字段中的任意字段的总长度,N为汉明距离。例如,数字“1000001”与数字“1001001”,其长度L为7,汉明距离N为1,相似度即为
Figure BDA0002364030650000132
字段“暴力开锁入室盗窃”与字段“技术开锁入室盗窃”,其长度L为8,汉明距离N为2,相似度即为
Figure BDA0002364030650000133
可理解地,在得到汉明距离后,基于汉明距离及字段的总长度,便可以得到两长度相同的字段的相似度。对于两个相同长度的字段,汉明距离越大,相似度越低。
请参照图3,作为一种可选的实施方式,方法还可以包括:基于所述当前案件、所述相似案件、获取的与所述相似案件对应的相似案件,生成案件关系图。
在本实施例中,电子设备10可以预先存储有与各个历史案件对应的相似案件。即,在确定出当前案件的相似案件后,电子设备10可以基于该相似案件查找到该相似案件的相似案件,然后基于当前案件、相似案件、相似案件对应的相似案件生成案件的关系图。其中,关系图中可以包括两案件的连接关系及相似度。
例如,在图3中,假设当前案件为案件A,历史案件为案件B为案件A的相似案件,相似度为0.7;与历史案件B对应的相似案件为案件C,相似度为0.8;案件A与案件C的相似度为0.5,不属于相似案件。案件关系图中的案件即为电子设备10为当前案件所推荐的可能存在关联的案件。
在本申请提供的方法中,在得到的案件关系图中,便可以将案件A与案件C间接联系上,能够避免因案件A与案件C不是相似案件,而使得在处理案件A期间忽略案件C可能是案件A的关联案件。基于此,有利于提高针对当前案件推荐的可能存在关联案件的可靠性,便于办案人员挖掘更深层次的案件关系。
在本实施例中,电子设备10还可以基于案件关系图中的各个案件,进一步查找各个案件的相似案件,并将查找到的新的相似案件添加在案件关系图中。案件关系图中所包括的案件的数量可以根据实际情况进行确定。用户可以在案件关系图中设置推荐的案件的最大数量,该数量可以根据实际情况进行设置,例如,可以为5个、10个等数量。
请参照图4,本申请实施例还提供一种案件检测装置100,可以应用于上述的电子设备10,由电子设备10执行或实现案件检测方法中的各步骤。案件检测装置100包括至少一个可以软件或固件(firmware)的形式存储于存储模块12中或固化在电子设备10操作系统(Operating System,OS)中的软件功能模块。处理模块11用于执行存储模块12中存储的可执行模块,例如案件检测装置100所包括的软件功能模块及计算机程序等。比如,案件检测装置100可以包括获取单元110、输入单元120及特征检测单元130。
获取单元110,用于获取当前案件的第一案件信息。
输入单元120,用于将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由所述第一机器学习模型对所述当前案件进行分类的分类结果,以及得到由所述第二机器学习模型从所述第一案件信息提取的案件特征。
特征检测单元130,用于基于所述分类结果及所述案件特征,生成所述当前案件的特征码,所述特征码包括分别与所述分类结果及所述案件特征对应的码段,用于检测所述当前案件与历史案件的相似度。
可选地,案件检测装置100还可以包括确定单元及选取单元。
确定单元,用于基于所述特征码及每个历史案件的特征码,确定所述当前案件与每个历史案件的相似度;选取单元,用于从所述历史案件中选取指定数量的相似度最大的案件为所述当前案件的相似案件。
可选地,案件检测装置100还可以包括关系图生成单元,用于基于所述当前案件、所述相似案件、获取的与所述相似案件对应的相似案件,生成案件关系图。
可选地,确定单元还可以用于:基于所述当前案件的所述特征码与每个历史案件的特征码的汉明距离,确定所述当前案件与每个历史案件的相似度,其中,所述特征码中同一位置的码段的特征属性及字节长度相同。
可选地,案件检测装置100还可以包括模型训练单元。在输入单元120将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型之前,获取单元110还用于获取用于训练的案件信息集合,所述案件信息集合包括多个案件对应的第二案件信息,每个所述第二案件信息包括案件的分类标注。模型训练单元用于:通过所述案件信息集合训练第一机器学习模型,得到经过训练的所述第一机器学习模型,以对所述第一案件信息分类。
模型训练单元还用于:通过所述案件信息集合训练第二机器学习模型,得到经过训练的所述第二机器学习模型,以从所述第一案件信息提取案件特征,其中,训练所述第二机器学习模型的每个所述第二案件信息包括案件特征标注。
在本实施例中,所述第一机器学习模型可以包括BERT模型,所述第二机器学习模型包括BERT模型、BiLSTM模型及CRF模型。
在本实施例中,所述案件特征包括作案手段、作案时间、侵害对象中的一种或多种。
在本实施例中,处理模块11可以是一种集成电路芯片,具有信号的处理能力。上述处理模块11可以是通用处理器。例如,该处理器可以是中央处理器(Central ProcessingUnit,CPU)、图形处理器(Graphics Processing Unit,GPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
存储模块12可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除可编程只读存储器,电可擦除可编程只读存储器等。在本实施例中,存储模块12可以用于存储第一机器学习模型、第二机器学习模型、案件信息等。当然,存储模块12还可以用于存储程序,处理模块11在接收到执行指令后,执行该程序。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备10、案件检测装置100的具体工作过程,可以参考前述方法中的各步骤对应过程,在此不再过多赘述。
本申请实施例还提供一种计算机可读存储介质。可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如上述实施例中所述的案件检测方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
综上所述,本申请提供一种案件检测方法、装置、电子设备及可读存储介质。方法包括:获取当前案件的第一案件信息;将第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由第一机器学习模型对当前案件进行分类的分类结果,以及得到由第二机器学习模型从第一案件信息提取的案件特征;基于分类结果及案件特征,生成当前案件的特征码,特征码包括分别与分类结果及案件特征对应的码段,用于检测当前案件与历史案件的相似度。在本方案中,分别利用第一机器学习模型、第二机器学习模型对第一案件信息进行识别,以得到当前案件的分类结果及案件特征,有利于提高得到分类结果及案件特征的准确性。另外,利用当前案件的分类结果及案件特征生成特征码,有利于利用特征码检测当前案件与历史案件的相似度,从而有利于改善案件相似度检测的准确性差的问题。
在本申请所提供的实施例中,应该理解到,所揭露的装置、系统和方法,也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种案件检测方法,其特征在于,所述方法包括:
获取当前案件的第一案件信息;
将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由所述第一机器学习模型对所述当前案件进行分类的分类结果,以及得到由所述第二机器学习模型从所述第一案件信息提取的案件特征;
基于所述分类结果及所述案件特征,生成所述当前案件的特征码,所述特征码包括分别与所述分类结果及所述案件特征对应的码段,用于检测所述当前案件与历史案件的相似度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述特征码及每个历史案件的特征码,确定所述当前案件与每个历史案件的相似度;
从所述历史案件中选取指定数量的相似度最大的案件为所述当前案件的相似案件。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述当前案件、所述相似案件、获取的与所述相似案件对应的相似案件,生成案件关系图。
4.根据权利要求2所述的方法,其特征在于,所述基于所述特征码及每个历史案件的特征码,确定所述当前案件与每个历史案件的相似度,包括:
基于所述当前案件的所述特征码与每个历史案件的特征码的汉明距离,确定所述当前案件与每个历史案件的相似度,其中,所述特征码中同一位置的码段的特征属性及字节长度相同。
5.根据权利要求1所述的方法,其特征在于,在所述将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型之前,所述方法还包括:
获取用于训练的案件信息集合,所述案件信息集合包括多个案件对应的第二案件信息,每个所述第二案件信息包括案件的分类标注;
通过所述案件信息集合训练第一机器学习模型,得到经过训练的所述第一机器学习模型,以对所述第一案件信息分类;
通过所述案件信息集合训练第二机器学习模型,得到经过训练的所述第二机器学习模型,以从所述第一案件信息提取案件特征,其中,训练所述第二机器学习模型的每个所述第二案件信息包括案件特征标注。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述第一机器学习模型包括BERT模型,所述第二机器学习模型包括BERT模型、BiLSTM模型及CRF模型。
7.根据权利要求1-5中任意一项所述的方法,其特征在于,所述案件特征包括作案手段、作案时间、侵害对象中的至少一种。
8.一种案件检测装置,其特征在于,所述装置包括:
获取单元,用于获取当前案件的第一案件信息;
输入单元,用于将所述第一案件信息输入经过训练的第一机器学习模型、第二机器学习模型,得到由所述第一机器学习模型对所述当前案件进行分类的分类结果,以及得到由所述第二机器学习模型从所述第一案件信息提取的案件特征;
特征检测单元,用于基于所述分类结果及所述案件特征,生成所述当前案件的特征码,所述特征码包括分别与所述分类结果及所述案件特征对应的码段,用于检测所述当前案件与历史案件的相似度。
9.一种电子设备,其特征在于,所述电子设备包括相互耦合的存储器、处理器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任意一项所述的方法。
CN202010034236.2A 2020-01-13 2020-01-13 案件检测方法、装置、电子设备及可读存储介质 Pending CN111259951A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010034236.2A CN111259951A (zh) 2020-01-13 2020-01-13 案件检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010034236.2A CN111259951A (zh) 2020-01-13 2020-01-13 案件检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111259951A true CN111259951A (zh) 2020-06-09

Family

ID=70946970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010034236.2A Pending CN111259951A (zh) 2020-01-13 2020-01-13 案件检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111259951A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680986A (zh) * 2020-08-12 2020-09-18 北京擎盾信息科技有限公司 一种串案识别方法及装置
CN112784008A (zh) * 2020-07-16 2021-05-11 上海芯翌智能科技有限公司 案件相似度确定方法及装置、存储介质、终端
CN113032544A (zh) * 2021-05-19 2021-06-25 南京视察者智能科技有限公司 一种基于大数据的案件自动处理方法、装置及终端设备
CN113064992A (zh) * 2021-03-22 2021-07-02 平安银行股份有限公司 投诉工单结构化处理方法、装置、设备及存储介质
CN113407575A (zh) * 2021-05-14 2021-09-17 深圳市广电信义科技有限公司 一种基于多维度的案件合并方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346355A (zh) * 2013-07-26 2015-02-11 南京中兴力维软件有限公司 系列性公安案件的智能检索方法及其系统
KR20150096294A (ko) * 2014-02-14 2015-08-24 주식회사 플런티코리아 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN108874767A (zh) * 2018-05-04 2018-11-23 上海瀚所信息技术有限公司 一种用于公安系统的四维模型智能比对系统及方法
CN109871452A (zh) * 2019-01-31 2019-06-11 深度好奇(北京)科技有限公司 确定犯罪特征的方法、装置以及存储介质
CN110209828A (zh) * 2018-02-12 2019-09-06 北大方正集团有限公司 案件查询方法及案件查询装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346355A (zh) * 2013-07-26 2015-02-11 南京中兴力维软件有限公司 系列性公安案件的智能检索方法及其系统
KR20150096294A (ko) * 2014-02-14 2015-08-24 주식회사 플런티코리아 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN110209828A (zh) * 2018-02-12 2019-09-06 北大方正集团有限公司 案件查询方法及案件查询装置、计算机设备和存储介质
CN108874767A (zh) * 2018-05-04 2018-11-23 上海瀚所信息技术有限公司 一种用于公安系统的四维模型智能比对系统及方法
CN109871452A (zh) * 2019-01-31 2019-06-11 深度好奇(北京)科技有限公司 确定犯罪特征的方法、装置以及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784008A (zh) * 2020-07-16 2021-05-11 上海芯翌智能科技有限公司 案件相似度确定方法及装置、存储介质、终端
CN111680986A (zh) * 2020-08-12 2020-09-18 北京擎盾信息科技有限公司 一种串案识别方法及装置
CN111680986B (zh) * 2020-08-12 2020-12-08 北京擎盾信息科技有限公司 一种串案识别方法及装置
CN113064992A (zh) * 2021-03-22 2021-07-02 平安银行股份有限公司 投诉工单结构化处理方法、装置、设备及存储介质
CN113407575A (zh) * 2021-05-14 2021-09-17 深圳市广电信义科技有限公司 一种基于多维度的案件合并方法、装置及存储介质
CN113032544A (zh) * 2021-05-19 2021-06-25 南京视察者智能科技有限公司 一种基于大数据的案件自动处理方法、装置及终端设备
CN113032544B (zh) * 2021-05-19 2021-08-20 南京视察者智能科技有限公司 一种基于大数据的案件自动处理方法、装置及终端设备

Similar Documents

Publication Publication Date Title
CN111259951A (zh) 案件检测方法、装置、电子设备及可读存储介质
US11514698B2 (en) Intelligent extraction of information from a document
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN109460551B (zh) 签名信息提取方法及装置
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN108229481B (zh) 屏幕内容分析方法、装置、计算设备及存储介质
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN114861677B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN105117740A (zh) 字体识别方法及装置
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN114547301A (zh) 文档处理、识别模型训练方法、装置、设备及存储介质
CN114970514A (zh) 基于人工智能的中文分词方法、装置、计算机设备及介质
CN111797772A (zh) 发票图像自动分类方法、系统、装置
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
CN114020904A (zh) 试题文件筛选方法、模型训练方法、装置、设备及介质
CN103778210A (zh) 一种待分析文件的文件具体类型的判断方法及装置
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及系统
CN112541075A (zh) 一种警情文本的标准案发时间提取方法及系统
KR101126186B1 (ko) 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체
CN113779251B (zh) 线索信息获取方法、装置、介质及电子设备
CN111382267B (zh) 一种问题分类方法、问题分类装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination