CN109902172B - 案情文本分类方法、装置以及存储介质 - Google Patents

案情文本分类方法、装置以及存储介质 Download PDF

Info

Publication number
CN109902172B
CN109902172B CN201910095682.1A CN201910095682A CN109902172B CN 109902172 B CN109902172 B CN 109902172B CN 201910095682 A CN201910095682 A CN 201910095682A CN 109902172 B CN109902172 B CN 109902172B
Authority
CN
China
Prior art keywords
case
classification
text
words
cases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910095682.1A
Other languages
English (en)
Other versions
CN109902172A (zh
Inventor
吕正东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deep curiosity (Hangzhou) Technology Co.,Ltd.
Original Assignee
Deeplycurious Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deeplycurious Beijing Technology Co ltd filed Critical Deeplycurious Beijing Technology Co ltd
Priority to CN201910095682.1A priority Critical patent/CN109902172B/zh
Publication of CN109902172A publication Critical patent/CN109902172A/zh
Application granted granted Critical
Publication of CN109902172B publication Critical patent/CN109902172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种案情文本分类方法、装置以及存储介质。其中,该方法,包括:获取与案件相关的案情文本,其中所述案情文本记载所述案件的案情;以及根据所述案情文本,利用预先设置的分类模型,确定所述案件的案件类别,其中所述案件类别是根据所述案件的作案手段和/或作案特点进行分类得到的类别。从而实现基于语义概念的深度案情分析,有助于提高案情录入自动化程度、规范办案流程、提高办案效率的技术效果。进而解决了现有技术中存在的传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的技术问题。

Description

案情文本分类方法、装置以及存储介质
技术领域
本申请涉及数据处理领域,特别是涉及一种案情文本分类方法、装置以及存储介质。
背景技术
当前,刑事犯罪斗争的形势十分严峻,刑事案件发案率不断上升,犯罪活动日益猖獗。目前,犯罪活动的显著特点是流窜性和系列性案件比较突出。犯罪分子采用跨区域、跳跃式、大范围流窜的方法进行作案,犯罪手段日趋狡猾,暴力性更明显,时空跨度更大,且智能化、技术型团伙作案有向深层方向发展趋势。同时,随着计算机的普及以及互联网技术的飞速发展,公安领域的文本数据量越来越庞大,不论是现有的案件文本历史数据库,还是受害人实时报案的文本信息,均呈现出日益增长的趋势。
传统的公安业务系统中处理的信息类型以结构化类型的数据为主,对于非结构化文本信息的处理主要通过基于简单文本相似度匹配的向量空间模型(VSM)实现信息检索并结合人工比对为主,缺乏对文本数据进行基于语义的深层次的分析并研究各类信息间的规律和关系的处理方法,尤其是对于包含了形如“组织形式”、“仗势胁迫”、“重复作案”等抽象语义概念的案情文本而言,应用向量空间模型处理起来十分困难。
针对上述的现有技术中存在的传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种案情文本分类方法、装置以及存储介质,以至少解决现有技术中存在的传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的技术问题。
根据本公开实施例的一个方面,提供了一种案情文本分类方法,包括:获取与案件相关的案情文本,其中案情文本记载案件的案情;以及根据案情文本,利用预先设置的分类模型,确定案件的案件类别,其中案件类别是根据案件的作案手段和/或作案特点进行分类得到的类别。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种案情文本分类装置,包括:案情获取模块,获取与案件相关的案情文本,其中案情文本记载案件的案情;以及案件类别确定模块,根据案情文本,利用预先设置的分类模型,确定案件的案件类别,其中案件类别是根据案件的作案手段和/或作案特点进行分类得到的类别。
根据本公开实施例的另一个方面,还提供了一种案情文本分类装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取与案件相关的案情文本,其中用于为处理器提供处理以下处理步骤的指令:案情文本记载案件的案情;以及根据案情文本,利用预先设置的分类模型,确定案件的案件类别,其中案件类别是根据案件的作案手段和/或作案特点进行分类得到的类别。
在本公开实施例中,利用预先设置的分类模型,基于与案件相关的案情文本,能够根据刑事案情文本的语义对文本进行分类,实现基于语义概念的深度案情分析,克服了传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的缺点,能够有效获取案情文本数据中多维度层次化语义概念特征,有助于提高案情录入自动化程度、规范办案流程、提高办案效率,对于改进警务人员办案效率、提高破案率、支撑串并案等场景的应用起到重要的作用。从而实现基于语义概念的深度案情分析,有助于提高案情录入自动化程度、规范办案流程、提高办案效率的技术效果。进而解决了现有技术中存在的传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的技术问题。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的案情文本分类方法的流程示意图;
图3是根据本公开实施例1的第一个方面所述的基于案情文本的分类模型的逻辑结构图;
图4是根据本公开实施例1的第一个方面所述的分类模型训练整体逻辑示意图;
图5是根据本公开实施例1的第一个方面所述案情文本分类模型训练流程图;
图6是根据本公开实施例1的第一个方面所述的案情文本分类模型服务流程图;
图7是根据本公开实施例2所述的案情文本分类装置的示意图;以及
图8是根据本公开实施例3所述的案情文本分类装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
本公开所述的“字词”,不仅包括字,也包括词语。词语包括词、单词、短语、成语、固定用语等词语的形式。
实施例1
根据本实施例,提供了一种案情文本分类方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现案情文本分类方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模型106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模型,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模型,如本公开实施例中的案情文本分类方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模型,从而执行各种功能应用以及数据处理,即实现上述的应用程序的案情文本分类方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模型,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种案情文本分类方法,该方法可以由图1中所示的计算机终端10实现。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:获取与案件相关的案情文本,其中案情文本记载案件的案情;以及
S204:根据案情文本,利用预先设置的分类模型,确定案件的案件类别,其中案件类别是根据案件的作案手段和/或作案特点进行分类得到的类别。
正如前面背景技术中所述的,当前的刑事犯罪斗争的形势十分严峻,刑事案件发案率不断上升,犯罪活动日益猖獗。目前,犯罪活动的显著特点是流窜性和系列性案件比较突出。犯罪分子采用跨区域、跳跃式、大范围流窜的方法进行作案,犯罪手段日趋狡猾,暴力性更明显,时空跨度更大,且智能化、技术型团伙作案有向深层方向发展趋势。同时,随着计算机的普及以及互联网技术的飞速发展,公安领域的文本数据量越来越庞大,不论是现有的案件文本历史数据库,还是受害人实时报案的文本信息,均呈现出日益增长的趋势。
传统的公安业务系统中处理的信息类型以结构化类型的数据为主,对于非结构化文本信息的处理主要通过基于简单文本相似度匹配的向量空间模型(VSM)实现信息检索并结合人工比对为主,缺乏对文本数据进行基于语义的深层次的分析并研究各类信息间的规律和关系的处理方法,尤其是对于包含了形如“组织形式”、“仗势胁迫”、“重复作案”等抽象语义概念的案情文本而言,应用向量空间模型处理起来十分困难。
针对上述背景技术中存在的问题,结合图1所示,本实施例提供的计算机终端10首先获取与案情相关的案情文本。其中案情文本记载案件的案情。例如:计算机终端10可以从案件库中获取具体案件的案情文本。然后,计算机终端10基于所获取的案情文本,利用预先设置的分类模型,确定案件的案件类别。其中案件类别是根据案件的作案手段和/或作案特点进行分类得到的类别。
从而,通过这种方式,本实施例的技术方案利用预先设置的分类模型,能够根据刑事案情文本的语义对案情文本进行分类,实现基于语义概念的深层案情分析,能够根据刑事案情文本的语义对文本进行分类,实现基于语义概念的深度案情分析,有助于提高案情录入自动化程度、规范办案流程、提高办案效率的技术效果。进而解决了现有技术中存在的传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的技术问题。
可选地,利用预先设置的分类模型,确定案件类别的操作,包括:将案情文本中的字词转换为对应的词向量;根据词向量,利用预先设置的卷积神经网络模型,获取与案情文本相关的多个特征;以及根据多个特征,利用预先设置的全连接神经网络,确定案件类别。
具体地,计算机终端10利用预先设置的分类模型,确定案件类别的操作,包括:计算机终端10需要现将将案情文本中的字词转换为对应的词向量。然后根据词向量,利用预先设置的卷积神经网络模型,获取与案情文本相关的多个特征。例如:图3示出了基于案情文本的分类模型的逻辑结构图。参考图3所示,计算机终端10可以在TensorFlow平台上,建立卷积神经网络(CNN)模型,经过非线性卷积(convolution)和池化(pooling)层的下采样变换后进行输出。卷积操作通过对长度为h个单词的窗口应用过滤器
Figure BDA0001964478330000061
生成一个新特征。例如,通过公式ci=f(w·xi:i+h-1+b)对窗口中的词xi:i+h-1生成特征ci。这里,
Figure BDA0001964478330000062
为偏置项,f为双曲正切函数。过滤器应用到句子中的词窗口{x1:h,x2:h+1,…,xn-h+1:n}上生成一个新的特征映射c=[c1,c2,…,cn-h+1]。其中,
Figure BDA0001964478330000063
进一步地,对这一特征映射应用一个时序最大化(max-over-time)操作取最大值
Figure BDA0001964478330000071
生成新的特征。应用这一方法可以对每一个特征映射获得显著特征。池化操作具有处理变长的句子的能力。CNN模型通过多个过滤器(配置不同窗口大小)来获取多个特征。然后计算机终端10将CNN模型输出的多个特征输入到全连接神经网络(MLP),通过softmax
Figure BDA0001964478330000072
操作输出标签的概率分布来执行最终的分类任务,进而确定与案情文本对应的案件类别。其中全连接神经网络可以为两层全连接神经网络。
可选地,将案情文本中的字词转换为对应的词向量的操作,包括:根据案情文本,构建词向量表,其中词向量表用于指示词与词向量之间的映射关系;以及根据词向量表,将案情文本中的字词转换为对应的词向量。
具体地,计算机终端10将案情文本中的字词转换为对应的词向量的操作,包括:计算机终端10根据案情文本,构建词向量表,其中词向量表用于指示词与词向量之间的映射关系。例如:计算机终端10可以对所获取的案情文本进行解析,得到多个字词,然后采用fastText技术,利用了h-softmax的分类功能,遍历分类树的所有叶节点,构建字词对应的字词-词向量(word embedding)映射表,输出包含语义信息的词向量列表作为模型训练的输入。假设v将词映射为词向量,式v(“国王”)–v(“王后”)≈v(“男”)–v(“女”)可以突出表达出词向量空间中所包含的线性语义关系。设
Figure BDA0001964478330000073
为句子中第i个字词对应的k维词向量,长度为n的句子(长度不足时进行填充)可以表示为
Figure BDA0001964478330000074
这里
Figure BDA0001964478330000075
为连接操作符。通常,令xi:j表示词xi,xi+1,…,xi-1+j的连接。然后,计算机终端10根据所构建得到的词向量表,将案情文本中的字词转换为对应的词向量。
可选地,将案情文本中的字词转换为对应的词向量的操作之前,还包括:对案情文本进行以下的预处理:从案情文本中获取字词并对所获取的字词进行词性标注;根据词性标注的结果,从所获取的字词中选择用于确定案件类别的字词;以及根据所选择的字词,确定相应的词表索引。
具体地,计算机终端10将案情文本中的字词转换为对应的词向量的操作之前,还包括:计算机终端10对案情文本进行一下处理:从案情文本中获取字词并对所获取的字词进行词性标注。然后根据词性标注的结果,从所获取的字词中选择用于确定案件类别的字词。最后根据所选择的字词,确定相应的词表索引。例如:计算机终端10需要先对与案情描述相关的案情文本进行中文分词和词性标注,再根据词性标注结果对文本中部分不相关信息进行过滤、转换。然后得到用于确定案件类别的字词。最后构建词表,建立中文词汇到词表索引间的对应关系,再根据所构建的词表,确定相应的词表索引。
可选地,还包括:根据预先设置的规则,对案件类别进行校正。
具体地,计算机终端10根据预先设置的规则,对案件类别进行校正。例如:计算机终端10根据分类模型输出的分类结果,构建可视化数据分析工具,对模型的分类错误结果进行分析,根据精确率(precision)和召回率(call)以及结合精确率和召回率的F1(F1=2*P*R/(P+R))指标提取对改进模型分类结果有效的规则。
可选地,利用预先设置的分类模型,确定案件的案件类别的操作,包括:利用多个分类模型,并行操作确定案件的案件类别。
具体地,计算机终端10利用预先设置的分类模型,确定案件的案件类别的操作,包括:计算机终端10利用多个分类模型,并行操作确定案件的案件类别。例如:计算机终端10案情文本随机分成10份互不相交的子集,然后利用多个分类模型,并行操作确定案件的案件类别。
可选地,还包括通过以下操作对分类模型进行训练:获取与样本案件相关的案情文本样本并确定与样本案件对应的参考类别;基于案情文本样本,利用分类模型,确定样本案件的类别;对所确定的样本案件的类别与参考类别进行比对;以及利用比对后的结果,对分类模型进行优化。
具体地,计算机终端10通过以下操作对分类模型进行训练:计算机终端10获取与样本案件相关的案情文本样本并确定与样本案件对应的参考类别。其中可以通过一下方式确定与样本案件对应的参考类别:根据《GA 240.7-2000刑事犯罪信息管理代码第7部分:作案手段分类和代码》和《GA 240.8-2000刑事犯罪信息管理代码第8部分:作案特点分类和代码》等中华人民共和国公共安全行业标准,通过对案情文本数据附加语义概念分类标签,构建案情文本分类标准数据集,进而根据案情文本分类标准数据集,确定与样本案件对应的参考类别。
进一步地,计算机终端10基于案情文本样本,利用分类模型,确定样本案件的类别。然后,计算机终端10对所确定的样本案件的类别与参考类别进行比对。例如:计算机终端10将分类模型输出的分类结果与标准数据集对应的参考类别进行比较,计算参考类别和输出的分类结果之间的交叉熵损失函数值,通过基于梯度下降的反向传播算法训练模型。交叉熵损失函数为:
Figure BDA0001964478330000091
然后计算机终端10应用基于公式
Figure BDA0001964478330000092
的梯度下降算法更新模型参数θ,进而对分类模型进行优化。
可选地,基于案情文本样本,利用分类模型,确定样本案件的类别的操作,包括:利用多个分类模型,对样本案件并行进行分类操作,确定样本案件的类别,并且利用比对后的结果,对分类模型进行优化的操作,包括:利用比对后的结果,对多个分类模型进行优化。
具体地,计算机终端10基于案情文本样本,利用分类模型,确定样本案件的类别的操作,包括:计算机终端10利用多个分类模型,对样本案件并行进行分类操作。然后再根据利用比对后的结果,对这10个分类模型进行优化。
此外,本发明提供的方法需要通过分类模型训练和分类模型应用两个部分实现。具体实施方式如下所示:
第一部分:分类模型训练
图4示出了分类模型训练整体逻辑示意图。分类模型训练采用循环迭代的方式进行持续改进,每次迭代涉及分类模型构建、分类模型预测结果分析、数据重新标注、规则生成等子过程。循环迭代结束条件为生成的模型结果报告中精确率(precision)、召回率(call)、F1等指标满足预设的模型使用需求。图5示出了案情文本分类模型训练流程图。参考图5所示,主要有以下步骤对分类模型进行训练:
步骤1:构建用于训练分类模型的案情文本分类标准数据集。从相关网站下载《GA240.7-2000刑事犯罪信息管理代码第7部分:作案手段分类和代码》和《GA 240.8-2000刑事犯罪信息管理代码第8部分:作案特点分类和代码》等中华人民共和国公共安全行业标准文档,分析标准中涉及的各种刑事案件分类中包含的语义概念,形成初步的《刑事案件案情文本分类数据标注标准规范》。对案情文本数据进行数据抽取转换和清洗,过滤重复数据和不规范数据,转换到标注工具支持的数据格式。组织专业标注人员通过对案情文本数据附加语义概念分类标签的方式进行标注,最终形成案情文本分类标准数据集。
步骤2:设计案情文本分类模型。设计完成的案情文本分类模型结构如图3所示。
步骤2-1:构建词汇到词表索引转换操作和标签-标识转换操作,从而将词汇(文本信息)转成神经网络可以处理的数字信息,该操作通过查表(look-up)的方式实现。
步骤2-2:设置词向量输入参数,构建词向量查表操作函数,生成模型词向量转换模块。假设v将词映射为词向量,式v(“国王”)–v(“王后”)≈v(“男”)–v(“女”)可以突出表达出词向量空间中所包含的线性语义关系。设
Figure BDA0001964478330000101
为句子中第i个词对应的k维词向量,长度为n的句子(长度不足时进行填充)可以表示为
Figure BDA0001964478330000102
这里
Figure BDA0001964478330000103
为连接操作符。通常,令xi:j表示词xi,xi+1,…,xi-1+j的连接。
步骤2-3:设计卷积神经网络(CNN)模型,经过非线性卷积(convolution)和池化(pooling)层的下采样变换后进行输出。卷积操作通过对长度为h个单词的窗口应用过滤器
Figure BDA0001964478330000104
生成一个新特征。例如,通过公式ci=f(w·xi:i+h-1+b)对窗口中的词xi:i+h-1生成特征ci。这里,
Figure BDA0001964478330000105
为偏置项,f为双曲正切函数。过滤器应用到句子中的词窗口{x1:h,x2:h+1,…,xn-h+1:n}上生成一个新的特征映射c=[c1,c2,…,cn-h+1]。其中,
Figure BDA0001964478330000106
然后,对这一特征映射应用一个时序最大化(max-over-time)操作取最大值
Figure BDA0001964478330000107
生成新的特征。应用这一方法可以对每一个特征映射获得显著特征。池化操作具有处理变长的句子的能力。CNN模型通过多个过滤器(配置不同窗口大小)来获取多个特征。
步骤2-4:构建两层全连接的感知神经网络(MLP)模型,通过softmax操作
Figure BDA0001964478330000108
输出预测标签的概率分布。
步骤2-5:设计基于交叉熵的损失函数
Figure BDA0001964478330000109
设计用于训练模型的梯度下降的反向传播算法,应用公式
Figure BDA00019644783300001010
通过梯度下降算法更新模型参数θ。
步骤3:模型训练输入数据的预处理。
步骤3-1:对案情描述文本数据集进行中文分词和词性标注,根据词性标注结果对文本中部分不相关信息进行过滤、转换,构建词表,建立中文词汇到词表索引间的对应关系。
步骤3-2:从案情描述文本数据集提取分类标签,构建标签-标识双向映射表。
步骤3-3:根据步骤3-1中分词后的结果构建词对应的词-词向量(wordembedding)映射表,输出包含语义信息的词向量列表。
步骤4:执行案情文本分类模型的训练。将案情文本分类标准数据集随机分成10份互不相交的子集,采用交叉验证的方式训练10个分类模型。每个模型使用8份子集作为训练集,1份作为验证集,1份作为测试集。将步骤2中设计的模型在TensorFlow平台上实现,将训练数据集通过步骤3进行预处理后作为模型的输入。模型训练在TensorFlow平台上完成。
步骤5:导出分类模型,生成分类模型的分类结果报告。训练完成的分类模型通过TensorFlow的导出工具导出到TensorFlow Serving可识别的模型格式。对测试集中的分类标签应用训练完成的分类模型进行预测,生成包含精确率(precision)、召回率(call)、F1等各种统计指标的模型分类结果报告。
步骤6:根据分类模型的分类结果报告,构建可视化数据分析工具,对模型的分类错误结果进行分析,根据精确率、召回率、F1指标提取对改进模型分类结果有效的规则。
第二部分:分类模型服务
图6示出了案情文本分类模型服务流程图。参考图6所示,主要有以下步骤对分类模型进行训练:
步骤1:将训练完成后的导出的分类模型通过10个模型集成(ensemble)的方式构建基于gRPC的案情文本分类模型服务。具体方法为:配置TensorFlow Serving服务描述文件,启动TensorFlow Serving服务加载模型,通过TensorFlow Serving提供的gRPC接口访问模型服务,将10个分类模型的结果和规则引擎的预测结果进行融合后的输出作为最终预测结果。
步骤2:构建结合模型和规则的案情文本分类模型服务,实现用户访问接口。
步骤3:输入案情文本数据到模型服务接口,将分类模型服务输出分类结果通过可视化的基于Web的层次化的案情概念思维导图的方式进行展现。
此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质104。存储介质104包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
从而,本实施例所提供的技术方案利用预先设置的分类模型,基于与案件相关的案情文本,能够根据刑事案情文本的语义对文本进行分类,实现基于语义概念的深度案情分析,克服了传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的缺点,能够有效获取案情文本数据中多维度层次化语义概念特征,有助于提高案情录入自动化程度、规范办案流程、提高办案效率,对于改进警务人员办案效率、提高破案率、支撑串并案等场景的应用起到重要的作用。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模型并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图7示出了根据本实施例所述的案情文本分类装置700,该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示,该装置700包括:案情获取模块710,获取与案件相关的案情文本,其中案情文本记载案件的案情;以及案件类别确定模块720,根据案情文本,利用预先设置的分类模型,确定案件的案件类别,其中案件类别是根据案件的作案手段和/或作案特点进行分类得到的类别。
可选地,案件类别确定模块720,包括:转换子模块,用于将案情文本中的字词转换为对应的词向量;获取子模块,用于根据词向量,利用预先设置的卷积神经网络模型,获取与案情文本相关的多个特征;以及确定子模块,用于根据多个特征,利用预先设置的全连接神经网络,确定案件类别。
可选地,转换子模块,包括:构建单元,用于根据案情文本,构建词向量表,其中词向量表用于指示词与词向量之间的映射关系;以及转换单元,用于根据词向量表,将案情文本中的字词转换为对应的词向量。
可选地,转换子模块还包括:预处理单元,用于对案情文本进行以下的预处理:从案情文本中获取字词并对所获取的字词进行词性标注;根据词性标注的结果,从所获取的字词中选择用于确定案件类别的字词;以及根据所选择的字词,确定相应的词表索引。
可选地,还包括:校正模块,用于根据预先设置的规则,对案件类别进行校正。
可选地,案件类别确定模块720,包括:并行操作确定子模块,用于利用多个分类模型,并行操作确定案件的案件类别。
可选地,还包括训练模块,用于通过以下操作对分类模型进行训练:获取与样本案件相关的案情文本样本并确定与样本案件对应的参考类别;基于案情文本样本,利用分类模型,确定样本案件的类别;对所确定的样本案件的类别与参考类别进行比对;以及利用比对后的结果,对分类模型进行优化。
可选地,基于案情文本样本,利用分类模型,确定样本案件的类别的操作,包括:利用多个分类模型,对样本案件并行进行分类操作,确定样本案件的类别,并且利用比对后的结果,对分类模型进行优化的操作,包括:利用比对后的结果,对多个分类模型进行优化。
从而,本实施例所提供的技术方案利用预先设置的分类模型,基于与案件相关的案情文本,能够根据刑事案情文本的语义对文本进行分类,实现基于语义概念的深度案情分析,克服了传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的缺点,能够有效获取案情文本数据中多维度层次化语义概念特征,有助于提高案情录入自动化程度、规范办案流程、提高办案效率,对于改进警务人员办案效率、提高破案率、支撑串并案等场景的应用起到重要的作用。从而实现基于语义概念的深度案情分析,有助于提高案情录入自动化程度、规范办案流程、提高办案效率的技术效果。进而解决了现有技术中存在的传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的技术问题。
实施例3
图8示出了根据本实施例所述的案情文本分类装置800,该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示,该装置800包括:处理器810;以及存储器820,与处理器810连接,用于为处理器810提供处理以下处理步骤的指令:获取与案件相关的案情文本,其中用于为处理器提供处理以下处理步骤的指令:案情文本记载案件的案情;以及根据案情文本,利用预先设置的分类模型,确定案件的案件类别,其中案件类别是根据案件的作案手段和/或作案特点进行分类得到的类别。
可选地,利用预先设置的分类模型,确定案件类别的操作,包括:将案情文本中的字词转换为对应的词向量;根据词向量,利用预先设置的卷积神经网络模型,获取与案情文本相关的多个特征;以及根据多个特征,利用预先设置的全连接神经网络,确定案件类别。
可选地,将案情文本中的字词转换为对应的词向量的操作,包括:根据案情文本,构建词向量表,其中词向量表用于指示词与词向量之间的映射关系;以及根据词向量表,将案情文本中的字词转换为对应的词向量。
可选地,将案情文本中的字词转换为对应的词向量的操作之前,还包括:对案情文本进行以下的预处理:从案情文本中获取字词并对所获取的字词进行词性标注;根据词性标注的结果,从所获取的字词中选择用于确定案件类别的字词;以及根据所选择的字词,确定相应的词表索引。
可选地,存储器820还用于为处理器810提供处理以下处理步骤的指令:根据预先设置的规则,对案件类别进行校正。
可选地,利用预先设置的分类模型,确定案件的案件类别的操作,包括:利用多个分类模型,并行操作确定案件的案件类别。
可选地,存储器820还用于为处理器810提供处理以下处理步骤的指令:通过以下操作对分类模型进行训练:获取与样本案件相关的案情文本样本并确定与样本案件对应的参考类别;基于案情文本样本,利用分类模型,确定样本案件的类别;对所确定的样本案件的类别与参考类别进行比对;以及利用比对后的结果,对分类模型进行优化。
可选地,基于案情文本样本,利用分类模型,确定样本案件的类别的操作,包括:利用多个分类模型,对样本案件并行进行分类操作,确定样本案件的类别,并且利用比对后的结果,对分类模型进行优化的操作,包括:利用比对后的结果,对多个分类模型进行优化。
从而,本实施例所提供的技术方案利用预先设置的分类模型,基于与案件相关的案情文本,能够根据刑事案情文本的语义对文本进行分类,实现基于语义概念的深度案情分析,克服了传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的缺点,能够有效获取案情文本数据中多维度层次化语义概念特征,有助于提高案情录入自动化程度、规范办案流程、提高办案效率,对于改进警务人员办案效率、提高破案率、支撑串并案等场景的应用起到重要的作用。从而实现基于语义概念的深度案情分析,有助于提高案情录入自动化程度、规范办案流程、提高办案效率的技术效果。进而解决了现有技术中存在的传统的基于向量空间模型(VSM)的简单文本相似度匹配方法的语义解析能力缺失的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模型的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种案情文本分类方法,其特征在于,包括:
获取与样本案件相关的案情文本样本;
根据中华人民共和国公共安全行业标准《GA240.7-2000刑事犯罪信息管理代码第7部分:作案手段分类和代码》和《GA240.8-2000刑事犯罪信息管理代码第8部分:作案特点分类和代码》,通过对案情文本数据附加语义概念分类标签,构建案情文本分类标准数据集,从而根据所述案情文本分类标准数据集,确定与所述样本案件对应的参考类别;
基于所述案情文本样本和所述参考类别,训练预先设计的分类模型;
根据训练完成的所述分类模型的分类结果报告,构建可视化数据分析工具,对所述分类模型的分类错误结果进行分析,根据精确率、召回率、F1指标提取对改进所述分类模型的分类结果有效的规则;
构建结合模型和规则的案情文本分类模型服务,实现用户访问接口;
获取与案件相关的包含抽象语义概念的案情文本,其中所述案情文本记载所述案件的案情;
从所述案情文本中获取字词并对所获取的字词进行词性标注,根据所述词性标注的结果,对所述案情文本中部分不相关信息进行过滤、转换,从所获取的字词中选择用于确定案件类别的字词,将所述案情文本中的字词转换为对应的词向量,根据所述词向量,利用预先设置的卷积神经网络模型,获取与所述案情文本相关的多个特征,根据所述多个特征,利用所述分类模型,确定所述案件类别,其中所述案件类别是根据所述案件的作案手段和/或作案特点进行分类得到的类别;
根据所述分类模型输出的分类结果,利用所述可视化数据分析工具,对所述分类模型的分类错误结果进行分析,根据精确率和召回率以及结合精确率和召回率的F1指标,提取对改进所述案件类别有效的规则,从而根据所提取的规则对所述案件类别进行校正;以及
将校正后的所述案件类别作为所述案情文本分类模型服务输出的分类结果,并通过可视化的基于Web的层次化的案情概念思维导图的方式进行展现。
2.根据权利要求1所述的方法,其特征在于,将所述案情文本中的字词转换为对应的词向量的操作,包括:
根据所述案情文本,构建词向量表,其中所述词向量表用于指示词与词向量之间的映射关系;以及
根据所述词向量表,将所述案情文本中的字词转换为对应的词向量。
3.根据权利要求2所述的方法,其特征在于,将所述案情文本中的字词转换为对应的词向量的操作之前,还包括:对所述案情文本进行以下预处理:
根据所选择的字词,确定相应的词表索引。
4.根据权利要求1所述的方法,其特征在于,利用预先设置的分类模型,确定所述案件的案件类别的操作,包括:利用多个分类模型,并行操作确定所述案件的案件类别。
5.根据权利要求1所述的方法,其特征在于,
基于所述案情文本样本,利用所述分类模型,确定所述样本案件的类别的操作,包括:利用多个分类模型,对所述样本案件并行进行分类操作,确定所述样本案件的类别。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述存储的程序运行时由处理器执行权利要求1至5中任意一项所述的方法。
CN201910095682.1A 2019-01-31 2019-01-31 案情文本分类方法、装置以及存储介质 Active CN109902172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910095682.1A CN109902172B (zh) 2019-01-31 2019-01-31 案情文本分类方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910095682.1A CN109902172B (zh) 2019-01-31 2019-01-31 案情文本分类方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN109902172A CN109902172A (zh) 2019-06-18
CN109902172B true CN109902172B (zh) 2021-08-27

Family

ID=66944600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910095682.1A Active CN109902172B (zh) 2019-01-31 2019-01-31 案情文本分类方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN109902172B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928994B (zh) * 2019-11-28 2022-07-19 北京华宇元典信息服务有限公司 相似案例检索方法、相似案例检索装置和电子设备
CN113111897A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的接警警情类别确定方法和装置
CN111339168B (zh) * 2020-03-06 2023-08-22 德联易控科技(北京)有限公司 数据处理方法、装置、系统、存储介质和处理器
CN111898572A (zh) * 2020-08-05 2020-11-06 杭州云栖智慧视通科技有限公司 一种基于形体识别的案件智能串并方法
CN112948577A (zh) * 2021-01-16 2021-06-11 江苏网进科技股份有限公司 一种基于fastText模型的用于判断法律案件类型的方法
CN112800232B (zh) * 2021-04-01 2021-08-06 南京视察者智能科技有限公司 一种基于大数据的案件自动分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122451A (zh) * 2017-04-26 2017-09-01 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107894981A (zh) * 2017-12-13 2018-04-10 武汉烽火普天信息技术有限公司 一种案件语义要素的自动抽取方法
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN109241285A (zh) * 2018-08-29 2019-01-18 东南大学 一种基于机器学习的辅助司法案件判决的装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1236175A4 (en) * 1999-08-06 2006-07-12 Lexis Nexis SYSTEM AND METHOD FOR CLASSIFYING LEGAL CONCEPTS USING A LEGAL TOPIC SCHEME
CN102789498B (zh) * 2012-07-16 2014-08-06 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN107798033B (zh) * 2017-03-01 2021-07-02 中南大学 一种公安领域案件文本的分类方法
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
CN108460089B (zh) * 2018-01-23 2022-03-01 海南师范大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN109189920A (zh) * 2018-08-02 2019-01-11 上海欣方智能系统有限公司 扫黑案件分类方法及系统
CN109284506B (zh) * 2018-11-29 2023-09-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122451A (zh) * 2017-04-26 2017-09-01 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107894981A (zh) * 2017-12-13 2018-04-10 武汉烽火普天信息技术有限公司 一种案件语义要素的自动抽取方法
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN109241285A (zh) * 2018-08-29 2019-01-18 东南大学 一种基于机器学习的辅助司法案件判决的装置

Also Published As

Publication number Publication date
CN109902172A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109902172B (zh) 案情文本分类方法、装置以及存储介质
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN109871452B (zh) 确定犯罪特征的方法、装置以及存储介质
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US10579655B2 (en) Method and apparatus for compressing topic model
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN110852106A (zh) 基于人工智能的命名实体处理方法、装置及电子设备
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112749283A (zh) 一种面向法律领域的实体关系联合抽取方法
CN109670148A (zh) 基于语音识别的催收辅助方法、装置、设备和存储介质
CN111368551A (zh) 一种确定事件主体的方法和装置
CN113407677A (zh) 评估咨询对话质量的方法、装置、设备和存储介质
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN112598039B (zh) 获取nlp分类领域阳性样本方法及相关设备
CN114036921A (zh) 一种政策信息匹配方法和装置
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN114647739A (zh) 实体链指方法、装置、电子设备及存储介质
CN114385776A (zh) 信息定位方法、存储介质及装置
CN111723164B (zh) 地址信息的处理方法和装置
CN116414938A (zh) 一种知识点标注方法、装置、设备及存储介质
CN112765937A (zh) 文本正则方法、装置、电子设备及存储介质
CN111782781A (zh) 一种语义分析方法、装置、计算机设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112417886A (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211231

Address after: 310000 room 266, No. 36, Gaoji street, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Deep curiosity (Hangzhou) Technology Co.,Ltd.

Address before: 100089 201-1, block a, Zhizao street, Zhongguancun, 45 Chengfu Road, Haidian District, Beijing

Patentee before: DEEPLYCURIOUS (BEIJING) TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Case text classification method, device and storage medium

Effective date of registration: 20220917

Granted publication date: 20210827

Pledgee: Bank of Jiangsu Limited by Share Ltd. Hangzhou branch

Pledgor: Deep curiosity (Hangzhou) Technology Co.,Ltd.

Registration number: Y2022330002321

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20210827

Pledgee: Bank of Jiangsu Limited by Share Ltd. Hangzhou branch

Pledgor: Deep curiosity (Hangzhou) Technology Co.,Ltd.

Registration number: Y2022330002321

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Case text classification method, device, and storage medium

Granted publication date: 20210827

Pledgee: Bank of Jiangsu Limited by Share Ltd. Hangzhou branch

Pledgor: Deep curiosity (Hangzhou) Technology Co.,Ltd.

Registration number: Y2024980017059