CN109871452B

CN109871452B - 确定犯罪特征的方法、装置以及存储介质

Info

Publication number: CN109871452B
Application number: CN201910095693.XA
Authority: CN
Inventors: 吕正东
Original assignee: Deeplycurious Beijing Technology Co ltd
Current assignee: Deeplycurious Beijing Technology Co ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2021-04-02
Anticipated expiration: 2039-01-31
Also published as: CN109871452A

Abstract

本申请公开了一种确定犯罪特征的方法、装置以及存储介质。其中，该方法，包括：获取与刑事案件相关的第一文本数据，其中所述第一文本数据记载所述刑事案件的案情；以及基于所述第一文本数据，利用预先设置的模型，确定所述刑事案件的第一犯罪特征，其中所述第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段。达到了能够提取第一文本数据中的作案特点和作案手段等犯罪特征，有助于增强办案人员的办案能力，提高刑事案件的破案率的技术效果。进而解决了现有技术中存在的现有的公安业务系统中尚缺乏基于非结构化文本信息提取出犯罪特征的有效手段的技术问题。

Description

确定犯罪特征的方法、装置以及存储介质

技术领域

本申请涉及应用识别技术领域，特别是涉及一种确定犯罪特征的方法、装置以及存储介质。

背景技术

随着国民经济的快速发展和人民生活水平的逐步提高，人员流动性日益加大，犯罪呈现职业化、智能化、团伙化、流窜化的趋势。同时，经济发展和通信手段的发达，使得技术型团伙作案有向深层方向发展的趋势。因而，对公安机关通过犯罪特征识别进行深层次的案件分析的需求与日俱增。

随着公安系统信息化应用的深入发展，公安业务系统内积累了大量的非结构化的文本数据量，其规模越来越庞大，且呈现出日益增长的趋势。目前，公安业务系统中尚缺乏有效的处理这种非结构化文本信息的有效手段。深度学习、知识图谱和语义推理技术的出现为基于自然语言理解的语义案情分析提供了一种有效的处理方法，提取案件中的作案特点、受害人、嫌疑人和作案手段等犯罪特征，利用相似犯罪特征更快速高效的分析出相似案件，加快破案速度，为相似案件、相似嫌疑人串并案提供便利。

针对上述的现有技术中存在的现有的公安业务系统中尚缺乏基于非结构化文本信息提取出犯罪特征的有效手段的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种确定犯罪特征的方法、装置以及存储介质，以至少解决现有技术中存在的现有的公安业务系统中尚缺乏基于非结构化文本信息提取出犯罪特征的有效手段的技术问题。

根据本公开实施例的一个方面，提供了一种确定犯罪特征的方法，包括：获取与刑事案件相关的第一文本数据，其中第一文本数据记载刑事案件的案情；以及基于第一文本数据，利用预先设置的模型，确定刑事案件的第一犯罪特征，其中第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项的方法。

根据本公开实施例的另一个方面，还提供了一种确定犯罪特征的装置，包括：获取模块，用于获取与刑事案件相关的第一文本数据，其中第一文本数据记载刑事案件的案情；以及确定模块，用于基于第一文本数据，利用预先设置的模型，确定刑事案件的第一犯罪特征，其中第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段。

根据本公开实施例的另一个方面，还提供了一种确定犯罪特征的装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取与刑事案件相关的第一文本数据，其中第一文本数据记载刑事案件的案情；以及基于第一文本数据，利用预先设置的模型，确定刑事案件的第一犯罪特征，其中第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段。

在本公开实施例中，通过利用预先设置的模型，可以高效的处理记载有案情的非结构化文本数据。进而达到了能够提取第一文本数据中的作案特点和作案手段等犯罪特征，有助于增强办案人员的办案能力，提高刑事案件的破案率的技术效果。进而解决了现有技术中存在的现有的公安业务系统中尚缺乏基于非结构化文本信息提取出犯罪特征的有效手段的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算机终端的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的确定犯罪特征的方法的流程示意图；

图3是根据本公开实施例1的第一个方面所述的犯罪知识图谱的示意图；

图4是根据本公开实施例1的第一个方面所述的Bi-LSTM逻辑单元结构示意图；

图5是根据本公开实施例1的第一个方面所述的犯罪特征提取模型的逻辑结构图；

图6是根据本公开实施例1的第一个方面所述的确定犯罪特征的完整流程图；

图7是根据本公开实施例2所述的确定犯罪特征的装置的示意图；以及

图8是根据本公开实施例3所述的确定犯罪特征的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

本公开所述的“字词”，不仅包括字，也包括词语。词语包括词、单词、短语、成语、固定用语等词语的形式。

实施例1

根据本实施例，提供了一种确定犯罪特征的方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现确定犯罪特征的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本公开实施例中的确定犯罪特征的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的确定犯罪特征的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种确定犯罪特征的方法，该方法可以由图1中所示的计算机终端10实现。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：获取与刑事案件相关的第一文本数据，其中第一文本数据记载刑事案件的案情；以及

S204：基于第一文本数据，利用预先设置的模型，确定刑事案件的第一犯罪特征，其中第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段。

正如前面背景技术中所述的，现有的随着国民经济的快速发展和人民生活水平的逐步提高，人员流动性日益加大，犯罪呈现职业化、智能化、团伙化、流窜化的趋势。同时，经济发展和通信手段的发达，使得技术型团伙作案有向深层方向发展的趋势。因而，对公安机关通过犯罪特征识别进行深层次的案件分析的需求与日俱增。

随着公安系统信息化应用的深入发展，公安业务系统内积累了大量的非结构化的文本数据量，其规模越来越庞大，且呈现出日益增长的趋势。目前，公安业务系统中尚缺乏有效的处理这种非结构化文本信息的有效手段。

针对上述背景技术中存在的问题，结合图1所示，本实施例提供的计算机终端10首先获取与刑事案件相关的第一文本数据，其中第一文本数据记载刑事案件的案情。例如：计算机终端10可以从案件库中获取具体案件的案情文本，作为该第一文本数据的实例。

然后，计算机终端10基于所获取的第一文本数据，利用预先设置的模型，确定刑事案件的第一犯罪特征。其中，第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段。

从而，通过这种方式，本实施例的技术方案利用预先设置的模型，可以高效的处理记载有案情的非结构化文本数据。进而达到了能够提取第一文本数据中的作案特点和作案手段等犯罪特征，有助于增强办案人员的办案能力，提高刑事案件的破案率的技术效果。进而解决了现有技术中存在的现有的公安业务系统中尚缺乏基于非结构化文本信息提取出犯罪特征的有效手段的技术问题。

可选地，确定第一犯罪特征的操作，包括：利用预先设置的犯罪特征提取模型，从第一文本数据中提取第二犯罪特征；根据第二犯罪特征以及预先设置的知识图谱模型，确定与第二犯罪特征对应的犯罪知识图谱，其中知识图谱模型用于指示与刑事案件相关的实体、实体属性以及实体间的关系；以及利用预先设置的语义推理模型，根据犯罪知识图谱，确定第一犯罪特征。

具体地，计算机终端10利用预先设置的犯罪特征提取模型，从第一文本数据中提取第二犯罪特征。其中第二犯罪特征可以为嫌疑人、受害人、涉案物品、时间、地点、案件、作案特点、作案手段等类型的实体、实体属性、实体间的关系。

然后计算机终端10根据预先设置的知识图谱模型，确定与第二犯罪特征对应的犯罪知识图谱。其中，图3示出了犯罪知识图谱的示意图。参考图3所示，计算机终端10可以使用Protégé工具构建基于OWL的刑事案件知识图谱的概要图(schema)，具体内容包括嫌疑人、受害人、涉案物品、时间、地点、案件、作案特点、作案手段等类型的实体、实体属性、实体间的关系及其约束。其中实体间的关系涉及实体间的上下位、整体-部分、并列等。然后计算机终端10对刑事案件文本库中的文本数据应用犯罪特征提取模型，将模型提取的嫌疑人、受害人、涉案物品、时间、地点、案件、作案特点、作案手段等类型的实体、实体属性、实体间的关系映射到刑事案件知识图谱的Schema中定义的实体及关系，生成与第二犯罪特征对应的犯罪知识图谱。犯罪知识图谱中包含了安全行业标准中规定的层次化树状结构的作案特点、作案手段及其包含的组织形式、行为特点、攀爬、金柜、开锁、胁迫、洞口侵入、持枪持械等子类实体的定义，及其下级子类实体的定义。

进一步地，计算机终端10利用预先设置的语义推理模型，根据犯罪知识图谱，确定第一犯罪特征。其中该语义推理模型用于应用路径排序(Path Ranking)推理算法对刑事案件知识图谱实例进行推理。其中推理的结果包括作案特点和作案特点等概念的犯罪特征。另外，知识推理是指从知识库中已有的实体关系数据出发进行推理，建立实体间的新关联，从而拓展和丰富知识网络。知识推理是知识图谱应用的重要手段和关键环节，通过知识推理，能够从现有知识中发现新的知识。知识推理的对象也并不局限于实体间的关系，也可以是实体的属性值、本体的概念层次关系等。其中，Path Ranking推理算法的公式为：

这里，R_l(e′，e)成立时I(R_l(e′，e))取1，否则为0。

P为空路径时，

对于给定的一组路径P₁，…，P_n，E_q取值为线性组合

其中，θ_i为对应路径的权重。

其中P＝(R₁，…，R_n)为关系序列，PRA模型通过路径特征的线性函数进行评价，θ通过对公式O(θ)＝∑_m＝1…M o^(m)(θ)-λ|θ|₂/2应用LBFGS优化算法进行估计。

从而，通过这种方式，使得计算机终端10可以利用预先设置的犯罪特征提取模型以及知识图谱模型，达到确定第一犯罪特征的效果。

可选地，从第一文本数据中提取第二犯罪特征的操作，包括：将所述第一文本数据中的字词转换为对应的词向量；以及根据所述词向量，利用所述犯罪特征提取模型，提取所述第二犯罪特征。

具体地，计算机终端10从第一文本数据中提取第二犯罪特征的操作，包括：计算机终端10根据第一文本数据，将所述第一文本数据中的字词转换为对应的词向量。例如：假设v将词映射为词向量，式v(“国王”)-v(“王后”)≈v(“男”)-v(“女”)表达出了词向量空间中所包含的线性语义关系。设

为句子中第i个词对应的k维词向量，长度为n的句子(长度不足时进行填充)可以表示为

这里，

为连接操作符，x_i：j表示词x_i，x_i+1，…，x_i-1+j的连接。然后，计算机终端10根据词向量，利用犯罪特征提取模型，提取第二犯罪特征。其中，以词向量作为输入值，输入该犯罪特征提取模型，进而提取出第二犯罪特征。

可选地，根据词向量，利用犯罪特征提取模型，提取第二犯罪特征的操作，包括：根据词向量，利用双向长短时记忆神经网络模型以及基于CRF的特征提取模型，提取第二犯罪特征。

具体地，计算机终端10根据词向量，利用犯罪特征提取模型，提取第二犯罪特征的操作，包括：计算机终端10根据词向量，利用双向长短时记忆神经网络模型以及基于CRF的特征提取模型，提取第二犯罪特征。其中，双向长短时记忆神经网络(Bi-LSTM)模型通过捕获输入-输出词序列间的长距离依赖关系，充分利用文本中蕴含的上下文相关信息。图4示出了Bi-LSTM逻辑单元结构示意图，参考图4所示，Bi-LSTM单元(Cell)由输入门、遗忘门、输出门组成。输入门(Input Gate)计算公式为：

其中

输入包括t时刻进入的输入

t-1时刻隐含单元的输出

以及来自t-1时刻Cell的输出

遗忘门(Forget Gate)计算公式为：

其中

输入包括t时刻进入的输入

t-1时刻隐含单元的输出

以及来自t-1时刻Cell的输出

Cell计算公式为：

输出门(Output Gate)计算公式为：

其中

Cell输出为

此外，双向循环神经网络(Bi-LSTM)通过将前向和反向时间序列结果连接后进行输出，能够提供给输出层输入序列中每一个点的完整的包含过去和未来时刻的上下文信息。t时刻的前向LSTM的隐状态

和反向LSTM输出的隐状态

连接后的输出特征

进一步地，计算机终端10将Bi-LSTM模型输出的h_t作为特征输入到基于CRF的特征提取模型进行标记后生成输出y_t。图5示出了犯罪特征提取模型的逻辑结构图，参考图5所示，犯罪特征提取模型由两个结构层，一是Bi-LSTM编码层，另一个是CRF层。此时，输入犯罪特征提取模型的词向量对应的词可以为：盗窃、电动、自行车、电焊机、等、物品等，然后犯罪特征提取模型输出的标签所对应的犯罪特征分别为：案件类型(B-C-TYPE)、涉案物品类型(B-C-ARTC)、涉案物品(E-C-ARTC)、涉案物品(E-C-ARTC)、无(NONE)以及涉案物品(E-C-ARTC)。其中，CRF记分公式为：

其中，A_i，j为标记i到标记j的状态转移矩阵单元。CRF层通过Softmax操作

输出标签的概率分布来实现作案特征的分类及提取。

可选地，将所述第一文本数据中的字词转换为对应的词向量的操作，包括：根据第一文本数据，构建词向量表，其中词向量表用于指示第一文本数据中的字词与词向量之间的映射关系；以及根据词向量表，将所述第一文本数据中的字词转换为对应的词向量。从而，计算机终端10可以将包含语义信息的词向量列表作为犯罪特征提取模型的输入。

可选地，将所述第一文本数据中的字词转换为对应的词向量的操作之前，还包括：对所述第一文本数据进行预处理。

可选地，所述预处理的操作，包括：文本数据的过滤、抽取及转换；进行字词和词性标注；以及构建词表，其中所述词表用于指示所述第一文本数据内的字词与词表索引之间的对应关系。例如：对案情描述的第一文本数据进行预处理的操作包括：第一文本数据的过滤、提取及转换，如去除文档中的空值、重复数据、不规范数据等，进行中文分词和词性标注。然后，计算机终端10需要先对第一文本数据进行解析，得到词。然后再根据所得到的词，建立词表，用于指示第一文本数据内的中文词汇与词表索引之间的对应关系。

可选地，还包括通过以下操作对预先设置的犯罪特征提取模型进行训练：获取与刑事案件相关的第二文本数据以及与第二文本数据对应的参考特征；基于第二文本数据，利用犯罪特征提取模型，从第二文本数据中提取第三犯罪特征；对第三犯罪特征以及参考特征进行比对；以及利用比对后的结果，对犯罪特征提取模型进行优化。

具体地，计算机终端10可以通过以下操作对预先设置的犯罪特征提取模型进行训练：计算机终端10获取与刑事案件相关的第二文本数据以及与第二文本数据对应的参考特征。其中参考特征可以根据刑事案件知识图谱的Schema，通过对案情数据库中的案情文本数据附加公共安全行业相关标准中规定的作案特点和作案手段等犯罪特征，生成用于训练模型的标注数据集，该标注数据集包括与第二文本数据对应的参考特征。其中，犯罪特征提取模型通过最大化正确标签序列的对数概率

进行训练。解码时，取使

达最大值的

作为模型输出。

进一步地，计算机终端10基于第二文本数据，利用犯罪特征提取模型，从第二文本数据中提取第三犯罪特征。然后，计算机终端10对第三犯罪特征以及参考特征进行比对。然后，根据比对结果，对犯罪特征提取模型进行优化。

可选地，对第三犯罪特征以及参考特征进行比对的操作，包括计算第三犯罪特征以及参考特征之间的L1空间距离，以及对犯罪特征提取模型进行优化的操作，包括：将L1空间距离作为交叉熵损失函数，计算交叉熵损失函数的梯度；以及基于梯度，根据随机梯度下降原理对犯罪特征提取模型进行优化。

具体地，计算机终端10计算第三犯罪特征以及参考特征之间的L1空间距离，然后，将L1空间距离作为交叉熵损失函数，计算交叉熵损失函数的梯度，其中，交叉熵损失函数的公式为：H(p，q)＝-∑_ip_i*logq_i。然后基于梯度，根据随机梯度下降原理对犯罪特征提取模型进行优化。其中，可以应用基于公式

的梯度下降算法更新模型参数θ。

进一步地，还可以通过以下方式对犯罪特征提取模型进行训练：将训练数据集随机分成9份互不相交的子集，采用交叉验证的方式训练9个犯罪特征提取模型。每个犯罪特征提取模型使用7份子集作为训练集，1份作为验证集，1份作为测试集。犯罪特征提取模型可以在TensorFlow平台上实现，将训练数据集进行预处理后作为犯罪特征提取模型的输入，训练采用最大化正确标签序列的对数概率

进行训练。解码时，取使

达最大值的

作为模型输出。然后，将训练完成的犯罪特征提取模型进行导出，通过9个犯罪特征提取模型集成(ensemble)的方式构建犯罪特征提取模型服务。使用犯罪特征提取模型服务对犯罪特征提取模型的分类错误结果进行分析，输出含有精确率(precision)和召回率(call)以及结合精确率和召回率的F1(F1＝2*P*R/(P+R))指标的犯罪特征提取模型结果报告。将训练完成后的导出的犯罪特征提取模型通过9个犯罪特征提取模型集成(ensemble)的方式构建犯罪特征提取模型服务，将9个犯罪特征提取模型的结果通过多数投票的方式进行输出作为最终预测结果。

进一步地，图6示出了确定犯罪特征的完整流程图。参考图6所示，有以下操作步骤：

步骤1：在Protégé工具中构建基于OWL的刑事案件知识图谱的Schema定义，具体内容包括定义嫌疑人、受害人、涉案物品、时间、地点、案件、作案行为、作案手段等类型的实体，定义实体的各种属性，定义实体间的上下位、整体一部分、并列等关系。对于犯罪特征实体，根据《GA 240.7-2000刑事犯罪信息管理代码第7部分：作案手段分类和代码》和《GA240.8-2000刑事犯罪信息管理代码第8部分：作案特点分类和代码》等中华人民共和国公共安全行业标准中规定的作案特点、作案手段定义及描述，定义层次化树状结构的作案特点、作案手段及其包含的组织形式、行为特点、攀爬、金柜、开锁、胁迫、洞口侵入、持枪持械等子类实体的定义，及其下级子类实体的定义，如组织形式中包含的单人作案、团体作案等。刑事案件知识图谱的Schema定义的简化逻辑关系如图1所示。

步骤2：根据步骤1生成的刑事案件知识图谱的Schema定义，通过对案情数据库中的案情文本数据标记为嫌疑人、受害人、涉案物品、时间、地点、案件、作案行为、作案手段等类型的实体，标记实体的各种属性，标记实体的上下位、整体-部分、并列关系，完成原始案件文本到知识图谱实例的映射。

步骤3：对步骤2中的标注数据进行处理，生成用于训练模型的标注数据集。对案情描述文本数据进行预处理，包括文本数据的过滤、抽取及转换，如去除文档中的空值、重复数据、不规范数据等，进行中文分词和词性标注，通过构建词表的方式建立中文词汇到词表索引间的对应关系。

步骤4：构建词-词向量(word embedding)映射表，输出包含语义信息的词向量列表作为模型训练的输入。假设v将词映射为词向量，式v(“国王”)-v(“王后”)≈v(“男”)-v(“女”)表达出了词向量空间中所包含的线性语义关系。设

这里，

为连接操作符，x_i：j表示词x_i，x_i+1，…，x_i-1+j的连接。

步骤5：建立双向长短时记忆(Bi-LSTM)神经网络模型。Bi-LSTM神经网络通过捕获输入-输出词序列间的长距离依赖关系，充分利用文本中蕴含的上下文相关信息。LSTM单元(Cell)由输入门、遗忘门、输出门组成。输入门(Input Gate)计算公式为

其中

输入包括t时刻进入的输入

t-1时刻隐含单元的输出

以及来自t-1时刻Cell的输出

遗忘门(Forget Gate)计算公式为

其中

输入包括t时刻进入的输入

t-1时刻隐含单元的输出

以及来自t-1时刻Cell的输出

Cell计算公式

输出门(Output Gate)计算公式为

其中

Cell输出为

由于标准的单向循环神经网络(LSTM)只能处理时序上的前向序列输入，往往忽略了时序上未来时刻的上下文信息，而双向循环神经网络(Bi-LSTM)通过将前向和反向时间序列结果连接后进行输出，能够提供给输出层输入序列中每一个点的完整的包含过去和未来时刻的上下文信息。图2所展示的是一个沿着时间序列展开的双向LSTM(Bi-LSTM)循环神经网络，前向和反向隐含层之间没有信息交换。t时刻的前向LSTM的隐状态

和反向LSTM输出的隐状态

连接后的输出特征

步骤6：构建基于CRF的特征抽取模型。将步骤5中Bi-LSTM输出的h_t作为特征输入到CRF进行标记后生成输出y_t。CRF记分公式为

其中，A_i，j为标记i到标记j的状态转移矩阵单元。CRF通过Softmax操作

输出标签的概率分布来实现作案特征的分类及抽取。

步骤7：特征抽取模型训练。模型通过最大化正确标签序列的对数概率

进行训练。解码时，取使

达最大值的

作为模型输出。将步骤6中的分类输出与步骤2中的标准数据集对应的标记特征进行比较，计算真实特征和预测特征间的交叉熵损失函数值，通过基于梯度下降的反向传播算法训练模型。交叉熵损失函数为H(p，q)＝-∑_ip_i*logq_i，应用基于公式

的梯度下降算法更新模型参数θ。

步骤8：犯罪特征抽取模型的训练。将训练数据集随机分成9份互不相交的子集，采用交叉验证的方式训练9个抽取模型。每个模型使用7份子集作为训练集，1份作为验证集，1份作为测试集。特征抽取模型在TensorFlow平台上实现，将训练数据集通过步骤3进行预处理后作为模型的输入。模型训练在TensorFlow平台上完成，训练采用步骤7中的算法实现。将训练完成的模型进行导出，通过9个模型集成(ensemble)的方式构建犯罪特征识别模型服务。使用模型服务对模型的分类错误结果进行分析，输出含有精确率(precision)和召回率(call)以及结合精确率和召回率的F1(F1＝2*P*R/(P+R))指标的模型结果报告。将训练完成后的导出的模型通过9个模型集成(ensemble)的方式构建犯罪特征抽取模型服务，将9个模型的结果通过多数投票的方式进行输出作为最终预测结果。

步骤9：构建刑事案件知识图谱实例。对刑事案件文本库中的文本应用刑事案件抽取模型，将CRF模型输出的嫌疑人、受害人、涉案物品、时间、地点、案件、作案行为、作案手段等类型的实体、实体属性、实体间的关系对应到刑事案件知识图谱的Schema中定义的实体及关系，生成刑事案件知识图谱实例。刑事案件知识图谱实例中包含了安全行业标准中规定的层次化树状结构的作案特点、作案手段及其包含的组织形式、行为特点、攀爬、金柜、开锁、胁迫、洞口侵入、持枪持械等子类实体的定义，及其下级子类实体的定义。

步骤10：应用基于Path Ranking算法(PRA)进行基于知识图谱的关系推理。应用PRA推理算法对刑事案件知识图谱实例进行推理，推断包含作案行为和作案特点等概念的犯罪特征。PRA公式

这里，R_l(e′，e)成立时I(R_l(e′，e))取1，否则为0。P为空路径时，

对于给定的一组路径P₁，…，P_n，E_q取值为线性组合

其中，θ_i为对应路径的权重。

其中P＝(R₁，…，R_n)为关系序列，PRA模型通过路径特征的线性函数进行评价，通过公式O(θ)＝∑_m＝1…M o^(m)(θ)-λ|θ|₂/2应用LBFGS优化算法对θ进行估计。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质104。存储介质104包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图7示出了根据本实施例所述的确定犯罪特征的装置700，该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示，该装置700包括：获取模块710，用于获取与刑事案件相关的第一文本数据，其中第一文本数据记载刑事案件的案情；以及确定模块720，用于基于第一文本数据，利用预先设置的模型，确定刑事案件的第一犯罪特征，其中第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段。

可选地，确定模块720，包括：提取子模块，用于利用预先设置的犯罪特征提取模型，从第一文本数据中提取第二犯罪特征；第一确定子模块，用于根据第二犯罪特征以及预先设置的知识图谱模型，确定与第二犯罪特征对应的犯罪知识图谱，其中知识图谱模型用于指示与刑事案件相关的实体、实体属性以及实体间的关系；以及第二确定子模块，用于利用预先设置的语义推理模型，根据犯罪知识图谱，确定第一犯罪特征。

可选地，提取子模块，包括：转换单元，用于将所述第一文本数据中的字词转换为对应的词向量；以及提取单元，用于根据所述词向量，利用犯罪特征提取模型，提取第二犯罪特征。

可选地，提取单元，包括：提取子单元，用于根据所述词向量，利用双向长短时记忆神经网络模型以及基于CRF的特征提取模型，提取第二犯罪特征。

可选地，转换单元，包括：第一构建子单元，用于根据第一文本数据，构建词向量表，其中词向量表用于指示第一文本数据中的字词与词向量之间的映射关系；以及确定子单元，用于根据词向量表，将所述第一文本数据中的字词转换为对应的词向量。

可选地，还包括预处理模块，用于在将所述第一文本数据中的字词转换为对应的词向量的操作之前，对所述第一文本数据进行预处理。

可选地，所述预处理模块包括：第一预处理子单元，用于文本数据的过滤、抽取及转换；第二预处理子单元，用于进行字词和词性标注；以及构建子单元，用于构建词表，其中所述词表用于指示所述第一文本数据内的字词与词表索引之间的对应关系。

可选地，还包括训练模块，用于通过以下操作对预先设置的犯罪特征提取模型进行训练：获取与刑事案件相关的第二文本数据以及与第二文本数据对应的参考特征；基于第二文本数据，利用犯罪特征提取模型，从第二文本数据中提取第三犯罪特征；对第三犯罪特征以及参考特征进行比对；以及利用比对后的结果，对犯罪特征提取模型进行优化。

从而根据本实施例，通过装置700从案件库中获取与刑事案件相关的文本数据，然后对文本数据进行预处理，并生成词表。然后再根据所生成的词表，确定词-词向量之间的映射关系，并基于所确定的映射关系，构建词向量表。然后将词向量表内的词向量作为犯罪特征提取模型的输入，对本文数据中的犯罪特征进行提取，得到第二犯罪特征。进一步地，装置700根据根据预先设置的犯罪知识图谱模型，基于案件库，将犯罪特征提取模型输出的第二犯罪特征对应至预先设置好的知识图谱，构建出与文本数据对应的犯罪知识图谱。最后在利用语义推理模型，根据犯罪知识图谱，确定第一犯罪特征。从而完成了基于与刑事案件相关的文本数据，确定犯罪特征的整个流程。进而达到了能够提取文本数据中的作案特点和作案手段等犯罪特征，有助于增强办案人员的办案能力，提高刑事案件的破案率的技术效果。进而解决了现有技术中存在的现有的公安业务系统中尚缺乏基于非结构化文本信息提取出犯罪特征的有效手段的技术问题。

实施例3

图8示出了根据本实施例所述的确定犯罪特征的装置800，该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示，该装置800包括：处理器810；以及存储器820，与处理器810连接，用于为处理器810提供处理以下处理步骤的指令：获取与刑事案件相关的第一文本数据，其中第一文本数据记载刑事案件的案情；以及基于第一文本数据，利用预先设置的模型，确定刑事案件的第一犯罪特征，其中第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段。

可选地，从所述第一文本数据中提取第二犯罪特征的操作，包括：将所述第一文本数据中的字词转换为对应的词向量；以及根据所述词向量，利用所述犯罪特征提取模型，提取所述第二犯罪特征。

可选地，根据所述词向量，利用所述犯罪特征提取模型，提取所述第二犯罪特征的操作，包括：根据所述词向量，利用双向长短时记忆神经网络模型以及基于CRF的特征提取模型，提取所述第二犯罪特征。

可选地，将所述第一文本数据中的字词转换为对应的词向量的操作，包括：根据所述第一文本数据，构建词向量表，其中所述词向量表用于指示所述第一文本数据中的字词与词向量之间的映射关系；以及根据所述词向量表，将所述第一文本数据中的字词转换为对应的词向量。

可选地，所述预处理的操作，包括：文本数据的过滤、抽取及转换；进行字词和词性标注；以及构建词表，其中所述词表用于指示所述第一文本数据内的字词与词表索引之间的对应关系。

可选地，存储器820还用于为处理器810提供处理以下处理步骤的指令：通过以下操作对预先设置的犯罪特征提取模型进行训练：获取与刑事案件相关的第二文本数据以及与第二文本数据对应的参考特征；基于第二文本数据，利用犯罪特征提取模型，从第二文本数据中提取第三犯罪特征；对第三犯罪特征以及参考特征进行比对；以及利用比对后的结果，对犯罪特征提取模型进行优化。

从而根据本实施例，通过装置800从案件库中获取与刑事案件相关的文本数据，然后对文本数据进行预处理，并生成词表。然后再根据所生成的词表，确定词-词向量之间的映射关系，并基于所确定的映射关系，构建词向量表。然后将词向量表内的词向量作为犯罪特征提取模型的输入，对本文数据中的犯罪特征进行提取，得到第二犯罪特征。进一步地，装置800根据根据预先设置的犯罪知识图谱模型，基于案件库，将犯罪特征提取模型输出的第二犯罪特征对应至预先设置好的知识图谱，构建出与文本数据对应的犯罪知识图谱。最后在利用语义推理模型，根据犯罪知识图谱，确定第一犯罪特征。从而完成了基于与刑事案件相关的文本数据，确定犯罪特征的整个流程。进而达到了能够提取文本数据中的作案特点和作案手段等犯罪特征，有助于增强办案人员的办案能力，提高刑事案件的破案率的技术效果。进而解决了现有技术中存在的现有的公安业务系统中尚缺乏基于非结构化文本信息提取出犯罪特征的有效手段的技术问题。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种确定犯罪特征的方法，其特征在于，包括：

在Protégé工具中构建基于OWL的刑事案件知识图谱的Schema定义，具体内容包括定义嫌疑人、受害人、涉案物品、时间、地点、案件、作案行为、作案手段类型的实体，定义实体的各种属性，定义实体间的上下位、整体-部分、并列关系；

根据所构建的刑事案件知识图谱的Schema定义，通过对案情数据库中的案情文本数据标记为嫌疑人、受害人、涉案物品、时间、地点、案件、作案行为、作案手段类型的实体，标记实体的各种属性，标记实体的上下位、整体-部分、并列关系，完成原始案件文本到知识图谱实例的映射，其中标记后的案情文本数据作为训练预先设置的犯罪特征提取模型的输入数据；

获取与刑事案件相关的第一文本数据，其中所述第一文本数据记载所述刑事案件的案情；

基于所述第一文本数据，利用预先设置的模型，确定所述刑事案件的第一犯罪特征，其中所述第一犯罪特征包括以下信息中的至少部分信息：作案特点、受害人、嫌疑人以及作案手段；并且其中

基于所述第一文本数据，利用预先设置的模型，确定所述刑事案件的第一犯罪特征的操作，包括：

基于所述第一文本数据，利用所述犯罪特征提取模型，从所述第一文本数据中提取第二犯罪特征，其中所述第二犯罪特征包括嫌疑人、受害人、涉案物品、时间、地点、案件、作案行为、作案手段类型的实体、实体属性、实体间的关系；

将所述第二犯罪特征对应到预先设置的刑事案件知识图谱的Schema中定义的实体及关系，生成犯罪知识图谱，其中所述犯罪知识图谱包含了安全行业标准中规定的层次化树状结构的作案特点、作案手段及其包含的组织形式、行为特点、攀爬、金柜、开锁、胁迫、洞口侵入、持枪持械子类实体的定义，及其下级子类实体的定义；以及

应用PRA推理算法对所述犯罪知识图谱进行推理，推断包含作案特点、受害人、嫌疑人以及作案手段概念的第一犯罪特征。

2.根据权利要求1所述的方法，其特征在于，从所述第一文本数据中提取第二犯罪特征的操作，包括：

将所述第一文本数据中的字词转换为对应的词向量；以及

根据所述词向量，利用所述犯罪特征提取模型，提取所述第二犯罪特征。

3.根据权利要求2所述的方法，其特征在于，根据所述词向量，利用所述犯罪特征提取模型，提取所述第二犯罪特征的操作，包括：

根据所述词向量，利用双向长短时记忆神经网络模型以及基于CRF的特征提取模型，提取所述第二犯罪特征。

4.根据权利要求2所述的方法，其特征在于，将所述第一文本数据中的字词转换为对应的词向量的操作，包括：

根据所述第一文本数据，构建词向量表，其中所述词向量表用于指示所述第一文本数据中的字词与词向量之间的映射关系；以及

根据所述词向量表，将所述第一文本数据中的字词转换为对应的词向量。

5.根据权利要求4所述的方法，其特征在于，将所述第一文本数据中的字词转换为对应的词向量的操作之前，还包括：对所述第一文本数据进行预处理。

6.根据权利要求5所述的方法，其特征在于，所述预处理的操作，包括：

文本数据的过滤、抽取及转换；

进行字词和词性标注；以及

构建词表，其中所述词表用于指示所述第一文本数据内的字词与词表索引之间的对应关系。

7.根据权利要求1所述的方法，其特征在于，还包括通过以下操作对所述预先设置的犯罪特征提取模型进行训练：

获取与刑事案件相关的第二文本数据以及与所述第二文本数据对应的参考特征；

基于所述第二文本数据，利用所述犯罪特征提取模型，从所述第二文本数据中提取第三犯罪特征；

对所述第三犯罪特征以及所述参考特征进行比对；以及

利用所述比对后的结果，对所述犯罪特征提取模型进行优化。

8.根据权利要求7所述的方法，其特征在于，对所述第三犯罪特征以及所述参考特征进行比对的操作，包括计算所述第三犯罪特征以及所述参考特征之间的L1空间距离，以及对所述犯罪特征提取模型进行优化的操作，包括：

将所述L1空间距离作为交叉熵损失函数，计算所述交叉熵损失函数的梯度；以及

基于所述梯度，根据随机梯度下降原理对所述犯罪特征提取模型进行优化。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至8中任意一项所述的方法。