CN110188346A

CN110188346A - 一种基于信息抽取的网络安全法案件智能研判方法

Info

Publication number: CN110188346A
Application number: CN201910354275.8A
Authority: CN
Inventors: 吕明琪; 朱康钧; 黄超; 张�浩; 陈铁明
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-30
Anticipated expiration: 2039-04-29
Also published as: CN110188346B

Abstract

一种基于信息抽取的网络安全法案件智能研判方法，包括如下步骤：(1)知识图谱构建：从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱；(2)案件信息抽取：从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体，并在网络安全法知识图谱中进行事件概念链接；(3)法律条文检索：综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索，得到可用于对网络安全法案件进行研判的法律条文。本发明基于信息抽取对网络安全法案件进行理解，使得方法可更精确的获得案件的结构化信息，采用知识图谱对网络安全法的相关知识进行表示，使得方法可更准确的对案件做出研判。

Description

一种基于信息抽取的网络安全法案件智能研判方法

技术领域

本发明涉及数据挖掘和知识图谱技术，具体涉及一种法律案件智能研判方法。

背景技术

法律案件判决是非常严肃的事务，因此当前法律案件智能研判系统基本只是提供判决辅助，而不是给出最终判决。法律案件智能研判系统提供判决辅助的主要方式包括：相似案件推荐、量刑预测、法律条文匹配等。其中，法律条文匹配能够从大量法律条文中找到与法律案件最匹配的法律条文，对法律案件判决具有最直接的指导价值。

现有法律条文匹配方法主要基于语义分析技术，采用关键词抽取、词向量、句子聚类、主体模型等技术分析法律案件文本的语义，在此基础上采用相似度模型、分类模型等定位到相应的法律条文。然而，这些方法存在以下不足：

首先，法律条文通常比较抽象，其描述多集中在“概念”层面，而实际法律案件往往是对“实例”的描述。因此，仅对词或句子做语义分析很难发现其中的潜在关联，特别是训练样本不足的情况下。例如，网络安全法第47条中的描述“禁止发布或者传输的信息”就十分抽象，基本没有实际案件会这样描述(实际案件可能会描述成“发布暴力、色情信息”)。

其次，法律案件文本通常较长、包含较多信息，把这些信息全部用于法律条文匹配通常难以达到理想的性能。实际上，法律案件文本中只有一小部分关键信息对法律条文匹配具有指导作用。例如，在网络安全法案件中，通常只有“违法主体”、“违法事件”等关键信息能够帮助法律条文匹配。

发明内容

为了克服已有现有法律条文匹配方法的无法适用于训练样本不足的情况、匹配性能较差的不足，发明提出了一种基于信息抽取的网络安全法案件智能研判方法，基于信息抽取对网络安全法案件进行理解，使得方法可更精确的获得案件的结构化信息，采用知识图谱对网络安全法的相关知识进行表示，使得方法可更准确的对案件做出研判。

本发明解决其技术问题所采用的技术方案是：

一种基于信息抽取的网络安全法案件智能研判方法，包括如下步骤：

(1)知识图谱构建：从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱；

(2)案件信息抽取：从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体，并在网络安全法知识图谱中进行事件概念链接；

(3)法律条文检索：综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索，得到可用于对网络安全法案件进行研判的法律条文。

进一步，所述步骤(1)中，网络安全法知识图谱依赖专家知识人工构建，步骤如下：

(1-1)节点构建：从事件概念、事件实体、法律条文三个方面构建节点。其中，事件概念节点包括违法事件类型、违法主体类型、违法客体类型三类，事件实体节点包括违法事件实体、违法主体实体、违法客体实体三类，法律条文节点包括事件条文、责任条文两类；

(1-2)关系构建：为违法事件类型和其对应的违法事件实体、违法主体类型和其对应的违法主体实体、违法客体类型和其对应的违法客体实体建立“属于”关系，为事件条文和其对应的违法事件类型、违法主体类型、违法客体类型建立“涉及”关系，为事件条文和其对应的责任条文建立“后果”关系。

再进一步，所述步骤(2)中，网络安全法案件信息抽取基于深度学习技术实现，步骤如下：

(2-1)训练样本标注：对网络安全法历史案件文本集合中的每一个句子，对其中所有的字进行序列标注，包括违法事件实体首字(B-EVE)、违法事件实体非首字(I-EVE)、违法主体实体首字(B-SUB)、违法主体实体非首字(I-SUB)、违法客体实体首字(B-OBJ)、违法客体实体非首字(I-OBJ)、非事件实体部分(O)，标注好的句子即为一个训练样本；

(2-2)事件实体识别：事件实体识别指从一个句子中识别出违法事件实体、违法主体实体和违法客体实体；

(2-3)事件概念链接：事件概念链接指识别出事件实体对应的事件概念，给定事件实体三元组E＝(E_e,E_s,E_o)。

所述步骤(2.2)包括线下训练和线上识别两部分，步骤如下：

(2-2-1)线下训练：基于双向LSTM+CRF训练事件实体识别模型，模型结构解释如下：

输入层：模型的输入为一个句子，采用预训练的字嵌入矩阵将句子中的每个字映射为一个k维向量，得到一个字向量序列<x₁,x₂,...,x_n>，其中，x_i为句子中第i个字对应的字向量；

双向LSTM层：首先，将字向量序列<x₁,x₂,...,x_n>输入正向LSTM和反向LSTM的各时间步；然后，将正向LSTM输出的隐状态序列<fh₁,fh₂,...,fh_n>和反向LSTM输出的隐状态序列<bh₁,bh₂,...,bh_n>在各时间步进行拼接，得到一个的隐状态序列<h₁,h₂,...,h_n>，其中，h_i＝[fh_i；bh_i]为一个m维向量；最后，采用一个全连接层将每个m维的隐状态向量h_i映射为一个7维的特征向量p_i，得到一个特征向量序列<p₁,p₂,...,p_n>；

CRF层：将特征向量序列<p₁,p₂,...,p_n>输入CRF模型进行全局优化，最终输出为一个标注序列；

(2-2-2)线上识别：给定一个网络安全法案件文本D，首先将D按句子进行划分，得到一个句子集合SS；然后，将SS中每个句子S_i输入训练好的事件实体识别模型，得到S_i的标注序列，并对连续的B-EVE和I-EVE字进行合并得到违法事件实体E_e，对连续的B-SUB和I-SUB字进行合并得到违法主体实体E_s，对连续的B-OBJ和I-OBJ字进行合并得到违法客体实体E_o，若E_e和E_s均不为空，则构成事件实体三元组E＝(E_e,E_s,E_o)；最后，合并SS中多个句子检测出的事件实体三元组，则得到事件实体三元组集合ES。

所述步骤(2.3)的步骤如下：

(2-3-1)违法主体概念链接：直接在网络安全法知识图谱中检索名称或别名为E_s的违法主体实体节点，然后返回与该节点存在“属于”关系的违法主体类型节点对应的违法主体类型C_s；

(2-3-2)违法客体概念链接：若E_o为空，则返回空；若E_o不为空，则直接在网络安全法知识图谱中检索名称或别名为E_o的违法客体实体节点，然后返回与该节点存在“属于”关系的违法客体类型节点对应的违法客体类型C_o；

(2-3-3)违法事件概念链接：首先，基于FastText算法线下训练一个违法事件分类模型，用于将违法事件实体文本分类到违法事件类型。然后，应用该分类模型获得E_e对应的违法事件类型C_e；

(2-3-4)事件概念三元组构建：基于步骤(2-3-1)、(2-3-2)和(2-3-3)得到ES中每个事件实体三元组E＝(E_e,E_s,E_o)对应的事件概念三元组C＝(C_e,C_s,C_o)，最终得到事件概念三元组集合CS。

更进一步，所述步骤(3)中，给定网络安全法案件文本D和其对应的事件概念三元组集合CS，法律条文检索步骤如下：

(3-1)结构化检索：对CS中每个事件概念三元组C＝(C_e,C_s,C_o)，若C_o为空，则在网络安全法知识图谱中检索与C_e和C_s均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点，得到检索结果二元组Q＝(L_e,L_r)，其中L_e为网络安全法中的事件条文，L_r为网络安全法中的责任条文；若C_o不为空，则在网络安全法知识图谱中检索与C_e、C_s和C_o均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点，得到检索结果二元组Q＝(L_e,L_r)；最终，得到检索结果二元组集合QS；

(3-2)非结构化检索：若QS为空，则进行非结构化检索；

(3-3)结果返回：返回QS作为最终研判结果。

所述步骤(3-2)的步骤如下：

(3-2-1)关键词抽取：基于TF-IDF算法对D进行关键词抽取，保留分数最高的k个关键词，形成关键词集合KW(D)；

(3-2-2)全文检索：基于Lucene全文检索引擎从网络安全法事件条文数据库中检索至少包含KW(D)中一个关键词的所有事件条文，形成候选事件条文集合LE(D)；

(3-2-3)匹配度计算：对LE(D)中每个候选事件条文L_e，计算其包含KW(D)中关键词的数量n(L_e)，则匹配度score(D,L_e)＝n(L_e)/k。最终，选取匹配度最高的候选事件条文L_e，并在网络安全法知识图谱中检索L_e对应的事件条文节点和与该节点存在“后果”关系的责任条文节点对应的责任条文L_r，得到检索结果二元组Q＝(L_e,L_r)，将Q加入检索结果二元组集合QS。

本发明的有益效果主要表现在：(1)基于信息抽取对网络安全法案件进行理解，使得方法可更精确的获得案件的结构化信息。(2)采用知识图谱对网络安全法的相关知识进行表示，使得方法可更准确的对案件做出研判。

附图说明

图1为一种基于信息抽取的网络安全法案件智能研判方法流程图；

图2为网络安全法知识图谱结构图；

图3为训练样本标注实施例图；

图4为基于双向LSTM+CRF的事件实体识别模型结构图；

图5为法律条文检索流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图5，一种基于信息抽取的网络安全法案件智能研判方法，包括以下步骤：

参照图2，所述步骤(1)中，网络安全法知识图谱主要依赖专家知识人工构建，其步骤如下：

所述步骤(2)中，网络安全法案件信息抽取基于深度学习技术实现，步骤如下：

(2-1)训练样本标注：对网络安全法历史案件文本集合中的每一个句子，对其中所有的字进行序列标注，包括违法事件实体首字(B-EVE)、违法事件实体非首字(I-EVE)、违法主体实体首字(B-SUB)、违法主体实体非首字(I-SUB)、违法客体实体首字(B-OBJ)、违法客体实体非首字(I-OBJ)、非事件实体部分(O)，标注好的句子即为一个训练样本。图3给出了一个具体的训练样本标注实施例；

(2-2)事件实体识别：事件实体识别指从一个句子中识别出违法事件实体、违法主体实体和违法客体实体，包括线下训练和线上识别两部分，步骤如下：

(2-2-1)线下训练：基于双向LSTM+CRF训练事件实体识别模型，模型结构如图4所示，解释如下：

输入层：模型的输入为一个句子，采用预训练的字嵌入矩阵将句子中的每个字映射为一个k维向量，得到一个字向量序列<x₁,x₂,...,x_n>(其中，x_i为句子中第i个字对应的字向量)。

双向LSTM层：首先，将字向量序列<x₁,x₂,...,x_n>输入正向LSTM和反向LSTM的各时间步。然后，将正向LSTM输出的隐状态序列<fh₁,fh₂,...,fh_n>和反向LSTM输出的隐状态序列<bh₁,bh₂,...,bh_n>在各时间步进行拼接，得到一个的隐状态序列<h₁,h₂,...,h_n>(其中，h_i＝[fh_i；bh_i]为一个m维向量)。最后，采用一个全连接层将每个m维的隐状态向量h_i映射为一个7维的特征向量p_i，得到一个特征向量序列<p₁,p₂,...,p_n>。

CRF层：将特征向量序列<p₁,p₂,...,p_n>输入CRF模型进行全局优化，最终输出为一个标注序列。

(2-2-2)线上识别：给定一个网络安全法案件文本D，首先将D按句子进行划分，得到一个句子集合SS。然后，将SS中每个句子S_i输入训练好的事件实体识别模型，得到S_i的标注序列，并对连续的B-EVE和I-EVE字进行合并得到违法事件实体E_e，对连续的B-SUB和I-SUB字进行合并得到违法主体实体E_s，对连续的B-OBJ和I-OBJ字进行合并得到违法客体实体E_o，若E_e和E_s均不为空，则构成事件实体三元组E＝(E_e,E_s,E_o)。最后，合并SS中多个句子检测出的事件实体三元组，则得到事件实体三元组集合ES。

(2-3)事件概念链接：事件概念链接指识别出事件实体对应的事件概念，给定事件实体三元组E＝(E_e,E_s,E_o)，步骤如下：

(2-3-1)违法主体概念链接：直接在网络安全法知识图谱中检索名称或别名为E_s的违法主体实体节点，然后返回与该节点存在“属于”关系的违法主体类型节点对应的违法主体类型C_s。

(2-3-2)违法客体概念链接：若E_o为空，则返回空；若E_o不为空，则直接在网络安全法知识图谱中检索名称或别名为E_o的违法客体实体节点，然后返回与该节点存在“属于”关系的违法客体类型节点对应的违法客体类型C_o。

(2-3-3)违法事件概念链接：首先，基于FastText算法线下训练一个违法事件分类模型，用于将违法事件实体文本分类到违法事件类型。然后，应用该分类模型获得E_e对应的违法事件类型C_e。

参照图5，所述步骤(3)中，给定网络安全法案件文本D和其对应的事件概念三元组集合CS，法律条文检索步骤如下：

(3-1)结构化检索：对CS中每个事件概念三元组C＝(C_e,C_s,C_o)，若C_o为空，则在网络安全法知识图谱中检索与C_e和C_s均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点，得到检索结果二元组Q＝(L_e,L_r)，其中L_e为网络安全法中的事件条文，L_r为网络安全法中的责任条文；若C_o不为空，则在网络安全法知识图谱中检索与C_e、C_s和C_o均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点，得到检索结果二元组Q＝(L_e,L_r)。最终，得到检索结果二元组集合QS。

(3-2)非结构化检索：若QS为空，则进行非结构化检索，步骤如下：

(3-2-1)关键词抽取：基于TF-IDF算法对D进行关键词抽取，保留分数最高的k个关键词，形成关键词集合KW(D)。

(3-2-2)全文检索：基于Lucene全文检索引擎从网络安全法事件条文数据库中检索至少包含KW(D)中一个关键词的所有事件条文，形成候选事件条文集合LE(D)。

(3-3)结果返回：返回QS作为最终研判结果。

Claims

1.一种基于信息抽取的网络安全法案件智能研判方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的一种基于信息抽取的网络安全法案件智能研判方法，其特征在于，所述步骤(1)中，网络安全法知识图谱依赖专家知识人工构建，步骤如下：

(1-1)节点构建：从事件概念、事件实体、法律条文三个方面构建节点，其中，事件概念节点包括违法事件类型、违法主体类型、违法客体类型三类，事件实体节点包括违法事件实体、违法主体实体、违法客体实体三类，法律条文节点包括事件条文、责任条文两类；

3.如权利要求1或2所述的一种基于信息抽取的网络安全法案件智能研判方法，其特征在于，所述步骤(2)中，网络安全法案件信息抽取基于深度学习技术实现，步骤如下：

(2-1)训练样本标注：对网络安全法历史案件文本集合中的每一个句子，对其中所有的字进行序列标注，包括违法事件实体首字B-EVE、违法事件实体非首字I-EVE、违法主体实体首字B-SUB、违法主体实体非首字I-SUB、违法客体实体首字B-OBJ、违法客体实体非首字I-OBJ、非事件实体部分O，标注好的句子即为一个训练样本；

4.如权利要求3所述的一种基于信息抽取的网络安全法案件智能研判方法，其特征在于，所述步骤(2.2)包括线下训练和线上识别两部分，步骤如下：

5.如权利要求3所述的一种基于信息抽取的网络安全法案件智能研判方法，其特征在于，所述步骤(2.3)的步骤如下：

(2-3-3)违法事件概念链接：首先，基于FastText算法线下训练一个违法事件分类模型，用于将违法事件实体文本分类到违法事件类型，然后，应用该分类模型获得E_e对应的违法事件类型C_e；

6.如权利要求1或2所述的一种基于信息抽取的网络安全法案件智能研判方法，其特征在于，所述步骤(3)中，给定网络安全法案件文本D和其对应的事件概念三元组集合CS，法律条文检索步骤如下：

(3-2)非结构化检索：若QS为空，则进行非结构化检索；

(3-3)结果返回：返回QS作为最终研判结果。

7.如权利要求6所述的一种基于信息抽取的网络安全法案件智能研判方法，其特征在于，所述步骤(3-2)的步骤如下：

(3-2-3)匹配度计算：对LE(D)中每个候选事件条文L_e，计算其包含KW(D)中关键词的数量n(L_e)，则匹配度score(D,L_e)＝n(L_e)/k；最终，选取匹配度最高的候选事件条文L_e，并在网络安全法知识图谱中检索L_e对应的事件条文节点和与该节点存在“后果”关系的责任条文节点对应的责任条文L_r，得到检索结果二元组Q＝(L_e,L_r)，将Q加入检索结果二元组集合QS。