CN110188346A - 一种基于信息抽取的网络安全法案件智能研判方法 - Google Patents
一种基于信息抽取的网络安全法案件智能研判方法 Download PDFInfo
- Publication number
- CN110188346A CN110188346A CN201910354275.8A CN201910354275A CN110188346A CN 110188346 A CN110188346 A CN 110188346A CN 201910354275 A CN201910354275 A CN 201910354275A CN 110188346 A CN110188346 A CN 110188346A
- Authority
- CN
- China
- Prior art keywords
- entity
- event
- network security
- provision
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 24
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000013507 mapping Methods 0.000 claims abstract description 30
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims 1
- 238000001228 spectrum Methods 0.000 claims 1
- 238000007689 inspection Methods 0.000 description 2
- 125000006850 spacer group Chemical group 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于信息抽取的网络安全法案件智能研判方法,包括如下步骤:(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。本发明基于信息抽取对网络安全法案件进行理解,使得方法可更精确的获得案件的结构化信息,采用知识图谱对网络安全法的相关知识进行表示,使得方法可更准确的对案件做出研判。
Description
技术领域
本发明涉及数据挖掘和知识图谱技术,具体涉及一种法律案件智能研判方法。
背景技术
法律案件判决是非常严肃的事务,因此当前法律案件智能研判系统基本只是提供判决辅助,而不是给出最终判决。法律案件智能研判系统提供判决辅助的主要方式包括:相似案件推荐、量刑预测、法律条文匹配等。其中,法律条文匹配能够从大量法律条文中找到与法律案件最匹配的法律条文,对法律案件判决具有最直接的指导价值。
现有法律条文匹配方法主要基于语义分析技术,采用关键词抽取、词向量、句子聚类、主体模型等技术分析法律案件文本的语义,在此基础上采用相似度模型、分类模型等定位到相应的法律条文。然而,这些方法存在以下不足:
首先,法律条文通常比较抽象,其描述多集中在“概念”层面,而实际法律案件往往是对“实例”的描述。因此,仅对词或句子做语义分析很难发现其中的潜在关联,特别是训练样本不足的情况下。例如,网络安全法第47条中的描述“禁止发布或者传输的信息”就十分抽象,基本没有实际案件会这样描述(实际案件可能会描述成“发布暴力、色情信息”)。
其次,法律案件文本通常较长、包含较多信息,把这些信息全部用于法律条文匹配通常难以达到理想的性能。实际上,法律案件文本中只有一小部分关键信息对法律条文匹配具有指导作用。例如,在网络安全法案件中,通常只有“违法主体”、“违法事件”等关键信息能够帮助法律条文匹配。
发明内容
为了克服已有现有法律条文匹配方法的无法适用于训练样本不足的情况、匹配性能较差的不足,发明提出了一种基于信息抽取的网络安全法案件智能研判方法,基于信息抽取对网络安全法案件进行理解,使得方法可更精确的获得案件的结构化信息,采用知识图谱对网络安全法的相关知识进行表示,使得方法可更准确的对案件做出研判。
本发明解决其技术问题所采用的技术方案是:
一种基于信息抽取的网络安全法案件智能研判方法,包括如下步骤:
(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;
(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;
(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。
进一步,所述步骤(1)中,网络安全法知识图谱依赖专家知识人工构建,步骤如下:
(1-1)节点构建:从事件概念、事件实体、法律条文三个方面构建节点。其中,事件概念节点包括违法事件类型、违法主体类型、违法客体类型三类,事件实体节点包括违法事件实体、违法主体实体、违法客体实体三类,法律条文节点包括事件条文、责任条文两类;
(1-2)关系构建:为违法事件类型和其对应的违法事件实体、违法主体类型和其对应的违法主体实体、违法客体类型和其对应的违法客体实体建立“属于”关系,为事件条文和其对应的违法事件类型、违法主体类型、违法客体类型建立“涉及”关系,为事件条文和其对应的责任条文建立“后果”关系。
再进一步,所述步骤(2)中,网络安全法案件信息抽取基于深度学习技术实现,步骤如下:
(2-1)训练样本标注:对网络安全法历史案件文本集合中的每一个句子,对其中所有的字进行序列标注,包括违法事件实体首字(B-EVE)、违法事件实体非首字(I-EVE)、违法主体实体首字(B-SUB)、违法主体实体非首字(I-SUB)、违法客体实体首字(B-OBJ)、违法客体实体非首字(I-OBJ)、非事件实体部分(O),标注好的句子即为一个训练样本;
(2-2)事件实体识别:事件实体识别指从一个句子中识别出违法事件实体、违法主体实体和违法客体实体;
(2-3)事件概念链接:事件概念链接指识别出事件实体对应的事件概念,给定事件实体三元组E=(Ee,Es,Eo)。
所述步骤(2.2)包括线下训练和线上识别两部分,步骤如下:
(2-2-1)线下训练:基于双向LSTM+CRF训练事件实体识别模型,模型结构解释如下:
输入层:模型的输入为一个句子,采用预训练的字嵌入矩阵将句子中的每个字映射为一个k维向量,得到一个字向量序列<x1,x2,...,xn>,其中,xi为句子中第i个字对应的字向量;
双向LSTM层:首先,将字向量序列<x1,x2,...,xn>输入正向LSTM和反向LSTM的各时间步;然后,将正向LSTM输出的隐状态序列<fh1,fh2,...,fhn>和反向LSTM输出的隐状态序列<bh1,bh2,...,bhn>在各时间步进行拼接,得到一个的隐状态序列<h1,h2,...,hn>,其中,hi=[fhi;bhi]为一个m维向量;最后,采用一个全连接层将每个m维的隐状态向量hi映射为一个7维的特征向量pi,得到一个特征向量序列<p1,p2,...,pn>;
CRF层:将特征向量序列<p1,p2,...,pn>输入CRF模型进行全局优化,最终输出为一个标注序列;
(2-2-2)线上识别:给定一个网络安全法案件文本D,首先将D按句子进行划分,得到一个句子集合SS;然后,将SS中每个句子Si输入训练好的事件实体识别模型,得到Si的标注序列,并对连续的B-EVE和I-EVE字进行合并得到违法事件实体Ee,对连续的B-SUB和I-SUB字进行合并得到违法主体实体Es,对连续的B-OBJ和I-OBJ字进行合并得到违法客体实体Eo,若Ee和Es均不为空,则构成事件实体三元组E=(Ee,Es,Eo);最后,合并SS中多个句子检测出的事件实体三元组,则得到事件实体三元组集合ES。
所述步骤(2.3)的步骤如下:
(2-3-1)违法主体概念链接:直接在网络安全法知识图谱中检索名称或别名为Es的违法主体实体节点,然后返回与该节点存在“属于”关系的违法主体类型节点对应的违法主体类型Cs;
(2-3-2)违法客体概念链接:若Eo为空,则返回空;若Eo不为空,则直接在网络安全法知识图谱中检索名称或别名为Eo的违法客体实体节点,然后返回与该节点存在“属于”关系的违法客体类型节点对应的违法客体类型Co;
(2-3-3)违法事件概念链接:首先,基于FastText算法线下训练一个违法事件分类模型,用于将违法事件实体文本分类到违法事件类型。然后,应用该分类模型获得Ee对应的违法事件类型Ce;
(2-3-4)事件概念三元组构建:基于步骤(2-3-1)、(2-3-2)和(2-3-3)得到ES中每个事件实体三元组E=(Ee,Es,Eo)对应的事件概念三元组C=(Ce,Cs,Co),最终得到事件概念三元组集合CS。
更进一步,所述步骤(3)中,给定网络安全法案件文本D和其对应的事件概念三元组集合CS,法律条文检索步骤如下:
(3-1)结构化检索:对CS中每个事件概念三元组C=(Ce,Cs,Co),若Co为空,则在网络安全法知识图谱中检索与Ce和Cs均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点,得到检索结果二元组Q=(Le,Lr),其中Le为网络安全法中的事件条文,Lr为网络安全法中的责任条文;若Co不为空,则在网络安全法知识图谱中检索与Ce、Cs和Co均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点,得到检索结果二元组Q=(Le,Lr);最终,得到检索结果二元组集合QS;
(3-2)非结构化检索:若QS为空,则进行非结构化检索;
(3-3)结果返回:返回QS作为最终研判结果。
所述步骤(3-2)的步骤如下:
(3-2-1)关键词抽取:基于TF-IDF算法对D进行关键词抽取,保留分数最高的k个关键词,形成关键词集合KW(D);
(3-2-2)全文检索:基于Lucene全文检索引擎从网络安全法事件条文数据库中检索至少包含KW(D)中一个关键词的所有事件条文,形成候选事件条文集合LE(D);
(3-2-3)匹配度计算:对LE(D)中每个候选事件条文Le,计算其包含KW(D)中关键词的数量n(Le),则匹配度score(D,Le)=n(Le)/k。最终,选取匹配度最高的候选事件条文Le,并在网络安全法知识图谱中检索Le对应的事件条文节点和与该节点存在“后果”关系的责任条文节点对应的责任条文Lr,得到检索结果二元组Q=(Le,Lr),将Q加入检索结果二元组集合QS。
本发明的有益效果主要表现在:(1)基于信息抽取对网络安全法案件进行理解,使得方法可更精确的获得案件的结构化信息。(2)采用知识图谱对网络安全法的相关知识进行表示,使得方法可更准确的对案件做出研判。
附图说明
图1为一种基于信息抽取的网络安全法案件智能研判方法流程图;
图2为网络安全法知识图谱结构图;
图3为训练样本标注实施例图;
图4为基于双向LSTM+CRF的事件实体识别模型结构图;
图5为法律条文检索流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图5,一种基于信息抽取的网络安全法案件智能研判方法,包括以下步骤:
(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;
(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;
(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。
参照图2,所述步骤(1)中,网络安全法知识图谱主要依赖专家知识人工构建,其步骤如下:
(1-1)节点构建:从事件概念、事件实体、法律条文三个方面构建节点。其中,事件概念节点包括违法事件类型、违法主体类型、违法客体类型三类,事件实体节点包括违法事件实体、违法主体实体、违法客体实体三类,法律条文节点包括事件条文、责任条文两类;
(1-2)关系构建:为违法事件类型和其对应的违法事件实体、违法主体类型和其对应的违法主体实体、违法客体类型和其对应的违法客体实体建立“属于”关系,为事件条文和其对应的违法事件类型、违法主体类型、违法客体类型建立“涉及”关系,为事件条文和其对应的责任条文建立“后果”关系。
所述步骤(2)中,网络安全法案件信息抽取基于深度学习技术实现,步骤如下:
(2-1)训练样本标注:对网络安全法历史案件文本集合中的每一个句子,对其中所有的字进行序列标注,包括违法事件实体首字(B-EVE)、违法事件实体非首字(I-EVE)、违法主体实体首字(B-SUB)、违法主体实体非首字(I-SUB)、违法客体实体首字(B-OBJ)、违法客体实体非首字(I-OBJ)、非事件实体部分(O),标注好的句子即为一个训练样本。图3给出了一个具体的训练样本标注实施例;
(2-2)事件实体识别:事件实体识别指从一个句子中识别出违法事件实体、违法主体实体和违法客体实体,包括线下训练和线上识别两部分,步骤如下:
(2-2-1)线下训练:基于双向LSTM+CRF训练事件实体识别模型,模型结构如图4所示,解释如下:
输入层:模型的输入为一个句子,采用预训练的字嵌入矩阵将句子中的每个字映射为一个k维向量,得到一个字向量序列<x1,x2,...,xn>(其中,xi为句子中第i个字对应的字向量)。
双向LSTM层:首先,将字向量序列<x1,x2,...,xn>输入正向LSTM和反向LSTM的各时间步。然后,将正向LSTM输出的隐状态序列<fh1,fh2,...,fhn>和反向LSTM输出的隐状态序列<bh1,bh2,...,bhn>在各时间步进行拼接,得到一个的隐状态序列<h1,h2,...,hn>(其中,hi=[fhi;bhi]为一个m维向量)。最后,采用一个全连接层将每个m维的隐状态向量hi映射为一个7维的特征向量pi,得到一个特征向量序列<p1,p2,...,pn>。
CRF层:将特征向量序列<p1,p2,...,pn>输入CRF模型进行全局优化,最终输出为一个标注序列。
(2-2-2)线上识别:给定一个网络安全法案件文本D,首先将D按句子进行划分,得到一个句子集合SS。然后,将SS中每个句子Si输入训练好的事件实体识别模型,得到Si的标注序列,并对连续的B-EVE和I-EVE字进行合并得到违法事件实体Ee,对连续的B-SUB和I-SUB字进行合并得到违法主体实体Es,对连续的B-OBJ和I-OBJ字进行合并得到违法客体实体Eo,若Ee和Es均不为空,则构成事件实体三元组E=(Ee,Es,Eo)。最后,合并SS中多个句子检测出的事件实体三元组,则得到事件实体三元组集合ES。
(2-3)事件概念链接:事件概念链接指识别出事件实体对应的事件概念,给定事件实体三元组E=(Ee,Es,Eo),步骤如下:
(2-3-1)违法主体概念链接:直接在网络安全法知识图谱中检索名称或别名为Es的违法主体实体节点,然后返回与该节点存在“属于”关系的违法主体类型节点对应的违法主体类型Cs。
(2-3-2)违法客体概念链接:若Eo为空,则返回空;若Eo不为空,则直接在网络安全法知识图谱中检索名称或别名为Eo的违法客体实体节点,然后返回与该节点存在“属于”关系的违法客体类型节点对应的违法客体类型Co。
(2-3-3)违法事件概念链接:首先,基于FastText算法线下训练一个违法事件分类模型,用于将违法事件实体文本分类到违法事件类型。然后,应用该分类模型获得Ee对应的违法事件类型Ce。
(2-3-4)事件概念三元组构建:基于步骤(2-3-1)、(2-3-2)和(2-3-3)得到ES中每个事件实体三元组E=(Ee,Es,Eo)对应的事件概念三元组C=(Ce,Cs,Co),最终得到事件概念三元组集合CS。
参照图5,所述步骤(3)中,给定网络安全法案件文本D和其对应的事件概念三元组集合CS,法律条文检索步骤如下:
(3-1)结构化检索:对CS中每个事件概念三元组C=(Ce,Cs,Co),若Co为空,则在网络安全法知识图谱中检索与Ce和Cs均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点,得到检索结果二元组Q=(Le,Lr),其中Le为网络安全法中的事件条文,Lr为网络安全法中的责任条文;若Co不为空,则在网络安全法知识图谱中检索与Ce、Cs和Co均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点,得到检索结果二元组Q=(Le,Lr)。最终,得到检索结果二元组集合QS。
(3-2)非结构化检索:若QS为空,则进行非结构化检索,步骤如下:
(3-2-1)关键词抽取:基于TF-IDF算法对D进行关键词抽取,保留分数最高的k个关键词,形成关键词集合KW(D)。
(3-2-2)全文检索:基于Lucene全文检索引擎从网络安全法事件条文数据库中检索至少包含KW(D)中一个关键词的所有事件条文,形成候选事件条文集合LE(D)。
(3-2-3)匹配度计算:对LE(D)中每个候选事件条文Le,计算其包含KW(D)中关键词的数量n(Le),则匹配度score(D,Le)=n(Le)/k。最终,选取匹配度最高的候选事件条文Le,并在网络安全法知识图谱中检索Le对应的事件条文节点和与该节点存在“后果”关系的责任条文节点对应的责任条文Lr,得到检索结果二元组Q=(Le,Lr),将Q加入检索结果二元组集合QS。
(3-3)结果返回:返回QS作为最终研判结果。
Claims (7)
1.一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述方法包括如下步骤:
(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;
(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;
(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。
2.如权利要求1所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(1)中,网络安全法知识图谱依赖专家知识人工构建,步骤如下:
(1-1)节点构建:从事件概念、事件实体、法律条文三个方面构建节点,其中,事件概念节点包括违法事件类型、违法主体类型、违法客体类型三类,事件实体节点包括违法事件实体、违法主体实体、违法客体实体三类,法律条文节点包括事件条文、责任条文两类;
(1-2)关系构建:为违法事件类型和其对应的违法事件实体、违法主体类型和其对应的违法主体实体、违法客体类型和其对应的违法客体实体建立“属于”关系,为事件条文和其对应的违法事件类型、违法主体类型、违法客体类型建立“涉及”关系,为事件条文和其对应的责任条文建立“后果”关系。
3.如权利要求1或2所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(2)中,网络安全法案件信息抽取基于深度学习技术实现,步骤如下:
(2-1)训练样本标注:对网络安全法历史案件文本集合中的每一个句子,对其中所有的字进行序列标注,包括违法事件实体首字B-EVE、违法事件实体非首字I-EVE、违法主体实体首字B-SUB、违法主体实体非首字I-SUB、违法客体实体首字B-OBJ、违法客体实体非首字I-OBJ、非事件实体部分O,标注好的句子即为一个训练样本;
(2-2)事件实体识别:事件实体识别指从一个句子中识别出违法事件实体、违法主体实体和违法客体实体;
(2-3)事件概念链接:事件概念链接指识别出事件实体对应的事件概念,给定事件实体三元组E=(Ee,Es,Eo)。
4.如权利要求3所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(2.2)包括线下训练和线上识别两部分,步骤如下:
(2-2-1)线下训练:基于双向LSTM+CRF训练事件实体识别模型,模型结构解释如下:
输入层:模型的输入为一个句子,采用预训练的字嵌入矩阵将句子中的每个字映射为一个k维向量,得到一个字向量序列<x1,x2,...,xn>,其中,xi为句子中第i个字对应的字向量;
双向LSTM层:首先,将字向量序列<x1,x2,...,xn>输入正向LSTM和反向LSTM的各时间步;然后,将正向LSTM输出的隐状态序列<fh1,fh2,...,fhn>和反向LSTM输出的隐状态序列<bh1,bh2,...,bhn>在各时间步进行拼接,得到一个的隐状态序列<h1,h2,...,hn>,其中,hi=[fhi;bhi]为一个m维向量;最后,采用一个全连接层将每个m维的隐状态向量hi映射为一个7维的特征向量pi,得到一个特征向量序列<p1,p2,...,pn>;
CRF层:将特征向量序列<p1,p2,...,pn>输入CRF模型进行全局优化,最终输出为一个标注序列;
(2-2-2)线上识别:给定一个网络安全法案件文本D,首先将D按句子进行划分,得到一个句子集合SS;然后,将SS中每个句子Si输入训练好的事件实体识别模型,得到Si的标注序列,并对连续的B-EVE和I-EVE字进行合并得到违法事件实体Ee,对连续的B-SUB和I-SUB字进行合并得到违法主体实体Es,对连续的B-OBJ和I-OBJ字进行合并得到违法客体实体Eo,若Ee和Es均不为空,则构成事件实体三元组E=(Ee,Es,Eo);最后,合并SS中多个句子检测出的事件实体三元组,则得到事件实体三元组集合ES。
5.如权利要求3所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(2.3)的步骤如下:
(2-3-1)违法主体概念链接:直接在网络安全法知识图谱中检索名称或别名为Es的违法主体实体节点,然后返回与该节点存在“属于”关系的违法主体类型节点对应的违法主体类型Cs;
(2-3-2)违法客体概念链接:若Eo为空,则返回空;若Eo不为空,则直接在网络安全法知识图谱中检索名称或别名为Eo的违法客体实体节点,然后返回与该节点存在“属于”关系的违法客体类型节点对应的违法客体类型Co;
(2-3-3)违法事件概念链接:首先,基于FastText算法线下训练一个违法事件分类模型,用于将违法事件实体文本分类到违法事件类型,然后,应用该分类模型获得Ee对应的违法事件类型Ce;
(2-3-4)事件概念三元组构建:基于步骤(2-3-1)、(2-3-2)和(2-3-3)得到ES中每个事件实体三元组E=(Ee,Es,Eo)对应的事件概念三元组C=(Ce,Cs,Co),最终得到事件概念三元组集合CS。
6.如权利要求1或2所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(3)中,给定网络安全法案件文本D和其对应的事件概念三元组集合CS,法律条文检索步骤如下:
(3-1)结构化检索:对CS中每个事件概念三元组C=(Ce,Cs,Co),若Co为空,则在网络安全法知识图谱中检索与Ce和Cs均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点,得到检索结果二元组Q=(Le,Lr),其中Le为网络安全法中的事件条文,Lr为网络安全法中的责任条文;若Co不为空,则在网络安全法知识图谱中检索与Ce、Cs和Co均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点,得到检索结果二元组Q=(Le,Lr);最终,得到检索结果二元组集合QS;
(3-2)非结构化检索:若QS为空,则进行非结构化检索;
(3-3)结果返回:返回QS作为最终研判结果。
7.如权利要求6所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(3-2)的步骤如下:
(3-2-1)关键词抽取:基于TF-IDF算法对D进行关键词抽取,保留分数最高的k个关键词,形成关键词集合KW(D);
(3-2-2)全文检索:基于Lucene全文检索引擎从网络安全法事件条文数据库中检索至少包含KW(D)中一个关键词的所有事件条文,形成候选事件条文集合LE(D);
(3-2-3)匹配度计算:对LE(D)中每个候选事件条文Le,计算其包含KW(D)中关键词的数量n(Le),则匹配度score(D,Le)=n(Le)/k;最终,选取匹配度最高的候选事件条文Le,并在网络安全法知识图谱中检索Le对应的事件条文节点和与该节点存在“后果”关系的责任条文节点对应的责任条文Lr,得到检索结果二元组Q=(Le,Lr),将Q加入检索结果二元组集合QS。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354275.8A CN110188346B (zh) | 2019-04-29 | 2019-04-29 | 一种基于信息抽取的网络安全法案件智能研判方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354275.8A CN110188346B (zh) | 2019-04-29 | 2019-04-29 | 一种基于信息抽取的网络安全法案件智能研判方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188346A true CN110188346A (zh) | 2019-08-30 |
CN110188346B CN110188346B (zh) | 2023-09-29 |
Family
ID=67715284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354275.8A Active CN110188346B (zh) | 2019-04-29 | 2019-04-29 | 一种基于信息抽取的网络安全法案件智能研判方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188346B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN110765256A (zh) * | 2019-12-24 | 2020-02-07 | 杭州实在智能科技有限公司 | 一种在线法律咨询自动回复的生成方法与设备 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN110825880A (zh) * | 2019-09-18 | 2020-02-21 | 平安科技(深圳)有限公司 | 案件胜率确定方法、装置、设备及计算机可读存储介质 |
CN110879842A (zh) * | 2019-10-15 | 2020-03-13 | 东南大学 | 一种基于信息抽取的法律知识图谱构建方法 |
CN111797199A (zh) * | 2020-06-12 | 2020-10-20 | 南京擎盾信息科技有限公司 | 基于事件链结构对法律信息进行分析的方法和装置 |
CN112632225A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 基于案事件知识图谱的语义搜索方法、装置和电子设备 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN113221562A (zh) * | 2021-04-14 | 2021-08-06 | 河海大学 | 一种基于知识图谱提高文书档案检索效率的方法及系统 |
CN113254659A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于知识图谱技术的档案研判方法及系统 |
CN115795056A (zh) * | 2023-01-04 | 2023-03-14 | 中国电子科技集团公司第十五研究所 | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107908671A (zh) * | 2017-10-25 | 2018-04-13 | 南京擎盾信息科技有限公司 | 基于法律数据的知识图谱构建方法及系统 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN108073673A (zh) * | 2017-05-15 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109213925A (zh) * | 2018-07-10 | 2019-01-15 | 深圳价值在线信息科技股份有限公司 | 法律文本搜索方法 |
-
2019
- 2019-04-29 CN CN201910354275.8A patent/CN110188346B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073673A (zh) * | 2017-05-15 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107908671A (zh) * | 2017-10-25 | 2018-04-13 | 南京擎盾信息科技有限公司 | 基于法律数据的知识图谱构建方法及系统 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109213925A (zh) * | 2018-07-10 | 2019-01-15 | 深圳价值在线信息科技股份有限公司 | 法律文本搜索方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN110825880A (zh) * | 2019-09-18 | 2020-02-21 | 平安科技(深圳)有限公司 | 案件胜率确定方法、装置、设备及计算机可读存储介质 |
CN110879842A (zh) * | 2019-10-15 | 2020-03-13 | 东南大学 | 一种基于信息抽取的法律知识图谱构建方法 |
CN110765256A (zh) * | 2019-12-24 | 2020-02-07 | 杭州实在智能科技有限公司 | 一种在线法律咨询自动回复的生成方法与设备 |
CN110765256B (zh) * | 2019-12-24 | 2020-07-07 | 杭州实在智能科技有限公司 | 一种在线法律咨询自动回复的生成方法与设备 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN111797199A (zh) * | 2020-06-12 | 2020-10-20 | 南京擎盾信息科技有限公司 | 基于事件链结构对法律信息进行分析的方法和装置 |
CN112632225A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 基于案事件知识图谱的语义搜索方法、装置和电子设备 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112632225B (zh) * | 2020-12-29 | 2022-08-30 | 天津汇智星源信息技术有限公司 | 基于案事件知识图谱的语义搜索方法、装置和电子设备 |
CN112632223B (zh) * | 2020-12-29 | 2023-01-20 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN113254659A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于知识图谱技术的档案研判方法及系统 |
CN113221562A (zh) * | 2021-04-14 | 2021-08-06 | 河海大学 | 一种基于知识图谱提高文书档案检索效率的方法及系统 |
CN115795056A (zh) * | 2023-01-04 | 2023-03-14 | 中国电子科技集团公司第十五研究所 | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110188346B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188346A (zh) | 一种基于信息抽取的网络安全法案件智能研判方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN110046260B (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
CN109062893B (zh) | 一种基于全文注意力机制的商品名称识别方法 | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN101814067B (zh) | 对自然语言内容中的信息含量进行定量估算的系统和方法 | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取系统 | |
CN109543722A (zh) | 一种基于情感分析模型的情感趋势预测方法 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN113705218B (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
Castellano et al. | Leveraging knowledge graphs and deep learning for automatic art analysis | |
CN108959522B (zh) | 基于半监督对抗生成网络的迁移检索方法 | |
CN110321563A (zh) | 基于混合监督模型的文本情感分析方法 | |
CN113378565B (zh) | 多源数据融合的事件分析方法、装置、设备及存储介质 | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
Kulkarni et al. | Automated retrieval of information on threatened species from online sources using machine learning | |
CN113449111B (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
CN114548099B (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN113761893A (zh) | 一种基于模式预训练的关系抽取方法 | |
CN114936277A (zh) | 相似问题匹配方法和户相似问题匹配系统 | |
CN108710672A (zh) | 一种基于增量贝叶斯算法的主题爬虫方法 | |
CN115640462A (zh) | 一种基于知识库增强的跨域新闻推荐方法 | |
Li et al. | Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |