CN109543044B - 一种事件与法律条文自动匹配系统及匹配方法 - Google Patents
一种事件与法律条文自动匹配系统及匹配方法 Download PDFInfo
- Publication number
- CN109543044B CN109543044B CN201811232178.3A CN201811232178A CN109543044B CN 109543044 B CN109543044 B CN 109543044B CN 201811232178 A CN201811232178 A CN 201811232178A CN 109543044 B CN109543044 B CN 109543044B
- Authority
- CN
- China
- Prior art keywords
- regulation
- word
- module
- accident information
- accident
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000001914 filtration Methods 0.000 claims description 53
- 239000000126 substance Substances 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 40
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000013016 damping Methods 0.000 claims description 3
- 238000003889 chemical engineering Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000002265 prevention Effects 0.000 abstract description 4
- 239000002360 explosive Substances 0.000 description 8
- 238000004880 explosion Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000003466 welding Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种事件与法律条文自动匹配系统及匹配方法,其步骤如下:1、事故关键词模块提取事故信息的关键词的流程;2、事故搜索模块对事故信息建立全文检索;3、法规关键词模块提取法规文档关键词的流程;4、法规条例提取模块把法规文档按照条例提取出来,法规条例提取模块按照“第N条”关键词提取法规文档的条例;5、法规搜索模块对法规条例建立反向索引;6、关系评估模块评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块的流程。从而实现由事故信息查询相关法规文档以及对应法规条例,同时实现法规文档与法规条例查询相关关联的事故信息,从而为监管提供数据支撑,并有效地实现预防预警。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种事件与法律条文自动匹配系统及匹配方法。
背景技术
针对当前大数据云计算与传统行业相互紧密结合的发展趋势,根据化工领域事故发生的以往历史数据记录进行大数据处理,目前市面上还未有相关公开技术能够将已经生成的化工事故信息与相关化工法规之间建立直接或者间距评估判断关联关系;当前是基于有经验或者专业专家人士(比如公司法务、律师、行业专家)来分析判断得到相关关系,人力成本高且耗时久,更多地需要根据事故发生后评估结果然后再采取相应弥补或补救措施,而难以建立有效地化工监管、预防预警的机制。
发明内容
本发明的目的在于提供一种事件与法律条文自动匹配系统及匹配方法,解决了背景技术中所提出的问题,从而实现由事故信息查询相关法规文档以及对应法规条例,同时实现法规文档与法规条例查询相关关联的事故信息,从而为化工监管提供数据支撑,并有效地实现预防预警。
为实现上述目的,本发明提供一种事件与法律条文自动匹配系统,包括化工敏感词库模块(2),事故关键词模块(3),事故搜索模块(4),关系评估模块(5),法规条例提取模块(6),法规条例搜索模块(7),法规关键词模块(8);
法规文档(0),是用于解析化工类的法律法规文档,法规文档(0)的数据输入到法规关键词模块(8)与法规条例提取模块(6);
事故信息(1),是化工类的事故信息文档;一条化工事故信息主要包括事故名、事故时间、事故地点、事故描述和事故原因信息;事故信息(1)的事故信息数据输出给事故搜索引擎模块(4)与事故关键词模块(3);
化工敏感词库模块(2),是用于保存化工的危化品、生成工艺、重要设施的名称与别名的模块;本发明评估系统应提前录入化工的危化品、生成工艺、重要设施的名称或别名的清单;
事故关键词模块(3),是用于提取事故信息(1)的关键词的模块;对事故信息文字提取出关键词与权重值,匹配化工敏感词库模块(2)的敏感词调节关键词权重;并将事故关键词模块(3)接收事故信息(1)的事故信息数据与法规文档数据中提取出的关键词与权重值提供给关系评估模块(5);
事故搜索模块(4),是用于化工事故信息(1)的事故信息的全文检索;事故搜索模块(4)接收事故信息(1)的数据,进行中文分词,建立反向索引,给关系评估模块(5)提供数据搜索模块;
关系评估模块(5),是用于分别评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块;
关系评估模块(5)使用法规关键词模块(8)的法规文档A的关键词在事故搜索模块(4)检索到事故信息B以及其配对度D1;
关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2,最终输出法规文档与事故信息关联(9)、法规条例与事故信息关联(10);
法规条例提取模块(6),是用于负责把法规文档按照条例提取出来;法规条例提取模块(6)按照“第N条”关键词提取法规文档的条例;
法规条例搜索模块(7),是对法规文档的条例的全文检索;法规条例搜索模块(7)接收法规条例提取模块(6)的数据,进行中文分词,建立反向索引,给关系评估模块(5)提供数据搜索模块;
法规关键词模块(8),是用于提取法律法规的关键词的模块;提取事故法规文件的关键词与权重值,并且法规关键词模块(8)把关键词与权重值提供给关系评估模块(5);
本发明还提供一种事故信息与法规关联的评估方法,包括如下步骤:
步骤(1)、事故关键词模块(3)提取事故信息(1)的关键词的流程:
1.1、对事故信息的文字信息进行中文分词处理,得到词语数组;
例如:事故信息“作业人员对排气管的延伸部分进行焊接时,罐内残液挥发出油气形成爆炸性气体顺排气管排出时,遇焊接明火,产生爆炸”,中文分词处理得到词语数组:
“作业/人员/对/排气管/的/延伸/部分/进行/焊接/时/,/罐内/残液/挥/发出/油气/形成/爆炸性/气体/顺/排气管/排出/时/,/遇/焊接/明火/,/产生/爆炸”;
1.2、对词语数组的进行词性标注;
1.3、对词语数组执行词性过滤,只保留名称、动词与方位词的词语,去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
例如:”作业/人员/对/排气管/的/延伸/部分/进行/焊接/时/,/罐内/残液/挥/发出/油气/形成/爆炸性/气体/顺/排气管/排出/时/,/遇/焊接/明火/,/产生/爆炸”执行词性过滤与去短处理后与去重处理变为:”作业/人员/排气管/延伸/部分/进行/焊接/罐内/残液发出/油气/形成/爆炸性/气体/排出/明火/产生/爆炸”;
1.4、使用图模型的TextRank算法计算词语数组的每个词语权重;将词语数组的词语视为节点,使用词性标注信息判断这两词间语法关系,如果两个语法单元存在一定语法关系,则这两个词语在图中就会有一条边相互连接,通过TextRank迭代算法公式,最终不同词语有不同的权重值,权重值高的的词语为关键词;
判断两词语法关系:主谓关系,动宾关系,修饰关系等语法关系;
TextRank迭代计算公式为:
WS(Vi)是词语i的权重值;d是阻尼系数,一般设置为0.85;In(Vi)是存在指向词语i的链接的词语集合;Out(Vj)是词语j中的链接存在的链接指向的词语的集合;权重项ωji,用来表示两个词语之间的边有不同的重要程度;
1.5、计算词语数组的所有词的词频统计值DF;
计算方式:事故关键词模块(3)每处理一个事故信息,则事故信息(1)总计数TN加1,事故关键词模块(3)保存词语数组的每个词语的事故信息计数,如果事故关键词模块(3)未保存词语则按照事故信息计数为1进行保存,而已存在该词则事故信息计数加1,按照词语的词频统计值DF计算公式计算;
词频统计值DF=事故信息(1)总计数TN/(词语的事故信息计数+1);
1.6、使用词频统计值调节图模型输出词语的权重值;词频统计值DF小于阀值DFM(如DFM取值3)则,减低权重值N倍(如N取值4);
1.7、根据化工敏感词模块继续调节词语的权重值;
1.8、过滤掉词语数组的权重的词语后,生成最终的关键词;
步骤(2)、事故搜索模块(4)对事故信息(1)建立全文检索;
2.1对事故信息的文字信息进行中文分词处理,得到词语数组;
2.2、使用把得到词语数组的进行词性标注,执行词性过滤,只保留名称、动词与方位词的词语;去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
2.3、使用词语数组的携带权重建立反向索引;词语数组的词语初始权重值为1,如果该词语为该事故信息的关键词,则权重增加(如增大一倍);如果该词语为事故关键词模块(3)低词频统计值DF(如小于3)的词语,则权重减低(如减少一倍);
步骤(3)、法规关键词模块(8)提取法规文档(0)关键词的流程;
3.1、对法规文档(0)的整个文字信息进行中文分词处理,得到词语数组低词频统计值DF;
3.2、对词语数组的进行词性标注;
3.3、对词语数组执行词性过滤,只保留名称、动词与方位词的词语,去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
3.4、使用图模型的TextRank算法计算词语数组的每个词语权重;法规关键词模块(8)每处理一个法规文档(0),则法规文档总计数TN加1,法规关键词模块(8)保存词语数组的每个词语的法规文档计数,如果法规关键词模块(8)未保存词语则按照事故信息计数为1进行保存,而已存在该词则事故信息计数加1,按照词语的词频统计值DF计算公式计算;
3.5、使用词频统计值调节图模型输出词语的权重值;
3.6、使用词频统计值调节图模型输出词语的权重值;词频统计值DF小于阀值DFM(如DFM取值3),则减低权重值N倍(如N取值4);
3.7、过滤掉词语数组的权重的词语后,生成最终的关键词;
步骤(4)、法规条例提取模块(6)把法规文档按照条例提取出来;法规条例提取模块(6)按照“第N条”关键词提取法规文档的条例;
步骤(5)、法规搜索模块(8)对法规条例建立反向索引;
5.1、对法规条例的文字信息进行中文分词处理,得到词语数组;
5.2、使用把得到词语数组的进行词性标注,执行词性过滤,只保留名称、动词与方位词的词语;去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
5.3、把词语数组与法规文档(0)共同建立反向索引到法规条例;其中词语数组的携带权重值;词语数组的词语初始权重为1,如果该词语为法规文档(0)的关键词,则权重增加(如增大一倍);如果该词语为法规关键词模块(8)低词频统计值DF(如小于3)的词语,则权重减低(如减少一倍);
步骤(6)、关系评估模块(5)评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块的流程;
6.1、关系评估模块(5)使用使用法规关键词模块(8)的法规文档A关键词去事故搜索模块(4)检索到事故信息B以及其配对度D1;配对度D1计算方法:法规文档A关键词与事故信息B匹配到反向索引词的权重累加值;
6.2关系评估模块(5)过滤掉低配对度(如小于10)事故信息;
6.3、关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2;配对度D2计算方法:事故信息B关键词与法规条例C匹配到反向索引词的权重累加值;
6.4、关系评估模块(5)过滤掉低配对度(如小于10)法规条例C,按照配对度进行排序,输出法规条例与事故信息关联,添加为化工知识图谱的关联关系;
6.5、评估评估模块(5)判断法规条例与事故信息关联为空,则判断对事故信息B进行二次过滤(如配对度小于20,进行过滤);
6.6、事故信息B按照配对度进行排序,最终输出法规文档与事故信息关联(9),添加为化工知识图谱的关联关系。
与现有技术相比,本发明的有益效果如下:
当前是基于有经验或者专业专家人士(比如公司法务、律师、行业专家)来分析判断得到相关关系,人力成本高且耗时久,使用此评估方法,得到一个事故信息与法规关联的初步相关关系判断,辅助有经验或者专业专家人士分析判断,另自动化大规模分析处理,可以实现实现监管、预防预警的机制,为化工安全管理辅助决策。
附图说明
图1为本发明一种事件与法律条文自动匹配系统及匹配方法的功能结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种事件与法律条文自动匹配系统的具体实施例,包括化工敏感词库模块(2),事故关键词模块(3),事故搜索模块(4),关系评估模块(5),法规条例提取模块(6),法规条例搜索模块(7),法规关键词模块(8);
法规文档(0),是用于解析化工类的法律法规文档,法规文档(0)的数据输入到法规关键词模块(8)与法规条例提取模块(6);
事故信息(1),是化工类的事故信息文档;一条化工事故信息主要包括事故名、事故时间、事故地点、事故描述和事故原因信息;事故信息(1)的事故信息数据输出给事故搜索引擎模块(4)与事故关键词模块(3);
化工敏感词库模块(2),是用于保存化工的危化品、生成工艺、重要设施的名称与别名的模块;本发明评估系统应提前录入化工的危化品、生成工艺、重要设施的名称或别名的清单;
事故关键词模块(3),是用于提取事故信息(1)的关键词的模块;对事故信息文字提取出关键词与权重值,匹配化工敏感词库模块(2)的敏感词调节关键词权重;并将事故关键词模块(3)接收事故信息(1)的事故信息数据与法规文档数据中提取出的关键词与权重值提供给关系评估模块(5);
事故搜索模块(4),是用于化工事故信息(1)的事故信息的全文检索;事故搜索模块(4)接收事故信息(1)的数据,进行中文分词,建立反向索引,给关系评估模块(5)提供数据搜索模块;
关系评估模块(5),是用于分别评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块;
关系评估模块(5)使用法规关键词模块(8)的法规文档A的关键词在事故搜索模块(4)检索到事故信息B以及其配对度D1;
关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2,最终输出法规文档与事故信息关联(9)、法规条例与事故信息关联(10);
法规条例提取模块(6),是用于负责把法规文档按照条例提取出来;法规条例提取模块(6)按照“第N条”关键词提取法规文档的条例;
法规条例搜索模块(7),是对法规文档的条例的全文检索;法规条例搜索模块(7)接收法规条例提取模块(6)的数据,进行中文分词,建立反向索引,给关系评估模块(5)提供数据搜索模块;
法规关键词模块(8),是用于提取法律法规的关键词的模块;提取事故法规文件的关键词与权重值,并且法规关键词模块(8)把关键词与权重值提供给关系评估模块(5);
此外,结合上述一种事件与法律条文自动匹配系统,本发明还提供一种事故信息与法规关联的评估方法,包括如下步骤:
步骤(1)、事故关键词模块(3)提取事故信息(1)的关键词的流程:
1.1、对事故信息的文字信息进行中文分词处理,得到词语数组;
例如:事故信息“作业人员对排气管的延伸部分进行焊接时,罐内残液挥发出油气形成爆炸性气体顺排气管排出时,遇焊接明火,产生爆炸”,中文分词处理得到词语数组:
“作业/人员/对/排气管/的/延伸/部分/进行/焊接/时/,/罐内/残液/挥/发出/油气/形成/爆炸性/气体/顺/排气管/排出/时/,/遇/焊接/明火/,/产生/爆炸”;
1.2、对词语数组的进行词性标注;
1.3、对词语数组执行词性过滤,只保留名称、动词与方位词的词语,去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
例如:”作业/人员/对/排气管/的/延伸/部分/进行/焊接/时/,/罐内/残液/挥/发出/油气/形成/爆炸性/气体/顺/排气管/排出/时/,/遇/焊接/明火/,/产生/爆炸”执行词性过滤与去短处理后与去重处理变为:”作业/人员/排气管/延伸/部分/进行/焊接/罐内/残液发出/油气/形成/爆炸性/气体/排出/明火/产生/爆炸”;
1.4、使用图模型的TextRank算法计算词语数组的每个词语权重;将词语数组的词语视为节点,使用词性标注信息判断这两词间语法关系,如果两个语法单元存在一定语法关系,则这两个词语在图中就会有一条边相互连接,通过TextRank迭代算法公式,最终不同词语有不同的权重值,权重值高的的词语为关键词;
判断两词语法关系:主谓关系,动宾关系,修饰关系等语法关系;
TextRank迭代计算公式为:
WS(Vi)是词语i的权重值;d是阻尼系数,一般设置为0.85;In(Vi)是存在指向词语i的链接的词语集合;Out(Vj)是词语j中的链接存在的链接指向的词语的集合;权重项ωji,用来表示两个词语之间的边有不同的重要程度;
1.5、计算词语数组的所有词的词频统计值DF;
计算方式:事故关键词模块(3)每处理一个事故信息,则事故信息(1)总计数TN加1,事故关键词模块(3)保存词语数组的每个词语的事故信息计数,如果事故关键词模块(3)未保存词语则按照事故信息计数为1进行保存,而已存在该词则事故信息计数加1,按照词语的词频统计值DF计算公式计算;
词频统计值DF=事故信息(1)总计数TN/(词语的事故信息计数+1);
1.6、使用词频统计值调节图模型输出词语的权重值;词频统计值DF小于阀值DFM(如DFM取值3)则,减低权重值N倍(如N取值4);
1.8、根据化工敏感词模块继续调节词语的权重值;
1.8、过滤掉词语数组的权重的词语后,生成最终的关键词;
步骤(2)、事故搜索模块(4)对事故信息(1)建立全文检索;
2.1对事故信息的文字信息进行中文分词处理,得到词语数组;
2.2、使用把得到词语数组的进行词性标注,执行词性过滤,只保留名称、动词与方位词的词语;去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
2.3、使用词语数组的携带权重建立反向索引;词语数组的词语初始权重值为1,如果该词语为该事故信息的关键词,则权重增加(如增大一倍);如果该词语为事故关键词模块(3)低词频统计值DF(如小于3)的词语,则权重减低(如减少一倍);
步骤(3)、法规关键词模块(8)提取法规文档(0)关键词的流程;
3.1、对法规文档(0)的整个文字信息进行中文分词处理,得到词语数组低词频统计值DF;
3.2、对词语数组的进行词性标注;
3.3、对词语数组执行词性过滤,只保留名称、动词与方位词的词语,去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
3.4、使用图模型的TextRank算法计算词语数组的每个词语权重;法规关键词模块(8)每处理一个法规文档(0),则法规文档总计数TN加1,法规关键词模块(8)保存词语数组的每个词语的法规文档计数,如果法规关键词模块(8)未保存词语则按照事故信息计数为1进行保存,而已存在该词则事故信息计数加1,按照词语的词频统计值DF计算公式计算;
3.6、使用词频统计值调节图模型输出词语的权重值;
3.6、使用词频统计值调节图模型输出词语的权重值;词频统计值DF小于阀值DFM(如DFM取值3),则减低权重值N倍(如N取值4);
3.7、过滤掉词语数组的权重的词语后,生成最终的关键词;
步骤(4)、法规条例提取模块(6)把法规文档按照条例提取出来;法规条例提取模块(6)按照“第N条”关键词提取法规文档的条例;
步骤(5)、法规搜索模块(8)对法规条例建立反向索引;
5.1、对法规条例的文字信息进行中文分词处理,得到词语数组;
5.2、使用把得到词语数组的进行词性标注,执行词性过滤,只保留名称、动词与方位词的词语;去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
5.3、把词语数组与法规文档(0)共同建立反向索引到法规条例;其中词语数组的携带权重值;词语数组的词语初始权重为1,如果该词语为法规文档(0)的关键词,则权重增加(如增大一倍);如果该词语为法规关键词模块(8)低词频统计值DF(如小于3)的词语,则权重减低(如减少一倍);
步骤(6)、关系评估模块(5)评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块的流程;
6.1、关系评估模块(5)使用使用法规关键词模块(8)的法规文档A关键词去事故搜索模块(4)检索到事故信息B以及其配对度D1;配对度D1计算方法:法规文档A关键词与事故信息B匹配到反向索引词的权重累加值;
6.2关系评估模块(5)过滤掉低配对度(如小于10)事故信息;
6.3、关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2;配对度D2计算方法:事故信息B关键词与法规条例C匹配到反向索引词的权重累加值;
6.4、关系评估模块(5)过滤掉低配对度(如小于10)法规条例C,按照配对度进行排序,输出法规条例与事故信息关联,添加为化工知识图谱的关联关系;
6.5、评估评估模块(5)判断法规条例与事故信息关联为空,则判断对事故信息B进行二次过滤(如配对度小于20,进行过滤);
6.6、事故信息B按照配对度进行排序,最终输出法规文档与事故信息关联(9),添加为化工知识图谱的关联关系。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种事件与法律条文自动匹配系统,其特征在于,包括化工敏感词库模块(2),事故关键词模块(3),事故搜索模块(4),关系评估模块(5),法规条例提取模块(6),法规条例搜索模块(7),法规关键词模块(8);
法规文档(0),用于解析化工类的法律法规文档,法规文档(0)的数据输入到法规关键词模块(8)与法规条例提取模块(6);
事故信息(1),化工类的事故信息文档;事故信息(1)的事故信息数据输出给事故搜索模块(4)与事故关键词模块(3);
化工敏感词库模块(2),用于保存化工的危化品、生成工艺、重要设施的名称与别名的模块;
事故关键词模块(3),用于提取事故信息(1)的关键词的模块;从事故信息文字提取出关键词与权重值,匹配化工敏感词库模块(2)的敏感词,调节关键词权重;并将事故关键词模块(3)接收事故信息(1)的事故信息数据与法规文档数据中提取出的关键词与权重值提供给关系评估模块(5);
事故搜索模块(4),是用于化工事故信息(1)的事故信息的全文检索;事故搜索模块(4)接收事故信息(1)的数据,进行中文分词,建立反向索引,给关系评估模块(5)提供数据搜索模块;
关系评估模块(5),是用于分别评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块;
关系评估模块(5)使用法规关键词模块(8)的法规文档A的关键词在事故搜索模块(4)检索到事故信息B以及其配对度D1;
关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2,最终输出法规文档与事故信息关联(9)、法规条例与事故信息关联(10);
法规条例提取模块(6),是用于负责把法规文档按照条例提取出来;法规条例提取模块(6)按照第N条关键词提取法规文档的条例;
法规条例搜索模块(7),是对法规文档的条例的全文检索的模块;法规条例搜索模块(7)接收法规条例提取模块(6)的数据,进行中文分词,建立反向索引,给关系评估模块(5)提供数据;
法规关键词模块(8),是用于提取法律法规的关键词的模块;提取事故法规文件的关键词与权重值,并且法规关键词模块(8)把关键词与权重值提供给关系评估模块(5)。
2.一种事件与法律条文自动匹配方法,其特征在于,包括如下步骤:
步骤(1)、事故关键词模块(3)提取事故信息(1)的关键词的流程:
步骤(2)、事故搜索模块(4)对事故信息(1)建立全文检索;
步骤(3)、法规关键词模块(8)提取法规文档(0)关键词的流程;
步骤(4)、法规条例提取模块(6)把法规文档按照条例提取出来;法规条例提取模块(6)按照“第N条”关键词提取法规文档的条例;
步骤(5)、法规搜索模块(8)对法规条例建立反向索引;
步骤(6)、关系评估模块(5)评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息;
上述步骤(1)的具体流程如下:
步骤1.1、对事故信息的文字信息进行中文分词处理,得到词语数组;
步骤1.2、对词语数组进行词性标注;
步骤1.3、对词语数组执行词性过滤,只保留名称、动词与方位词的词语,去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
步骤1.4、使用图模型的TextRank算法计算词语数组的每个词语权重;将词语数组的词语视为节点,使用词性标注信息判断这两词间语法关系,如果两个语法单元存在一定语法关系,则这两个词语在图中就会有一条边相互连接,通过TextRank迭代算法公式,最终不同词语有不同的权重值,权重值高的词语为关键词;
TextRank迭代计算公式为:
WS(Vi)是词语i的权重值;d是阻尼系数,设置为0.85;In(Vi)是存在指向词语i的链接的词语集合;Out(Vj)是词语j中的链接存在的链接指向的词语的集合;权重项ωji,用来表示两个词语之间的边有不同的重要程度;
步骤1.5、计算词语数组的所有词的词频统计值DF;计算方式:事故关键词模块(3)每处理一个事故信息,则事故信息(1)总计数TN加1,事故关键词模块(3)保存词语数组的每个词语的事故信息计数,如果事故关键词模块(3)未保存词语则按照事故信息计数为1进行保存,而已存在该词则事故信息计数加1,按照词语的词频统计值DF计算公式计算;词频统计值DF=事故信息(1)总计数TN/(词语的事故信息计数+1);
步骤1.6、使用词频统计值调节图模型输出词语的权重值;词频统计值DF小于阈值DFM,则减低权重值N倍;
步骤1.7、根据化工敏感词模块继续调节词语的权重值;步骤1.8、过滤掉词语数组的权重的词语后,生成最终的关键词。
3.根据权利要求2中所述的一种事件与法律条文自动匹配方法,其特征在于,上述步骤(2)的具体流程如下:
步骤2.1、对事故信息的文字信息进行中文分词处理,得到词语数组;
步骤2.2、使用把得到词语数组的进行词性标注,执行词性过滤,只保留名称、动词与方位词的词语;去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
步骤2.3、使用词语数组携带的权重建立反向索引;词语数组的词语初始权重值为1,如果该词语为该事故信息的关键词,则权重增加;如果该词语为事故关键词模块(3)词频统计值DF的词语,则权重减低。
4.根据权利要求2中所述的一种事件与法律条文自动匹配方法,其特征在于,上述步骤(3)的具体流程如下:
步骤3.1、对法规文档(0)的整个文字信息进行中文分词处理,得到词语数组词频统计值DF;步骤3.2、对词语数组的进行词性标注;
步骤3.3、对词语数组执行词性过滤,只保留名称、动词与方位词的词语,去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
步骤3.4、使用图模型的TextRank算法计算词语数组的每个词语权重;法规关键词模块(8)每处理一个法规文档(0),则法规文档总计数TN加1,法规关键词模块(8)保存词语数组的每个词语的法规文档计数,如果法规关键词模块(8)未保存词语则按照事故信息计数为1进行保存,而已存在该词则事故信息计数加1,按照词语的词频统计值DF计算公式计算;
步骤3.5、使用词频统计值调节图模型输出词语的权重值;
步骤3.6、使用词频统计值调节图模型输出词语的权重值;词频统计值DF小于阈值DFM,则减低权重值N倍;
步骤3.7、过滤掉词语数组的权重的词语后,生成最终的关键词。
5.根据权利要求2中所述的一种事件与法律条文自动匹配方法,其特征在于,上述步骤(5)的具体流程如下:
步骤5.1、对法规条例的文字信息进行中文分词处理,得到词语数组;
步骤5.2、使用把得到词语数组的进行词性标注,执行词性过滤,只保留名称、动词与方位词的词语;去短处理,过滤长度为1的词语,去重处理,过滤重复词语;
步骤5.3、把词语数组与法规文档(0)共同建立反向索引到法规条例;其中词语数组的携带权重值;词语数组的词语初始权重为1,如果该词语为法规文档(0)的关键词,则权重增加;如果该词语为法规关键词模块(8)词频统计值DF的词语,则权重减低。
6.根据权利要求2中所述的一种事件与法律条文自动匹配方法,其特征在于,上述步骤(6)的具体流程如下:
步骤6.1、关系评估模块(5)使用法规关键词模块(8)的法规文档A关键词去事故搜索模块(4)检索到事故信息B以及其配对度D1;配对度D1计算方法:法规文档A关键词与事故信息B匹配到反向索引词的权重累加值;
步骤6.2关系评估模块(5)过滤掉低配对度事故信息;
步骤6.3、关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2;配对度D2计算方法:事故信息B关键词与法规条例C匹配到反向索引词的权重累加值;
步骤6.4、关系评估模块(5)过滤掉低配对度法规条例C,按照配对度进行排序,输出法规条例与事故信息关联,添加为化工知识图谱的关联关系;
步骤6.5、评估模块(5)判断法规条例与事故信息关联为空,则判断对事故信息B进行二次过滤;
步骤6.6、事故信息B按照配对度进行排序,最终输出法规文档与事故信息关联(9),添加为化工知识图谱的关联关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811232178.3A CN109543044B (zh) | 2018-10-22 | 2018-10-22 | 一种事件与法律条文自动匹配系统及匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811232178.3A CN109543044B (zh) | 2018-10-22 | 2018-10-22 | 一种事件与法律条文自动匹配系统及匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543044A CN109543044A (zh) | 2019-03-29 |
CN109543044B true CN109543044B (zh) | 2021-06-18 |
Family
ID=65844569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811232178.3A Active CN109543044B (zh) | 2018-10-22 | 2018-10-22 | 一种事件与法律条文自动匹配系统及匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543044B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851584B (zh) * | 2019-11-13 | 2023-12-15 | 成都华律网络服务有限公司 | 一种法律条文精准推荐系统和方法 |
CN111695339B (zh) * | 2020-06-12 | 2023-06-30 | 湖北中烟工业有限责任公司 | 一种面向隐患的法规标准条文自动匹配方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002025513A3 (fr) * | 2000-09-25 | 2002-06-27 | David Trechnievski | Assistant personnel electronique intelligent |
CN102982095A (zh) * | 2012-10-31 | 2013-03-20 | 中国运载火箭技术研究院 | 一种基于叙词表的本体自动生成系统及其方法 |
CN104090863A (zh) * | 2014-07-24 | 2014-10-08 | 高德良 | 一种智能法律文书生成方法及智能法律文书生成系统 |
CN104573106A (zh) * | 2015-01-30 | 2015-04-29 | 浙江大学城市学院 | 一种基于案例推理技术的城市建设智能审批方法 |
CN104866593A (zh) * | 2015-05-29 | 2015-08-26 | 中国电子科技集团公司第二十八研究所 | 一种基于知识图谱的数据库搜索方法 |
CN105354286A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 规章类问题的查询方法和装置 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN107122438A (zh) * | 2017-04-21 | 2017-09-01 | 安徽富驰信息技术有限公司 | 一种司法案件检索方法及系统 |
CN108038091A (zh) * | 2017-10-30 | 2018-05-15 | 上海思贤信息技术股份有限公司 | 一种基于图的裁判文书案件相似计算与检索方法及系统 |
CN108595547A (zh) * | 2018-04-09 | 2018-09-28 | 南京网感至察信息科技有限公司 | 一种基于语义抽取的相似案件检索方法 |
-
2018
- 2018-10-22 CN CN201811232178.3A patent/CN109543044B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002025513A3 (fr) * | 2000-09-25 | 2002-06-27 | David Trechnievski | Assistant personnel electronique intelligent |
CN102982095A (zh) * | 2012-10-31 | 2013-03-20 | 中国运载火箭技术研究院 | 一种基于叙词表的本体自动生成系统及其方法 |
CN104090863A (zh) * | 2014-07-24 | 2014-10-08 | 高德良 | 一种智能法律文书生成方法及智能法律文书生成系统 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN104573106A (zh) * | 2015-01-30 | 2015-04-29 | 浙江大学城市学院 | 一种基于案例推理技术的城市建设智能审批方法 |
CN104866593A (zh) * | 2015-05-29 | 2015-08-26 | 中国电子科技集团公司第二十八研究所 | 一种基于知识图谱的数据库搜索方法 |
CN105354286A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 规章类问题的查询方法和装置 |
CN107122438A (zh) * | 2017-04-21 | 2017-09-01 | 安徽富驰信息技术有限公司 | 一种司法案件检索方法及系统 |
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN108038091A (zh) * | 2017-10-30 | 2018-05-15 | 上海思贤信息技术股份有限公司 | 一种基于图的裁判文书案件相似计算与检索方法及系统 |
CN108595547A (zh) * | 2018-04-09 | 2018-09-28 | 南京网感至察信息科技有限公司 | 一种基于语义抽取的相似案件检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109543044A (zh) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101414300B (zh) | 一种互联网舆情信息的分类处理方法 | |
CN101571853A (zh) | 网络话题内容演化分析装置及分析方法 | |
CN105138570B (zh) | 网络言论数据疑似犯罪度计算方法 | |
CN106055541A (zh) | 一种新闻内容敏感词过滤方法及系统 | |
CN102937960A (zh) | 突发事件热点话题的识别与评估装置和方法 | |
CN104820629A (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN102662952A (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN101196904A (zh) | 一种基于词频和多元文法的新闻关键词抽取方法 | |
CN109543044B (zh) | 一种事件与法律条文自动匹配系统及匹配方法 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN111274814B (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN105956740A (zh) | 一种基于文本逻辑特征的语义风险计算方法 | |
Owoeye et al. | Classification of extremist text on the web using sentiment analysis approach | |
Ali et al. | Feature-based transportation sentiment analysis using fuzzy ontology and sentiwordnet | |
CN111914141A (zh) | 一种舆情知识库构建方法及舆情知识库 | |
Guermazi et al. | Using a semi-automatic keyword dictionary for improving violent web site filtering | |
CN103870758B (zh) | 基于词归类组合判定与概率统计的涉密信息密级归属方法 | |
Ozawa et al. | A sentiment polarity prediction model using transfer learning and its application to SNS flaming event detection | |
CN110866177B (zh) | 化工事故新闻采集方法及机器可读存储介质 | |
CN106484846A (zh) | 一种网络舆情大数据的监控方法 | |
Pikir et al. | Sentiment Analysis of Technology Utilization by Pekanbaru City Government Based on Community Interaction in Social Media | |
CN110069703A (zh) | 一种基于特征增强的微博话题检测方法 | |
Guermazi et al. | Combining classifiers for web violent content detection and filtering | |
Cartwright et al. | Fighting disinformation warfare with artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |