CN109543044B

CN109543044B - 一种事件与法律条文自动匹配系统及匹配方法

Info

Publication number: CN109543044B
Application number: CN201811232178.3A
Authority: CN
Inventors: 金国庆; 陈尚武; 邬文达; 胡松涛; 田远东; 李华松; 卢锡芹; 倪仰
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2021-06-18
Anticipated expiration: 2038-10-22
Also published as: CN109543044A

Abstract

本发明提供一种事件与法律条文自动匹配系统及匹配方法，其步骤如下：1、事故关键词模块提取事故信息的关键词的流程；2、事故搜索模块对事故信息建立全文检索；3、法规关键词模块提取法规文档关键词的流程；4、法规条例提取模块把法规文档按照条例提取出来，法规条例提取模块按照“第N条”关键词提取法规文档的条例；5、法规搜索模块对法规条例建立反向索引；6、关系评估模块评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块的流程。从而实现由事故信息查询相关法规文档以及对应法规条例，同时实现法规文档与法规条例查询相关关联的事故信息，从而为监管提供数据支撑，并有效地实现预防预警。

Description

一种事件与法律条文自动匹配系统及匹配方法

技术领域

本发明涉及大数据技术领域，具体涉及一种事件与法律条文自动匹配系统及匹配方法。

背景技术

针对当前大数据云计算与传统行业相互紧密结合的发展趋势，根据化工领域事故发生的以往历史数据记录进行大数据处理，目前市面上还未有相关公开技术能够将已经生成的化工事故信息与相关化工法规之间建立直接或者间距评估判断关联关系；当前是基于有经验或者专业专家人士(比如公司法务、律师、行业专家)来分析判断得到相关关系，人力成本高且耗时久，更多地需要根据事故发生后评估结果然后再采取相应弥补或补救措施，而难以建立有效地化工监管、预防预警的机制。

发明内容

本发明的目的在于提供一种事件与法律条文自动匹配系统及匹配方法，解决了背景技术中所提出的问题，从而实现由事故信息查询相关法规文档以及对应法规条例，同时实现法规文档与法规条例查询相关关联的事故信息，从而为化工监管提供数据支撑，并有效地实现预防预警。

为实现上述目的，本发明提供一种事件与法律条文自动匹配系统，包括化工敏感词库模块(2)，事故关键词模块(3)，事故搜索模块(4)，关系评估模块(5)，法规条例提取模块(6)，法规条例搜索模块(7)，法规关键词模块(8)；

法规文档(0)，是用于解析化工类的法律法规文档，法规文档(0)的数据输入到法规关键词模块(8)与法规条例提取模块(6)；

事故信息(1)，是化工类的事故信息文档；一条化工事故信息主要包括事故名、事故时间、事故地点、事故描述和事故原因信息；事故信息(1)的事故信息数据输出给事故搜索引擎模块(4)与事故关键词模块(3)；

化工敏感词库模块(2)，是用于保存化工的危化品、生成工艺、重要设施的名称与别名的模块；本发明评估系统应提前录入化工的危化品、生成工艺、重要设施的名称或别名的清单；

事故关键词模块(3)，是用于提取事故信息(1)的关键词的模块；对事故信息文字提取出关键词与权重值，匹配化工敏感词库模块(2)的敏感词调节关键词权重；并将事故关键词模块(3)接收事故信息(1)的事故信息数据与法规文档数据中提取出的关键词与权重值提供给关系评估模块(5)；

事故搜索模块(4)，是用于化工事故信息(1)的事故信息的全文检索；事故搜索模块(4)接收事故信息(1)的数据，进行中文分词，建立反向索引，给关系评估模块(5)提供数据搜索模块；

关系评估模块(5)，是用于分别评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块；

关系评估模块(5)使用法规关键词模块(8)的法规文档A的关键词在事故搜索模块(4)检索到事故信息B以及其配对度D1；

关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2，最终输出法规文档与事故信息关联(9)、法规条例与事故信息关联(10)；

法规条例提取模块(6)，是用于负责把法规文档按照条例提取出来；法规条例提取模块(6)按照“第N条”关键词提取法规文档的条例；

法规条例搜索模块(7)，是对法规文档的条例的全文检索；法规条例搜索模块(7)接收法规条例提取模块(6)的数据，进行中文分词，建立反向索引，给关系评估模块(5)提供数据搜索模块；

法规关键词模块(8)，是用于提取法律法规的关键词的模块；提取事故法规文件的关键词与权重值，并且法规关键词模块(8)把关键词与权重值提供给关系评估模块(5)；

本发明还提供一种事故信息与法规关联的评估方法，包括如下步骤：

步骤(1)、事故关键词模块(3)提取事故信息(1)的关键词的流程：

1.1、对事故信息的文字信息进行中文分词处理，得到词语数组；

例如：事故信息“作业人员对排气管的延伸部分进行焊接时，罐内残液挥发出油气形成爆炸性气体顺排气管排出时，遇焊接明火，产生爆炸”，中文分词处理得到词语数组：

“作业/人员/对/排气管/的/延伸/部分/进行/焊接/时/，/罐内/残液/挥/发出/油气/形成/爆炸性/气体/顺/排气管/排出/时/，/遇/焊接/明火/，/产生/爆炸”；

1.2、对词语数组的进行词性标注；

1.3、对词语数组执行词性过滤，只保留名称、动词与方位词的词语，去短处理，过滤长度为1的词语，去重处理，过滤重复词语；

例如：”作业/人员/对/排气管/的/延伸/部分/进行/焊接/时/，/罐内/残液/挥/发出/油气/形成/爆炸性/气体/顺/排气管/排出/时/，/遇/焊接/明火/，/产生/爆炸”执行词性过滤与去短处理后与去重处理变为：”作业/人员/排气管/延伸/部分/进行/焊接/罐内/残液发出/油气/形成/爆炸性/气体/排出/明火/产生/爆炸”；

1.4、使用图模型的TextRank算法计算词语数组的每个词语权重；将词语数组的词语视为节点，使用词性标注信息判断这两词间语法关系，如果两个语法单元存在一定语法关系，则这两个词语在图中就会有一条边相互连接，通过TextRank迭代算法公式，最终不同词语有不同的权重值，权重值高的的词语为关键词；

判断两词语法关系：主谓关系，动宾关系，修饰关系等语法关系；

TextRank迭代计算公式为：

WS(V_i)是词语i的权重值；d是阻尼系数，一般设置为0.85；In(V_i)是存在指向词语i的链接的词语集合；Out(V_j)是词语j中的链接存在的链接指向的词语的集合；权重项ω_ji，用来表示两个词语之间的边有不同的重要程度；

1.5、计算词语数组的所有词的词频统计值DF；

计算方式：事故关键词模块(3)每处理一个事故信息，则事故信息(1)总计数TN加1，事故关键词模块(3)保存词语数组的每个词语的事故信息计数，如果事故关键词模块(3)未保存词语则按照事故信息计数为1进行保存，而已存在该词则事故信息计数加1，按照词语的词频统计值DF计算公式计算；

词频统计值DF＝事故信息(1)总计数TN/(词语的事故信息计数+1)；

1.6、使用词频统计值调节图模型输出词语的权重值；词频统计值DF小于阀值DFM(如DFM取值3)则，减低权重值N倍(如N取值4)；

1.7、根据化工敏感词模块继续调节词语的权重值；

1.8、过滤掉词语数组的权重的词语后，生成最终的关键词；

步骤(2)、事故搜索模块(4)对事故信息(1)建立全文检索；

2.1对事故信息的文字信息进行中文分词处理，得到词语数组；

2.2、使用把得到词语数组的进行词性标注，执行词性过滤，只保留名称、动词与方位词的词语；去短处理，过滤长度为1的词语，去重处理，过滤重复词语；

2.3、使用词语数组的携带权重建立反向索引；词语数组的词语初始权重值为1，如果该词语为该事故信息的关键词，则权重增加(如增大一倍)；如果该词语为事故关键词模块(3)低词频统计值DF(如小于3)的词语，则权重减低(如减少一倍)；

步骤(3)、法规关键词模块(8)提取法规文档(0)关键词的流程；

3.1、对法规文档(0)的整个文字信息进行中文分词处理，得到词语数组低词频统计值DF；

3.2、对词语数组的进行词性标注；

3.3、对词语数组执行词性过滤，只保留名称、动词与方位词的词语，去短处理，过滤长度为1的词语，去重处理，过滤重复词语；

3.4、使用图模型的TextRank算法计算词语数组的每个词语权重；法规关键词模块(8)每处理一个法规文档(0)，则法规文档总计数TN加1，法规关键词模块(8)保存词语数组的每个词语的法规文档计数，如果法规关键词模块(8)未保存词语则按照事故信息计数为1进行保存，而已存在该词则事故信息计数加1，按照词语的词频统计值DF计算公式计算；

3.5、使用词频统计值调节图模型输出词语的权重值；

3.6、使用词频统计值调节图模型输出词语的权重值；词频统计值DF小于阀值DFM(如DFM取值3)，则减低权重值N倍(如N取值4)；

3.7、过滤掉词语数组的权重的词语后，生成最终的关键词；

步骤(4)、法规条例提取模块(6)把法规文档按照条例提取出来；法规条例提取模块(6)按照“第N条”关键词提取法规文档的条例；

步骤(5)、法规搜索模块(8)对法规条例建立反向索引；

5.1、对法规条例的文字信息进行中文分词处理，得到词语数组；

5.2、使用把得到词语数组的进行词性标注，执行词性过滤，只保留名称、动词与方位词的词语；去短处理，过滤长度为1的词语，去重处理，过滤重复词语；

5.3、把词语数组与法规文档(0)共同建立反向索引到法规条例；其中词语数组的携带权重值；词语数组的词语初始权重为1，如果该词语为法规文档(0)的关键词，则权重增加(如增大一倍)；如果该词语为法规关键词模块(8)低词频统计值DF(如小于3)的词语，则权重减低(如减少一倍)；

步骤(6)、关系评估模块(5)评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息的模块的流程；

6.1、关系评估模块(5)使用使用法规关键词模块(8)的法规文档A关键词去事故搜索模块(4)检索到事故信息B以及其配对度D1；配对度D1计算方法：法规文档A关键词与事故信息B匹配到反向索引词的权重累加值；

6.2关系评估模块(5)过滤掉低配对度(如小于10)事故信息；

6.3、关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2；配对度D2计算方法：事故信息B关键词与法规条例C匹配到反向索引词的权重累加值；

6.4、关系评估模块(5)过滤掉低配对度(如小于10)法规条例C，按照配对度进行排序，输出法规条例与事故信息关联，添加为化工知识图谱的关联关系；

6.5、评估评估模块(5)判断法规条例与事故信息关联为空，则判断对事故信息B进行二次过滤(如配对度小于20，进行过滤)；

6.6、事故信息B按照配对度进行排序，最终输出法规文档与事故信息关联(9)，添加为化工知识图谱的关联关系。

与现有技术相比，本发明的有益效果如下：

当前是基于有经验或者专业专家人士(比如公司法务、律师、行业专家)来分析判断得到相关关系，人力成本高且耗时久，使用此评估方法，得到一个事故信息与法规关联的初步相关关系判断，辅助有经验或者专业专家人士分析判断，另自动化大规模分析处理，可以实现实现监管、预防预警的机制，为化工安全管理辅助决策。

附图说明

图1为本发明一种事件与法律条文自动匹配系统及匹配方法的功能结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种事件与法律条文自动匹配系统的具体实施例，包括化工敏感词库模块(2)，事故关键词模块(3)，事故搜索模块(4)，关系评估模块(5)，法规条例提取模块(6)，法规条例搜索模块(7)，法规关键词模块(8)；

此外，结合上述一种事件与法律条文自动匹配系统，本发明还提供一种事故信息与法规关联的评估方法，包括如下步骤：

1.2、对词语数组的进行词性标注；

TextRank迭代计算公式为：

1.5、计算词语数组的所有词的词频统计值DF；

1.8、根据化工敏感词模块继续调节词语的权重值；

1.8、过滤掉词语数组的权重的词语后，生成最终的关键词；

步骤(2)、事故搜索模块(4)对事故信息(1)建立全文检索；

步骤(3)、法规关键词模块(8)提取法规文档(0)关键词的流程；

3.2、对词语数组的进行词性标注；

3.6、使用词频统计值调节图模型输出词语的权重值；

3.7、过滤掉词语数组的权重的词语后，生成最终的关键词；

步骤(5)、法规搜索模块(8)对法规条例建立反向索引；

6.2关系评估模块(5)过滤掉低配对度(如小于10)事故信息；

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种事件与法律条文自动匹配系统，其特征在于，包括化工敏感词库模块(2)，事故关键词模块(3)，事故搜索模块(4)，关系评估模块(5)，法规条例提取模块(6)，法规条例搜索模块(7)，法规关键词模块(8)；

法规文档(0)，用于解析化工类的法律法规文档，法规文档(0)的数据输入到法规关键词模块(8)与法规条例提取模块(6)；

事故信息(1)，化工类的事故信息文档；事故信息(1)的事故信息数据输出给事故搜索模块(4)与事故关键词模块(3)；

化工敏感词库模块(2)，用于保存化工的危化品、生成工艺、重要设施的名称与别名的模块；

事故关键词模块(3)，用于提取事故信息(1)的关键词的模块；从事故信息文字提取出关键词与权重值，匹配化工敏感词库模块(2)的敏感词，调节关键词权重；并将事故关键词模块(3)接收事故信息(1)的事故信息数据与法规文档数据中提取出的关键词与权重值提供给关系评估模块(5)；

法规条例提取模块(6)，是用于负责把法规文档按照条例提取出来；法规条例提取模块(6)按照第N条关键词提取法规文档的条例；

法规条例搜索模块(7)，是对法规文档的条例的全文检索的模块；法规条例搜索模块(7)接收法规条例提取模块(6)的数据，进行中文分词，建立反向索引，给关系评估模块(5)提供数据；

法规关键词模块(8)，是用于提取法律法规的关键词的模块；提取事故法规文件的关键词与权重值，并且法规关键词模块(8)把关键词与权重值提供给关系评估模块(5)。

2.一种事件与法律条文自动匹配方法，其特征在于，包括如下步骤：

步骤(2)、事故搜索模块(4)对事故信息(1)建立全文检索；

步骤(3)、法规关键词模块(8)提取法规文档(0)关键词的流程；

步骤(5)、法规搜索模块(8)对法规条例建立反向索引；

步骤(6)、关系评估模块(5)评估出法规文档可能关联事故信息以及该法规的每个条例关联事故信息；

上述步骤(1)的具体流程如下：

步骤1.1、对事故信息的文字信息进行中文分词处理，得到词语数组；

步骤1.2、对词语数组进行词性标注；

步骤1.3、对词语数组执行词性过滤，只保留名称、动词与方位词的词语，去短处理，过滤长度为1的词语，去重处理，过滤重复词语；

步骤1.4、使用图模型的TextRank算法计算词语数组的每个词语权重；将词语数组的词语视为节点，使用词性标注信息判断这两词间语法关系，如果两个语法单元存在一定语法关系，则这两个词语在图中就会有一条边相互连接，通过TextRank迭代算法公式，最终不同词语有不同的权重值，权重值高的词语为关键词；

TextRank迭代计算公式为：

WS(Vi)是词语i的权重值；d是阻尼系数，设置为0.85；In(Vi)是存在指向词语i的链接的词语集合；Out(Vj)是词语j中的链接存在的链接指向的词语的集合；权重项ωji，用来表示两个词语之间的边有不同的重要程度；

步骤1.5、计算词语数组的所有词的词频统计值DF；计算方式：事故关键词模块(3)每处理一个事故信息，则事故信息(1)总计数TN加1，事故关键词模块(3)保存词语数组的每个词语的事故信息计数，如果事故关键词模块(3)未保存词语则按照事故信息计数为1进行保存，而已存在该词则事故信息计数加1，按照词语的词频统计值DF计算公式计算；词频统计值DF＝事故信息(1)总计数TN/(词语的事故信息计数+1)；

步骤1.6、使用词频统计值调节图模型输出词语的权重值；词频统计值DF小于阈值DFM，则减低权重值N倍；

步骤1.7、根据化工敏感词模块继续调节词语的权重值；步骤1.8、过滤掉词语数组的权重的词语后，生成最终的关键词。

3.根据权利要求2中所述的一种事件与法律条文自动匹配方法，其特征在于，上述步骤(2)的具体流程如下：

步骤2.1、对事故信息的文字信息进行中文分词处理，得到词语数组；

步骤2.2、使用把得到词语数组的进行词性标注，执行词性过滤，只保留名称、动词与方位词的词语；去短处理，过滤长度为1的词语，去重处理，过滤重复词语；

步骤2.3、使用词语数组携带的权重建立反向索引；词语数组的词语初始权重值为1，如果该词语为该事故信息的关键词，则权重增加；如果该词语为事故关键词模块(3)词频统计值DF的词语，则权重减低。

4.根据权利要求2中所述的一种事件与法律条文自动匹配方法，其特征在于，上述步骤(3)的具体流程如下：

步骤3.1、对法规文档(0)的整个文字信息进行中文分词处理，得到词语数组词频统计值DF；步骤3.2、对词语数组的进行词性标注；

步骤3.3、对词语数组执行词性过滤，只保留名称、动词与方位词的词语，去短处理，过滤长度为1的词语，去重处理，过滤重复词语；

步骤3.4、使用图模型的TextRank算法计算词语数组的每个词语权重；法规关键词模块(8)每处理一个法规文档(0)，则法规文档总计数TN加1，法规关键词模块(8)保存词语数组的每个词语的法规文档计数，如果法规关键词模块(8)未保存词语则按照事故信息计数为1进行保存，而已存在该词则事故信息计数加1，按照词语的词频统计值DF计算公式计算；

步骤3.5、使用词频统计值调节图模型输出词语的权重值；

步骤3.6、使用词频统计值调节图模型输出词语的权重值；词频统计值DF小于阈值DFM，则减低权重值N倍；

步骤3.7、过滤掉词语数组的权重的词语后，生成最终的关键词。

5.根据权利要求2中所述的一种事件与法律条文自动匹配方法，其特征在于，上述步骤(5)的具体流程如下：

步骤5.1、对法规条例的文字信息进行中文分词处理，得到词语数组；

步骤5.2、使用把得到词语数组的进行词性标注，执行词性过滤，只保留名称、动词与方位词的词语；去短处理，过滤长度为1的词语，去重处理，过滤重复词语；

步骤5.3、把词语数组与法规文档(0)共同建立反向索引到法规条例；其中词语数组的携带权重值；词语数组的词语初始权重为1，如果该词语为法规文档(0)的关键词，则权重增加；如果该词语为法规关键词模块(8)词频统计值DF的词语，则权重减低。

6.根据权利要求2中所述的一种事件与法律条文自动匹配方法，其特征在于，上述步骤(6)的具体流程如下：

步骤6.1、关系评估模块(5)使用法规关键词模块(8)的法规文档A关键词去事故搜索模块(4)检索到事故信息B以及其配对度D1；配对度D1计算方法：法规文档A关键词与事故信息B匹配到反向索引词的权重累加值；

步骤6.2关系评估模块(5)过滤掉低配对度事故信息；

步骤6.3、关系评估模块(5)使用事故关键词模块(3)的事故信息B的关键词在法规条例搜索模块(7)检索到法规文档A的法规条例C以及其配对度D2；配对度D2计算方法：事故信息B关键词与法规条例C匹配到反向索引词的权重累加值；

步骤6.4、关系评估模块(5)过滤掉低配对度法规条例C，按照配对度进行排序，输出法规条例与事故信息关联，添加为化工知识图谱的关联关系；

步骤6.5、评估模块(5)判断法规条例与事故信息关联为空，则判断对事故信息B进行二次过滤；

步骤6.6、事故信息B按照配对度进行排序，最终输出法规文档与事故信息关联(9)，添加为化工知识图谱的关联关系。