CN115098585A

CN115098585A - 一种基于大数据的法律法规数据自动处理方法及系统

Info

Publication number: CN115098585A
Application number: CN202210844516.9A
Authority: CN
Inventors: 贺天亮; 雷宇
Original assignee: Shenzhen Deli Technology Co ltd
Current assignee: Shenzhen Deli Technology Co ltd
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-09-23

Abstract

本发明涉及如何基于大数据处理的方法对纯文本法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联、数据存储、数据质量的管理，并构建形成结构化数据资产的一种治理方法，以及基于此方法的一种设备和包括数据中间和最终存储的一种介质。

Description

一种基于大数据的法律法规数据自动处理方法及系统

技术领域

本发明涉及如何基于大数据处理方法对法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联、数据存储、数据质量的管理，并构建形成结构化数据资产的一种治理方法，以及基于此方法的一种设备和包括数据中间和最终存储的一种介质。

背景技术

目前从国家机构到地方机构职能部门所颁布的法律法规数量日益增多，各职能部门都有其独立的颁布网站，导致各法律法规分布分散且独立、法律法规含有不同的标准属性，从而没有形成统一的数据规范并管理。从中央印发《法治社会建设实施纲要（2020-2025年）》、法律从业者年增长人数及民事诉讼纠纷案例增多，法律法规数据的管理也愈发重要。目前通用的技术包括：数据预处理、数据存储与管理、计算处理、数据挖掘与分析、数据应用等步骤，将数据统一到企业的大数据平台，以满足企业信息规划的合理性和统筹性需求。常见的处理方法是针对法律法规数据治理发现存在通过正则表达式对法律法规数据解析，而没有形成完整的一个数据流程，更多的是对法律法规的一种应用关系。本发明的目的是解决目前政府法律法规数据公开的分散独立而不具备统一规范管理、法律法规数据之间的联系不密切的一种方法，通过采用智能流程标准化处理程序自动将百万级纯文本形式的法规进行大数据处理，形成结构化数据最终闭合状态。

发明内容

本发明要解决的技术问题是：如何基于大数据处理方法对对纯文本法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联、数据存储、数据质量的管理，最终构建形成结构化数据资产；

其详细描述为：

（1）数据自动集成：针对数据来源多样且结构不一，按照一定的标准规范对数据进行接入、转换、清洗、去重，形成固定结构的数据；

（2）数据智能关联：针对原始数据的静态表现，挖掘出法律法规之间的联系、文本的层次信息以及法律法规动态信息；

（3）数据存储：按照统一的数据结构及业务使用场景选择适合的存储组件；

（4）数据质量管理：按照一定的标准规范建立数据质量监控机制。

附图说明

为了更好的说明本发明的技术方案，下面对发明中所描述的附图作简单介绍，附图仅作为本发明的一引起实施样例，对本领域的技术人员来说，在不付出创造性劳动的前提下，还可以依据这些附图获得其它的附图，其中：

附图1 自底向上回溯过程

附图2 数据处理完整流程图。

具体实施方式

基于大数据对法律法规数据进行自动集成、智能关联、存储以及管理的方法。以下是详细的描述：

一、数据自动集成：主要分成四个模块：数据接入、数据转换、数据清洗以及数据去重；

（1）数据接入：将数据采集的多源异构的原始法律法规数据整合到分布式文件系统中存储；

（2）数据转换：法律法规数据预处理，将原始法律法规数据结构转换成另外一种数据结构；

（3）数据清洗：按照一定的标准规范设定数据的结构与标准规则，根据规则将数据清洗成固定的结构；

（4）数据去重：挖掘法律法规之间存在的唯一条件，挖掘法律法规文本之间的相似规则进行去重；

二、数据智能关联：挖掘出法律法规之间的关联性、法律法规文本的层次信息以及法律法规时间动态信息；

三、数据存储：根据业务使用场景，将数据分别存储在Hive、Mysql与ElasticSearch，形成一定的数据存储流程；

四、数据质量管理：主要是分为程序对数据异常的监控以及人工对数据质量的审核；

本发明技术方案的详细阐述；

首先通过法律专业人士根据政府机构颁布的历史法律法规数据样本中确定数据的共同特征、层次信息、关联信息及其动态信息标准化规则，根据统一的规则对原始数据进行集成、关联、存储及其管理，以下是详细的方法描述：

一、数据自动集成

（1）数据接入步骤：

A．数据源（原始数据）：通过采集各政府网站公开的法律法规数据，并将数据实时生产于Kafka消息系统中；

B． Flume方式数据接入：编写Flume多节点配置文件方式并编写后台实时消费的shell脚本将数据消费到HDFS分布式文件系统中，按照日期将数据分类，以文件形式存储；

（2）数据转换步骤：

A．定义数据结构：原始数据输入时的数据字段结构、原始数据转换后输出的数据字段结构；

B．自定义法律法规文件输入、输出格式；

C．编写MapReduce离线计算应用程序，将法律法规数据文件按照固定的大小分片进行并行计算；

D．读取输入法律法规文件内容（原始数据），逐行解析成<key,value>对；

E．数据格式解析：将输入的原始数据解析获取对应的字段名称和字段值；判断数据解析是否异常，若无异常则判断字段名称是否有所缺失或者字段值是否为null，并填补缺失的字段

F．将数据格式转换成定义好的输出的数据结构，按照日期将数据分类，以文件形式存储HDFS，并导入到Hive结构表中；

（3）数据清洗步骤：

A．定义数据结构：定义数据清洗后的数据字段结构；

B．自定义法律法规文件输入、输出格式；

C．构建编码表：由于法律法规一些字段是有具体的规范，采用统一的编码格式进行标识，编码按照一定的顺序、层级进行区分关联。其中编码表包含发布机构编码表、地域编码表、时效性编码表、效力等级编码表；

D．编写MapReduce离线计算应用程序，将法律法规数据文件按照固定的大小分片进行并行计算；

E．读取输入法律法规文件内容（数据转换后的数据），逐行解析成<key,value>对；

F．数据格式解析：由于数据转换步骤明确了数据的具体字段结构，根据字段分隔符获取对应的字段名称和字段值；

G．以下是具体数据字段结构提取的步骤：

（一）标题字段：判断标题是否为空、标题是否存在特殊字符；基于正则表达式匹配并替换的方法解决以上出现的问题，匹配替换的规则如下所示：

(\r|\n|\s|\t|\p{Zs}|(</[A-Za-z]+/>)|(&[A-Za-z]+;)|\/|\\)

（二）发布机构名称字段：发布机构名称主要分为采集的原始发布机构名称和从标题中提取的发布机构名称，以下是针对发布机构名称提取详细说明：

第一、循环遍历发布机构编码表中的数据，依次判断标题是否包含编码表中的发布机构名称；

第二、由于标题中可能含有多个发布机构名称且存在简称和全称之分，所以需要对标题命中的发布机构名称进行位置去重；

第三、获取发布机构名称在标题的位置，依次与其余发布机构名称在标题的位置进行交集计算，判读其位置是否重合；

第四、通过发布机构名称长度确定最终的发布机构名称；

（三）发布机构编码字段：采集的原始发布机构名称与从标题提取的发布机构名称存在不规范以及格式不统一的情况，需要与发布机构编码表进行关联并编码化处理，以编码与对应的规范名称作为标准，以下针对以上两种发布机构名称进行编码化处理，步骤如下：

第一、由于从标题提取的发布机构名称是从发布机构编码表所获得，所以通过发布机构名称直接从发布机构编码表获取对应的编码即可；

第二、原始发布机构名称与发布机构编码表中规范的发布机构名称进行相似度分值计算，主要的步骤为：

a)判断原始的发布机构名称是否含有多个发布机构名称，将原始发布机构名称按照分隔符进行分割；

b)缩减相似度分值计算范围：基于正则表达式匹配从原始发布机构名称中提取地域名称，根据地域名称从发布机构编码表中筛选出符合相关地域的发布机构编码和对应的发布机构名称，若没有符合此地域的则与发布机构编码表中全部的发布机构名称做相似度分值计算；其中地域提取的规则例如“省”的规则如下所示：

([^省]+省|.+自治区)

基于“省”匹配的规则挖掘出其余地域层级的规则

c)减小不必要的字符对计算的干扰：基于正则表达式保留原始发布机构名称与发布机构编码中的发布机构名称中的中文、英文、数字，规则如下所示：

[^A-Za-z0-9\u4e00-\u9fa5]

d)相似度分值计算：采用动态规划算法，求原始发布机构名称与发布机构编码表中发布机构名称两者的最长公共序列并要求其不连续；以最长公共序列长度与名称最长的发布机构名称长度作为计算单位求其比例，获得最大相似度分值；其中动态规划下的状态转移方程如下所示：

c[i,j]=

以字符串“ABCBDAB”与“BDCABA”作为示例，自底向上回溯过程如下所示：其中加粗的位置为两字符串不连续的最长公共子序列，即BCBA：

[\u4e00-\u9fa5]*〔\d+〕\d+号

e)最后以相似度分值与与其给定的分值进行比较，若大于等于则符合相似特征；

（四）发文字号字段：通常发文字号由发文机关代字、年份代码和发文顺序号三部分组成，例如国办发〔1996〕2号；根据以上规则基于正则表达式匹配相应结果，如下所示：

(生效|实施)日期[:：]\d{4}年\d{1,2}月\d{1,2}日

（五）发布日期字段：发布日期主要为采集时原始的发布日期与从正文中提取的发布日期；以下是对以上两种日期处理的具体步骤：

第一、法律法规正文内容日期格式一般采用xx年xx月xx日的格式展示；

第二、基于正则表达式从正文当中匹配具体的发布日期，规则如下所示：

(\r\n([\s\p{Zs}]*\r\n)+)

第三、按照发布日期字段结构格式化原始发布时间与正文中提取的发布日期；

第四、判断以上两种发布日期是否在正常日期范围内；

第五、原始发布日期与正文提取发布日期比较大小；

（六）实施日期字段：实施日期主要为采集时原始的实施日期与从正文中提取的实施日期；以下是对以上两种日期处理的具体步骤：

第一、基于正则表达式从正文中提取实施时间，规则如下所示：

([\\p{Zs}《（\\(]){0,原始标题([\\p{Zs}》）\\)]){0,}

第二、按照实施日期字段结构格式化原始实施时间与正文中提取的实施日期；

第三、判断以上两种实施日期是否在正常日期范围内；

第四、与发布时间比较大小，判断实施时间是否要大于等于发布时间；若正文不存在实施时间或者正文中的实施时间异常则沿用原始的实施时间；

（七）HTML标签正文内容处理：由于数据采集时法律法规内容都是HTML标签形式内容，所以需要对标签进行处理并获得纯文本形式，以下是具体步骤：

第一、删除HTML标签内容中的所有标签的属性，去掉其样式；

第二、保留需要的标签，用于展示，去掉其余所有的标签；

第三、基于正则表达式去掉正文内容当中的多个换行，如下所示：

\d{4}[-年]\d{1,2}[-月]\d{1,3}日.{0,50}原始标题

（八）法律法规效力等级字段：首先通过发布机构编码确定其所属的层级范围，然后根据标题所包含的关键字、发布机构名称所包含的关键词来确定具体的效力等级；

（九）法律法规时效性字段：通过各大政府颁布法律法规并对其修改废止状态存在以下6种时效性状态：

第一、未生效状态：通过实施时间与当前系统时间判断；

第二、有效状态：默认状态；

第三、已修正状态：通过某一法律法规对另外一部法律法规进行修改，并且产生新的法律法规，其特征含有相同的标题；

第四、部分失效状态：有效的法律法规文本内容中包含已失效的法律法规；

第五、失效状态：通过正文内容中包含失效、废止、作废等关键词判断相关法律法规失效的状态；

第六、无时效性状态：通过标题判断是否处于征集、草案的状态；

（十）法律法规之间的唯一性id：标题与发布时间；将标题中的中文数字转换成阿拉伯数字并标题只保留中文和数字，最后以标题加上发布时间或者实施时间生成MD5；

（4）数据去重步骤：通过编写SparkSql程序去重与文本相似度分值计算去重

A.法律法规增量数据去重：通过窗口函数row_number() over， partition by根据法律法规唯一id分区，order by根据发布机构编码排序；

B.法律法规增量数据与历史数据去重：增量数据集与历史数据集通过法律法规唯一id与采集地址关联，判断增量数据是否在历史数据集中；

C.法律法规文本相似度去重：主要分为相同文本与相似文本，文本只保留中文和数字，以下是具体的步骤：

第一、相同文本的判断主要是正文内容逐字比对看是否完全相等

第二、相似文本判断

（一）将文本内容按照分隔符分段，对每一段内容生成MD5值；

（二）遍历两则文本的各段，把MD5值依次进行比较，累计相同的段落，之后利用动态规划对其余段落进行序列比对，进而计算相似度；

（三）对当前文本内容的各句段分别遍历待比对文本内容的每一句段，判断两MD5值是否相等，若相等则将本句段文本字数累计入相同文本长度的变量中，若不相等则将本句段文本字数累计入不相同文本长度的变量中；

（四）对于剩余的句段，采用动态规划的方法，以整句文字的替换矩阵计算两个文字序列比对的最高得分，以此序列比对的方法得到这两个句段中的相似的连续文本的字数，作为两句段相似部分进行累计；动态规划算法和发布机构编码字段相似度分值计算方法一致；

二、数据智能关联

（1）法律法规、法条关联

A.将清洗后的法律法规数据中筛选出法律、行政法规、部门规章、司法解释、地方法规、地方规章这几类狭义上的法律法规数据；

B.将以上狭义法律法规数据按照标题进行分组，标题只保留中文和数字，减少后续步骤中标题匹配的次数；

C.循环遍历法律法规中所有的数据，并将正文内容只保留中文和数字；

D.循环遍历狭义的法律法规数据，判断法律法规正文内容是否包含狭义法律法规的标题；

E.若第四步骤成立则进行关联法律法规、法条的操作，以下是具体步骤:

(一)找到法律法规正文中所有原始的关联法律法规的标题

第一、找到标题在正文内容中的最后一个位置，从头循环遍历位置，判断从上个位置开始是否存在标题，得到初始位置和最终位置；

第二、记录原始正文中除了中文和数字的所有位置，依次遍历位置判断是否小于等于初始位置，依次加1，判断是否小于最终位置，依次加1，获得原始标题的初始位置和最终位置进行截取

第三、通过正则表达式从原始正文中修复原始标题中不闭合的括号，正则表达式规则如下所示：

(（|《){0,}原始标题(）|》){0,}(第([零一二三四五六七八九十百千万\d]+)条([、，){0,})+

(二)通过找到的原始标题基于正则表达式匹配相关法律法规、法条，具体步骤如下：

第一、包含相关发布日期的法律法规：基于正则表达式匹配相关法律法规语句与对应的发布日期，通过发布日期筛选出相关的法律法规，规则如下所示：

\s第([零一二三四五六七八九十百千万\d]+)篇

第二、不含发布时间的法律法规：基于正则表达式匹配出正文所包含法律法规以及法条；正则表达式规则如下所示：

\n\s*(\d+[、.\s]+)

（三）以上关联法规匹配步骤包含狭义法律法规标题全称和简称的匹配，所以最终结果会含有重复，通过标题在原始正文中的位置依次求交集进行去重并且标题要互相包含，最后选择长度最长的标题；

（2）法律法规文本层次信息

A. 主要拆分序言、编、章、节、条的标签信息以及对应的内容；若不含以上标签信息则以换行或者换行加上数字作为拆分标准，以下对这两种情况加以说明；

B. 含有序言、编、章、节、条的标签信息：通过正则表达式匹配标签信息并记录标签的起始位置，以当前元素的结束位置作为开始位置，以下个元素的开始位置作为结束位置，截取标签之后的文本内容，标签信息提取规则如提取“篇”如下所示：

\s第([零一二三四五六七八九十百千万\d]+)篇

D.不含标签信息：以换行或者换行加上数字作为拆分标准，通过正则表达式匹配相应文本信息，正则表达式如下所示：

\n\s*(\d+[、.\s]+)

（3）法律法规动态信息

A．法律法规之间存在修改、废止的关系，在时间线上是动态变化的，通过法律法规之间标题的相同或者标题包含关系，按照实施时间降序排序形成时间线关联；

B．如果标题是包含关系判断同一法律法规是否包含多个不同的关联法律法规，通过标题从历史数据根据标题模糊查询得到相关法律法规数据集，再按照实施时间排序得到时间线的大小关系；

三、数据存储

（1）采用分布式文件系统（HDFS）存储，采用文件方式进行存储，可以存储结构化和非结构化数据，便于数据访问与数据移动计算，主要用于数据集成层；

（2）关系型数据库(Mysql)存储，采用行存储，具有索引机制，提供事务性数据处理，方便数据的访问和修改；

（3）分布式全文检索框架（ElasticSearch），所有字段都建了索引，方便数据的复杂条件查询与全文检索，主要用于用户对数据的检索；

四、数据质量管理

第一、数据异常监控：数据异常监控主要是程序自动化对数据字段进行稽核，判断字段值是否不在标准规范内，并将异常数据情况存入数据库表且展示与数据运营平台；

第二、数据采集情况监控：数据采集情况监控主要体现数据是否有所缺失，确保数据的及时性，主要体现在三个方面：

A.Kafka数据源指标监控：判断数据是否实时生产，消费是否有积压，将指标数据存入数据库表并发送告警通知；

B.Flume数据接入监控：主要监控数据是否正常接入，flume接入程序异常发送告警通知并自动启动；

C.数据源采集详情监控：主要监控数据来源板块的采集数量，对应其采集数量最终为业务数据的数量情况以及两者环比并展示与数据运营平台；

第三、人工编辑审核：对每日增量数据的异常、数据采集情况进行审核，对数据进行上线、下线处理；

第四、数据报表发送：数据报表对数据总量、数据采集量、每日业务数据量指标发送数据报告；

图2是数据整个处理流程图；

本申请的数据处理采取自动化的流程式定时调度处理，在保证数据处理精确的同时大大简化了人工运维的工作量；

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本说明及附图内容所作的等效结构和等效流程变换，或直接、间接运用在其它技术领域，均包括在本申请的专利保护范围之内。

Claims

1.一种基于大数据的法律法规数据自动处理方法及系统，其特征在于，所述法律法规数据自动治理方法及系统包括数据自动集成、数据智能关联、数据多态存储、数据质量的管理。

2.根据权利要求1所述的方法，其特征在于数据集成的自动化步骤：根据不同的数据来源按照指定标准规范对数据自动进行接入、转换、清洗、去重，形成固定结构的数据；数据接入步骤：通过采集政府网站公开的法律法规数据，将数据实时生产于Kafka消息系统中；通过Flume方式数据接入：编写Flume多节点配置文件方式并编写后台实时消费的shell脚本将数据消费到HDFS分布式文件系统中，按照日期将数据分类，以文件形式存储；编写MapReduce离线计算应用程序，将法律法规数据文件按照固定的大小分片进行并行计算；读取输入法律法规文件原始数据内容，逐行解析成key/value键值对；数据格式解析：将输入的原始数据解析获取对应的字段名称和字段值；判断数据解析是否异常，若无异常则判断字段名称是否有所缺失或者字段值是否为null，并填补缺失的字段；将数据格式转换成定义好的输出的数据结构，按照日期将数据分类，以文件形式存储HDFS，并导入到Hive结构表中。

3.根据权利要求1所述的方法，其特征在于智能化建立数据关联的步骤：通过针对原始纯文本的数据的静态表现形式，用智能算法挖掘出法律法规之间的联系、文本的层次信息以及法律法规动态信息；通过标题拆解书名号《》得出关联法规的名称，并和历史版本进行去重关联，建立法规的历史沿革版本记录；法律法规之间存在修改、废止的关系，在时间线上是动态变化的，通过法律法规之间标题的相同或者标题包含关系，按照实施时间降序排序形成时间线关联；如果标题是包含关系判断同一法律法规是否包含多个不同的关联法律法规，通过标题从历史数据根据标题模糊查询得到相关法律法规数据集，再按照实施时间排序得到时间线的大小关系。

4.根据权利要求1所述的方法，其特征在于数据多态存储：按照数据处理流程的时间不同采用不同的存储数据结构及业务使用场景选择适合的存储组件；原始数据采集入库采用分布式文件系统HDFS存储，用文件方式进行存储结构化和非结构化数据，用于后续数据流访问与数据移动计算；数据去重、清洗后以关系型数据库Mysql存储，采用行存储，具有索引机制，提供事务性数据处理，用于清洗后数据的访问和修改；数据通过自动审核机制通过后上线分布式全文检索框架ElasticSearch，所有字段都建了索引，用于对外提供接口开放数据复杂条件查询与全文检索。

5. 根据权利要求1所述的方法，其特征在于数据质量管理：按照一定的标准规范建立数据质量监控机制，并实现异常实时告警监控；数据异常监控：数据异常监控主要是程序自动化对数据字段进行稽核，判断字段值是否不在标准规范内，并将异常数据情况存入数据库表且展示与数据运营平台；数据采集情况监控：数据采集情况监控主要体现数据是否有所缺失，确保数据的及时性，主要体现在三个方面： Kafka数据源指标监控：判断数据是否实时生产，消费是否有积压，将指标数据存入数据库表并发送告警通知；Flume数据接入监控：主要监控数据是否正常接入，flume接入程序异常发送告警通知并自动启动；数据源采集详情监控：主要监控数据来源板块的采集数量，对应其采集数量最终为业务数据的数量情况以及两者环比并展示与数据运营平台；人工编辑审核：对每日增量数据的异常、数据采集情况进行审核，对数据进行上线、下线处理；数据报表发送：数据报表对数据总量、数据采集量、每日业务数据量指标发送数据报告。

6.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至5中任一项所述方法的步骤。

7.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5中任一项所述的方法的步骤。