CN112765939A

CN112765939A - 基于正则表达式匹配算法的政策法律法规解析方法及系统

Info

Publication number: CN112765939A
Application number: CN202110152861.1A
Authority: CN
Inventors: 邢生阳
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-05-07

Abstract

本发明公开了基于正则表达式匹配算法的政策法律法规解析方法及系统，属于政策法律法规解析技术领域，要解决的技术问题为如何基于正则表达式算法对政策法律法规进行解析。方法包括：对具有代表性的少量政策法律法规进行人工解析，得到初始规则算法库；获取历史政策法律法规文件作为训练样本，基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，得到训练后匹配规则模型；通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析，得到解析后标准化内容。

Description

基于正则表达式匹配算法的政策法律法规解析方法及系统

技术领域

本发明涉及政策法律法规解析技术领域，具体地说是基于正则表达式匹配算法的政策法律法规解析方法及系统。

背景技术

政策法律法规文件是政府及其相关部门发布的权威性的文件，涉及到对政府政策的解释、法律中某些条文或文字的解释或限定，格式具有一定的规范性和标准性。随着政府政策法律法规文件日益增多，政府面临服务能力的提升的要求，对信息检索能力的要求也越来越高，单纯通过人工整理，以及搜索引擎技术不能有效的对政策法律法规文件进行完整的、有层次的解析，无法满足各种复杂的需求。

正则表达式匹配算法是近年来比较成熟的技术，被越来越多的运用在数据的分析和挖掘中，能解决实际业务中的很多问题。正则表达式匹配算法就是通过不断的训练以及人工前期的补充规则，最终形成一定的匹配规则算法库。然后通过规则算法库对政策法律法规文件进行格式化解析。格式化解析主要包括文件的标题、文件的目录、文件的正文、附录等等。还包括文件的层级关系，比如编、章、节、条等。不仅能够大大提高检索的效率，还能通过正向或者反向查找前后的文件层级以及内容。

如何基于正则表达式算法对政策法律法规进行解析，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供基于正则表达式匹配算法的政策法律法规解析方法及系统，来解决如何基于正则表达式算法对政策法律法规进行解析的问题。

第一方面，本发明提供一种基于正则表达式匹配算法的政策法律法规解析方法，包括如下步骤：

对具有代表性的少量政策法律法规进行人工解析，得到初始规则算法库；

获取历史政策法律法规文件作为训练样本，基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，得到训练后匹配规则模型；

通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析，得到解析后标准化内容。

作为优选，所述政策法律法规的解析内容包括基本信息和层次信息，所述基本信息包括发布日期、实施日期以及时效性；

所述层次信息包括编、章、节、条、正文内容以及附录。

作为优选，对具有代表性的少量政策法律法规进行人工解析，包括如下步骤：

提取文件目录层次的规则，提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”，提取“编”内容的规则为“第[一二三四五六七八九十百零千]{1,6}编\s.+？(？＝第[一二三四五六七八九十百零千]{1,6}编)“。

作为优选，基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，包括如下步骤：

通过发现标题的算法规则“(第[一二三四五六七八九十百零千]{1,6}.+)\s”，挖掘出政策法律法规文件不同层次使用的不同的词汇；

通过对正文的训练挖掘，得到基本信息。

作为优选，所述解析后标准化内容以json格式返回。

第二方面，本发明提供一种基于正则表达式匹配算法的政策法律法规解析系统，通过如第一方面任一项所述的基于正则表达式匹配算法的政策法律法规解析方法对政策法律法规进行解析，所述系统包括：

初始规则算法库创建模块，所述初始规则算法库创建模块用于对具有代表性的少量政策法律法规进行人工解析，得到初始规则算法库；

模型训练模块，所述模型训练模块用于获取历史政策法律法规文件作为训练样本，基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，得到训练后匹配规则模型；

测试模块，所述测试模块用于通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析，得到解析后标准化内容。

所述层次信息包括编、章、节、条、正文内容以及附录。

提取文件目录层次的规则，提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”，提取“编”内容的规则为：第[一二三四五六七八九十百零千]{1,6}编\s.+？(？＝第[一二三四五六七八九十百零千]{1,6}编)“。

通过对正文的训练挖掘，得到基本信息。

作为优选，所述解析后标准化内容以json格式返回。

本发明的基于正则表达式匹配算法的政策法律法规解析方法及系统具有以下优点：通过对大量的历史政策法律法规文件进行训练，辅以少量人工的介入，得到智能解析的匹配算法模型。当有新的政策法律法律文件需要解析时，传入相应的算法模型，模型能够输出相应的格式化解析结果。通过这种智能方式来辅助对文件解析，可以减少人工经验依赖，提高解析的准确率和效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1基于正则表达式匹配算法的政策法律法规解析方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于正则表达式匹配算法的政策法律法规解析方法及系统，用于解决如何基于正则表达式算法对政策法律法规进行解析的技术问题。

实施例1：

本发明的一种基于正则表达式匹配算法的政策法律法规解析方法，包括如下步骤：

S100、人工辅助建立初始匹配算法库，即对具有代表性的少量政策法律法规进行人工解析，得到初始规则算法库；

S200、获取历史政策法律法规文件作为训练样本，基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，得到训练后匹配规则模型；

S300、通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析，得到解析后标准化内容。

其中，步骤S100通过对有代表性的少量政策法律法规进行人工解析，整理出部分规则算法库。比如提取文件目录层次的规则，提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”，提取“编”内容的规则为“第[一二三四五六七八九十百零千]{1,6}编\s.+？(？＝第[一二三四五六七八九十百零千]{1,6}编)”。

步骤S200通过之前整理出的规则算法库对大量的历史政策法律法规文件进行训练，不断挖掘补充新的匹配规则，最终形成较完整的匹配规则模型。比如通过发现标题的算法规则“(第[一二三四五六七八九十百零千]{1,6}.+)\s”，挖掘出政策法律法规文件不同层次使用的不同的词汇，除了有“编”，还有“章”、“节”、“条”等。通过对正文的训练挖掘，挖掘出“发布日期”、“实施日期”、“时效性”等政策法律法规基本信息。

步骤S300运用已经建立的匹配算法模型，对新的政策法律法规文件进行解析，获得解析后的标准化内容，比如解析出“标题”、“发布日期”、“实施日期”等基本信息，各编、章、节、条的小标题、以及内容，此外还有附录等内容。

以《中华人民共和国证券法》为例，通过正则表达式匹配算法，对其进行解析。截取部分解析结果。

解析结果：{'chapter_number':[['第一章']],'chapter_content':[['总则']],'item_number':[[[['第一条','第二条','第三条']]]],'item_content':[[[['为了规范证券发行和交易行为,保护投资者的合法权益,维护社会经济秩序和社会公共利益,促进社会主义市场经济的发展,制定本法。','在中华人民共和国境内,股票、公司债券和国务院依法认定的其他证券的发行和交易,适用本法；本法未规定的,适用《中华人民共和国公司法》和其他法律、行政法规的规定。政府债券、证券投资基金份额的上市交易,适用本法；其他法律、行政法规另有规定的,适用其规定。证券衍生品种发行、交易的管理办法,由国务院依照本法的原则规定。','证券的发行、交易活动,必须实行公开、公平、公正的原则。']]]]}。

结果中展示了对第一章前三条进行了格式化解析，分别解析了“章”、“条”的层级和内容，结果以json格式返回。

实施例2：

本发明的一种基于正则表达式匹配算法的政策法律法规解析系统，通过实施例1公开的基于正则表达式匹配算法的政策法律法规解析方法对政策法律法规进行解析，该系统包括初始规则算法库创建模块、模型训练模块以及测试模块，初始规则算法库创建模块用于对具有代表性的少量政策法律法规进行人工解析，得到初始规则算法库；模型训练模块用于获取历史政策法律法规文件作为训练样本，基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，得到训练后匹配规则模型；测试模块用于通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析，得到解析后标准化内容。

其中，政策法律法规的解析内容包括基本信息和层次信息，所述基本信息包括发布日期、实施日期以及时效性；层次信息包括编、章、节、条、正文内容以及附录。

对具有代表性的少量政策法律法规进行人工解析，包括如下步骤：

基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，包括如下步骤：

通过对正文的训练挖掘，得到基本信息。

解析后标准化内容以json格式返回。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.基于正则表达式匹配算法的政策法律法规解析方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于正则表达式匹配算法的政策法律法规解析方法，其特征在于所述政策法律法规的解析内容包括基本信息和层次信息，所述基本信息包括发布日期、实施日期以及时效性；

所述层次信息包括编、章、节、条、正文内容以及附录。

3.根据权利要求2所述的基于正则表达式匹配算法的政策法律法规解析方法，其特征在于对具有代表性的少量政策法律法规进行人工解析，包括如下步骤：

4.根据权利要求1所述的基于正则表达式匹配算法的政策法律法规解析方法，其特征在于基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，包括如下步骤：

通过对正文的训练挖掘，得到基本信息。

5.根据权利要求1、2、3或4所述的基于正则表达式匹配算法的政策法律法规解析方法，其特征在于所述解析后标准化内容以json格式返回。

6.基于正则表达式匹配算法的政策法律法规解析系统，其特征在于通过如权利要求1-5任一项所述的基于正则表达式匹配算法的政策法律法规解析方法对政策法律法规进行解析，所述系统包括：

7.根据权利要求6所述的基于正则表达式匹配算法的政策法律法规解析系统，其特征在于所述政策法律法规的解析内容包括基本信息和层次信息，所述基本信息包括发布日期、实施日期以及时效性；

所述层次信息包括编、章、节、条、正文内容以及附录。

8.根据权利要求6所述的基于正则表达式匹配算法的政策法律法规解析系统，其特征在于对具有代表性的少量政策法律法规进行人工解析，包括如下步骤：

9.根据权利要求6所述的基于正则表达式匹配算法的政策法律法规解析方法，其特征在于基于上述初始规则算法库对上述训练样本进行分析，挖掘新的匹配规则，包括如下步骤：

通过对正文的训练挖掘，得到基本信息。

10.根据权利要求6、7、8或9所述的基于正则表达式匹配算法的政策法律法规解析方法，其特征在于所述解析后标准化内容以json格式返回。