CN112765939A - 基于正则表达式匹配算法的政策法律法规解析方法及系统 - Google Patents
基于正则表达式匹配算法的政策法律法规解析方法及系统 Download PDFInfo
- Publication number
- CN112765939A CN112765939A CN202110152861.1A CN202110152861A CN112765939A CN 112765939 A CN112765939 A CN 112765939A CN 202110152861 A CN202110152861 A CN 202110152861A CN 112765939 A CN112765939 A CN 112765939A
- Authority
- CN
- China
- Prior art keywords
- policy
- rule
- algorithm
- analyzing
- law
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000005065 mining Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于正则表达式匹配算法的政策法律法规解析方法及系统,属于政策法律法规解析技术领域,要解决的技术问题为如何基于正则表达式算法对政策法律法规进行解析。方法包括:对具有代表性的少量政策法律法规进行人工解析,得到初始规则算法库;获取历史政策法律法规文件作为训练样本,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,得到训练后匹配规则模型;通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析,得到解析后标准化内容。
Description
技术领域
本发明涉及政策法律法规解析技术领域,具体地说是基于正则表达式匹配算法的政策法律法规解析方法及系统。
背景技术
政策法律法规文件是政府及其相关部门发布的权威性的文件,涉及到对政府政策的解释、法律中某些条文或文字的解释或限定,格式具有一定的规范性和标准性。随着政府政策法律法规文件日益增多,政府面临服务能力的提升的要求,对信息检索能力的要求也越来越高,单纯通过人工整理,以及搜索引擎技术不能有效的对政策法律法规文件进行完整的、有层次的解析,无法满足各种复杂的需求。
正则表达式匹配算法是近年来比较成熟的技术,被越来越多的运用在数据的分析和挖掘中,能解决实际业务中的很多问题。正则表达式匹配算法就是通过不断的训练以及人工前期的补充规则,最终形成一定的匹配规则算法库。然后通过规则算法库对政策法律法规文件进行格式化解析。格式化解析主要包括文件的标题、文件的目录、文件的正文、附录等等。还包括文件的层级关系,比如编、章、节、条等。不仅能够大大提高检索的效率,还能通过正向或者反向查找前后的文件层级以及内容。
如何基于正则表达式算法对政策法律法规进行解析,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于正则表达式匹配算法的政策法律法规解析方法及系统,来解决如何基于正则表达式算法对政策法律法规进行解析的问题。
第一方面,本发明提供一种基于正则表达式匹配算法的政策法律法规解析方法,包括如下步骤:
对具有代表性的少量政策法律法规进行人工解析,得到初始规则算法库;
获取历史政策法律法规文件作为训练样本,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,得到训练后匹配规则模型;
通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析,得到解析后标准化内容。
作为优选,所述政策法律法规的解析内容包括基本信息和层次信息,所述基本信息包括发布日期、实施日期以及时效性;
所述层次信息包括编、章、节、条、正文内容以及附录。
作为优选,对具有代表性的少量政策法律法规进行人工解析,包括如下步骤:
提取文件目录层次的规则,提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”,提取“编”内容的规则为“第[一二三四五六七八九十百零千]{1,6}编\s.+?(?=第[一二三四五六七八九十百零千]{1,6}编)“。
作为优选,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,包括如下步骤:
通过发现标题的算法规则“(第[一二三四五六七八九十百零千]{1,6}.+)\s”,挖掘出政策法律法规文件不同层次使用的不同的词汇;
通过对正文的训练挖掘,得到基本信息。
作为优选,所述解析后标准化内容以json格式返回。
第二方面,本发明提供一种基于正则表达式匹配算法的政策法律法规解析系统,通过如第一方面任一项所述的基于正则表达式匹配算法的政策法律法规解析方法对政策法律法规进行解析,所述系统包括:
初始规则算法库创建模块,所述初始规则算法库创建模块用于对具有代表性的少量政策法律法规进行人工解析,得到初始规则算法库;
模型训练模块,所述模型训练模块用于获取历史政策法律法规文件作为训练样本,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,得到训练后匹配规则模型;
测试模块,所述测试模块用于通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析,得到解析后标准化内容。
作为优选,所述政策法律法规的解析内容包括基本信息和层次信息,所述基本信息包括发布日期、实施日期以及时效性;
所述层次信息包括编、章、节、条、正文内容以及附录。
作为优选,对具有代表性的少量政策法律法规进行人工解析,包括如下步骤:
提取文件目录层次的规则,提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”,提取“编”内容的规则为:第[一二三四五六七八九十百零千]{1,6}编\s.+?(?=第[一二三四五六七八九十百零千]{1,6}编)“。
作为优选,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,包括如下步骤:
通过发现标题的算法规则“(第[一二三四五六七八九十百零千]{1,6}.+)\s”,挖掘出政策法律法规文件不同层次使用的不同的词汇;
通过对正文的训练挖掘,得到基本信息。
作为优选,所述解析后标准化内容以json格式返回。
本发明的基于正则表达式匹配算法的政策法律法规解析方法及系统具有以下优点:通过对大量的历史政策法律法规文件进行训练,辅以少量人工的介入,得到智能解析的匹配算法模型。当有新的政策法律法律文件需要解析时,传入相应的算法模型,模型能够输出相应的格式化解析结果。通过这种智能方式来辅助对文件解析,可以减少人工经验依赖,提高解析的准确率和效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1基于正则表达式匹配算法的政策法律法规解析方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于正则表达式匹配算法的政策法律法规解析方法及系统,用于解决如何基于正则表达式算法对政策法律法规进行解析的技术问题。
实施例1:
本发明的一种基于正则表达式匹配算法的政策法律法规解析方法,包括如下步骤:
S100、人工辅助建立初始匹配算法库,即对具有代表性的少量政策法律法规进行人工解析,得到初始规则算法库;
S200、获取历史政策法律法规文件作为训练样本,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,得到训练后匹配规则模型;
S300、通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析,得到解析后标准化内容。
其中,步骤S100通过对有代表性的少量政策法律法规进行人工解析,整理出部分规则算法库。比如提取文件目录层次的规则,提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”,提取“编”内容的规则为“第[一二三四五六七八九十百零千]{1,6}编\s.+?(?=第[一二三四五六七八九十百零千]{1,6}编)”。
步骤S200通过之前整理出的规则算法库对大量的历史政策法律法规文件进行训练,不断挖掘补充新的匹配规则,最终形成较完整的匹配规则模型。比如通过发现标题的算法规则“(第[一二三四五六七八九十百零千]{1,6}.+)\s”,挖掘出政策法律法规文件不同层次使用的不同的词汇,除了有“编”,还有“章”、“节”、“条”等。通过对正文的训练挖掘,挖掘出“发布日期”、“实施日期”、“时效性”等政策法律法规基本信息。
步骤S300运用已经建立的匹配算法模型,对新的政策法律法规文件进行解析,获得解析后的标准化内容,比如解析出“标题”、“发布日期”、“实施日期”等基本信息,各编、章、节、条的小标题、以及内容,此外还有附录等内容。
以《中华人民共和国证券法》为例,通过正则表达式匹配算法,对其进行解析。截取部分解析结果。
解析结果:{'chapter_number':[['第一章']],'chapter_content':[['总则']],'item_number':[[[['第一条','第二条','第三条']]]],'item_content':[[[['为了规范证券发行和交易行为,保护投资者的合法权益,维护社会经济秩序和社会公共利益,促进社会主义市场经济的发展,制定本法。','在中华人民共和国境内,股票、公司债券和国务院依法认定的其他证券的发行和交易,适用本法;本法未规定的,适用《中华人民共和国公司法》和其他法律、行政法规的规定。政府债券、证券投资基金份额的上市交易,适用本法;其他法律、行政法规另有规定的,适用其规定。证券衍生品种发行、交易的管理办法,由国务院依照本法的原则规定。','证券的发行、交易活动,必须实行公开、公平、公正的原则。']]]]}。
结果中展示了对第一章前三条进行了格式化解析,分别解析了“章”、“条”的层级和内容,结果以json格式返回。
实施例2:
本发明的一种基于正则表达式匹配算法的政策法律法规解析系统,通过实施例1公开的基于正则表达式匹配算法的政策法律法规解析方法对政策法律法规进行解析,该系统包括初始规则算法库创建模块、模型训练模块以及测试模块,初始规则算法库创建模块用于对具有代表性的少量政策法律法规进行人工解析,得到初始规则算法库;模型训练模块用于获取历史政策法律法规文件作为训练样本,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,得到训练后匹配规则模型;测试模块用于通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析,得到解析后标准化内容。
其中,政策法律法规的解析内容包括基本信息和层次信息,所述基本信息包括发布日期、实施日期以及时效性;层次信息包括编、章、节、条、正文内容以及附录。
对具有代表性的少量政策法律法规进行人工解析,包括如下步骤:
提取文件目录层次的规则,提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”,提取“编”内容的规则为:第[一二三四五六七八九十百零千]{1,6}编\s.+?(?=第[一二三四五六七八九十百零千]{1,6}编)“。
基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,包括如下步骤:
通过发现标题的算法规则“(第[一二三四五六七八九十百零千]{1,6}.+)\s”,挖掘出政策法律法规文件不同层次使用的不同的词汇;
通过对正文的训练挖掘,得到基本信息。
解析后标准化内容以json格式返回。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.基于正则表达式匹配算法的政策法律法规解析方法,其特征在于包括如下步骤:
对具有代表性的少量政策法律法规进行人工解析,得到初始规则算法库;
获取历史政策法律法规文件作为训练样本,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,得到训练后匹配规则模型;
通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析,得到解析后标准化内容。
2.根据权利要求1所述的基于正则表达式匹配算法的政策法律法规解析方法,其特征在于所述政策法律法规的解析内容包括基本信息和层次信息,所述基本信息包括发布日期、实施日期以及时效性;
所述层次信息包括编、章、节、条、正文内容以及附录。
3.根据权利要求2所述的基于正则表达式匹配算法的政策法律法规解析方法,其特征在于对具有代表性的少量政策法律法规进行人工解析,包括如下步骤:
提取文件目录层次的规则,提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”,提取“编”内容的规则为“第[一二三四五六七八九十百零千]{1,6}编\s.+?(?=第[一二三四五六七八九十百零千]{1,6}编)“。
4.根据权利要求1所述的基于正则表达式匹配算法的政策法律法规解析方法,其特征在于基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,包括如下步骤:
通过发现标题的算法规则“(第[一二三四五六七八九十百零千]{1,6}.+)\s”,挖掘出政策法律法规文件不同层次使用的不同的词汇;
通过对正文的训练挖掘,得到基本信息。
5.根据权利要求1、2、3或4所述的基于正则表达式匹配算法的政策法律法规解析方法,其特征在于所述解析后标准化内容以json格式返回。
6.基于正则表达式匹配算法的政策法律法规解析系统,其特征在于通过如权利要求1-5任一项所述的基于正则表达式匹配算法的政策法律法规解析方法对政策法律法规进行解析,所述系统包括:
初始规则算法库创建模块,所述初始规则算法库创建模块用于对具有代表性的少量政策法律法规进行人工解析,得到初始规则算法库;
模型训练模块,所述模型训练模块用于获取历史政策法律法规文件作为训练样本,基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,得到训练后匹配规则模型;
测试模块,所述测试模块用于通过上述训练后匹配规则模型对待检测的政策法律法规文件进行解析,得到解析后标准化内容。
7.根据权利要求6所述的基于正则表达式匹配算法的政策法律法规解析系统,其特征在于所述政策法律法规的解析内容包括基本信息和层次信息,所述基本信息包括发布日期、实施日期以及时效性;
所述层次信息包括编、章、节、条、正文内容以及附录。
8.根据权利要求6所述的基于正则表达式匹配算法的政策法律法规解析系统,其特征在于对具有代表性的少量政策法律法规进行人工解析,包括如下步骤:
提取文件目录层次的规则,提取文件中“编”标题的规则为“(第[一二三四五六七八九十百零千]{1,6}编)\s”,提取“编”内容的规则为:第[一二三四五六七八九十百零千]{1,6}编\s.+?(?=第[一二三四五六七八九十百零千]{1,6}编)“。
9.根据权利要求6所述的基于正则表达式匹配算法的政策法律法规解析方法,其特征在于基于上述初始规则算法库对上述训练样本进行分析,挖掘新的匹配规则,包括如下步骤:
通过发现标题的算法规则“(第[一二三四五六七八九十百零千]{1,6}.+)\s”,挖掘出政策法律法规文件不同层次使用的不同的词汇;
通过对正文的训练挖掘,得到基本信息。
10.根据权利要求6、7、8或9所述的基于正则表达式匹配算法的政策法律法规解析方法,其特征在于所述解析后标准化内容以json格式返回。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110152861.1A CN112765939A (zh) | 2021-02-04 | 2021-02-04 | 基于正则表达式匹配算法的政策法律法规解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110152861.1A CN112765939A (zh) | 2021-02-04 | 2021-02-04 | 基于正则表达式匹配算法的政策法律法规解析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765939A true CN112765939A (zh) | 2021-05-07 |
Family
ID=75704886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110152861.1A Pending CN112765939A (zh) | 2021-02-04 | 2021-02-04 | 基于正则表达式匹配算法的政策法律法规解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765939A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374239A (zh) * | 2022-07-13 | 2022-11-22 | 北京中海住梦科技有限公司 | 法律法规解析方法、装置、计算机设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815256A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 建立法律法规条款项关联关系的方法及装置 |
CN111402092A (zh) * | 2020-06-08 | 2020-07-10 | 杭州识度科技有限公司 | 一种基于多层次语义解析的法律法规检索系统 |
CN111553150A (zh) * | 2020-04-02 | 2020-08-18 | 深圳壹账通智能科技有限公司 | 自动化api接口文档解析配置方法、系统、装置及存储介质 |
CN112036841A (zh) * | 2020-09-18 | 2020-12-04 | 重庆强大知识产权服务有限公司 | 基于智能语义识别的政策解析系统及方法 |
-
2021
- 2021-02-04 CN CN202110152861.1A patent/CN112765939A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815256A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 建立法律法规条款项关联关系的方法及装置 |
CN111553150A (zh) * | 2020-04-02 | 2020-08-18 | 深圳壹账通智能科技有限公司 | 自动化api接口文档解析配置方法、系统、装置及存储介质 |
CN111402092A (zh) * | 2020-06-08 | 2020-07-10 | 杭州识度科技有限公司 | 一种基于多层次语义解析的法律法规检索系统 |
CN112036841A (zh) * | 2020-09-18 | 2020-12-04 | 重庆强大知识产权服务有限公司 | 基于智能语义识别的政策解析系统及方法 |
Non-Patent Citations (1)
Title |
---|
赵兴涛等: "正则表达式在文档自动识别中的应用", 《中国人民公安大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374239A (zh) * | 2022-07-13 | 2022-11-22 | 北京中海住梦科技有限公司 | 法律法规解析方法、装置、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7849048B2 (en) | System and method of making unstructured data available to structured data analysis tools | |
EP1899800B1 (en) | Schema and etl tools for structured and unstructured data | |
CN101770470B (zh) | 一种文件类型识别分析方法及系统 | |
CA3060498C (en) | Method and system for integrating web-based systems with local document processing applications | |
CN111680029A (zh) | 基于数据标准系统落标的优化管理方法 | |
CN112926299B (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN112613285A (zh) | 一种基于分区域处理的招标文件审查分析方法 | |
Belloque et al. | 55 Years of abacus: evolution of research streams and future research directions | |
CN110688407B (zh) | 一种社会关系挖掘的方法 | |
CN112765939A (zh) | 基于正则表达式匹配算法的政策法律法规解析方法及系统 | |
Heichl et al. | Sustainable fingerprint–Using textual analysis to detect how listed EU firms report about ESG topics | |
Chieze et al. | An automatic system for summarization and information extraction of legal information | |
CN108073678A (zh) | 应用于大数据分析中的文档解析处理方法、系统及装置 | |
Terblanche et al. | Ontology‐based employer demand management | |
Coupette et al. | Simplify your law: using information theory to deduplicate legal documents | |
EP1286284A1 (en) | Spreadsheet data processing system | |
CN113342920B (zh) | 一种针对内容资源的编目自动化方法及系统 | |
Supriatna | Designing library information system using rapid application development method | |
CN116595192B (zh) | 科技前沿信息获取方法、装置、电子设备和可读存储介质 | |
CN112749186B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN117195004B (zh) | 一种融合行业分类和wvLDA主题模型的政策匹配方法 | |
US20240054280A1 (en) | Segmenting an Unstructured Set of Data | |
CN116663535A (zh) | 基于领域词典的空管事件报告风险要素识别方法及系统 | |
Van Craenenbroeck et al. | Parameters and Language Contact: Morphosyntactic Variation in Dutch Dialects | |
Michailidis | A Scientometric Study of the Stylometric Research Field. Informatics 2022, 9, 60 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |
|
RJ01 | Rejection of invention patent application after publication |