CN115545671A - 一种法律法规结构化处理的方法、系统 - Google Patents
一种法律法规结构化处理的方法、系统 Download PDFInfo
- Publication number
- CN115545671A CN115545671A CN202211359605.0A CN202211359605A CN115545671A CN 115545671 A CN115545671 A CN 115545671A CN 202211359605 A CN202211359605 A CN 202211359605A CN 115545671 A CN115545671 A CN 115545671A
- Authority
- CN
- China
- Prior art keywords
- legal
- regulation
- law
- regulations
- laws
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims description 25
- 230000009193 crawling Effects 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000013079 data visualisation Methods 0.000 claims description 8
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000007689 inspection Methods 0.000 description 5
- 235000014510 cooky Nutrition 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Technology Law (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种法律法规结构化处理的方法、系统,其中,一种法律法规结构化处理的方法包括:基于执法大数据获取法律法规文件,对法律法规文件进行预处理;对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。通过法律法规结构化处理促进了执法人员查询对应法律法规的效率,提高了依照事项进行执法的效率,有效提升了全流程网上办案、移动办案。
Description
技术领域
本发明涉及结构化处理技术领域,尤其涉及一种法律法规结构化处理的方法、系统。
背景技术
从法律领域的法律法规数据处理和法规检索上来看,纪检监察在处理案件时,定性量纪和定罪量刑难度大、标准不统一,办案效率低,需要挖掘利用历史大数据规律,构建纪检监察法律法规存储库可以为办案人员提供定性量纪、定罪参考多维度知识服务,打破信息壁垒,降低审理工作成本,提高工作效率和质量,实现智能化办案辅助。现在市面上急需一种对法律法规基本信息、文本内容进行结构化处理的方法和系统。
发明内容
本发明提供了一种法律法规结构化处理的方法、系统,以解决现有技术中存在的从法律领域的法律法规数据处理和法规检索上来看,纪检监察在处理案件时,定性量纪和定罪量刑难度大、标准不统一,办案效率低,需要挖掘利用历史大数据规律,构建纪检监察法律法规存储库可以为办案人员提供定性量纪、定罪参考多维度知识服务,打破信息壁垒,降低审理工作成本,提高工作效率和质量,实现智能化办案辅助。现在市面上急需一种对法律法规基本信息、文本内容进行结构化处理的方法和系统的上述问题。
为了达到上述目的,本发明提供如下技术方案:
一种法律法规结构化处理的方法,包括:
S101:基于执法大数据获取法律法规文件,对法律法规文件进行预处理;
S102:对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;
S103:将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。
其中,所述S101步骤包括:
S1011:通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;
S1012:将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;
S1013:去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。
其中,所述S102步骤包括:
S1021:通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;
S1022:将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;
S1023:编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。
其中,所述S103步骤包括:
S1031:将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;
S1032:当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。
其中,所述S1021步骤包括:
将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。
一种法律法规结构化处理的系统,包括:
法律法规文件获取单元用于基于执法大数据获取法律法规文件,对法律法规文件进行预处理;
数据结构化处理单元用于对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;
数据可视化单元用于将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。
其中,所述法律法规文件获取单元包括:
爬取采集子单元用于通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;
分词预处理第一子单元用于将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;
分词预处理第二子单元用于去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。
其中,所述数据结构化处理单元包括:
数据结构化处理第一子单元用于通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;
数据结构化处理第二子单元用于将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;
数据结构化处理第三子单元用于编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。
其中,所述数据可视化单元包括:
法律法规平台终端子单元用于将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;
法律法规推荐子单元用于当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。
其中,所述数据结构化处理第一子单元包括:
将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。
与现有技术相比,本发明具有以下优点:
一种法律法规结构化处理的方法,包括:基于执法大数据获取法律法规文件,对法律法规文件进行预处理;对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。通过法律法规结构化处理促进了执法人员查询对应法律法规的效率,提高了依照事项进行执法的效率,有效提升了全流程网上办案、移动办案。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种法律法规结构化处理的方法的流程图;
图2为本发明实施例中一种法律法规结构化处理的方法中的获取法律法规文件流程图;
图3为本发明实施例中一种法律法规结构化处理的方法中的结构化处理流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种法律法规结构化处理的方法、系统,请参考图1至图3,其中,一种法律法规结构化处理的方法,包括:
S101:基于执法大数据获取法律法规文件,对法律法规文件进行预处理;
S102:对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;
S103:将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。
上述技术方案的工作原理为:基于执法大数据获取法律法规文件,对法律法规文件进行预处理;对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。将法律法规属性、法律法规对应的文本数据和法律法规内容属性进行结构化处理,使用排名算法、权重重构和多模态数据融合等方法,构建一个图谱矩阵,达到增强数据集中法律法规之间语义关联度的目的。
上述技术方案的有益效果为:基于执法大数据获取法律法规文件,对法律法规文件进行预处理;对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。通过法律法规结构化处理促进了执法人员查询对应法律法规的效率,提高了依照事项进行执法的效率,有效提升了全流程网上办案、移动办案。
在另一实施例中,所述S101步骤包括:
S1011:通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;
S1012:将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;
S1013:去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。
上述技术方案的工作原理为:通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。
该方案中的爬虫技术是通过创建专门针对法律法规文件的聚焦型网络爬虫,针对法律法规文件的目标数据进行爬取,以Python语言和Scrapy框架创建Scrapy项目,在CMD窗口中,运行scrapy startproject命令创建爬虫项目框架,其中包括项目配置文件、Python模块、item文件、piplines管道文件、爬虫目录,通过建立Cookie池定时更换Cookie、伪装user-agent、设置爬取时间间隔来应对执法大数据网页的反爬。
将法律法规文件进行数据预处理过程中还将获取的原始数据做进一步的处理与分析,消除网页噪声、去除重复网页及利用网页文字分词技术进行网页内容和特征项的提取;在数据清洗环节,从数据的合法性、完整性、唯一性和正确性对采集的数据进行检验,并使用排序算法以及isnull和drop的技术对数据进行检验和清洗,清洗之后的法律法规文件数据信息完整准确。
上述技术方案的有益效果为:通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。从而在执法大数据中快速获取所需法律法规文件。
在另一实施例中,所述S102步骤包括:
S1021:通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;
S1022:将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;
S1023:编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。
上述技术方案的工作原理为:通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。其中,将存储分为一级存储、二级存储、三级存储,将结构化数据按关键词频率出现的高低分为最频繁数据、较频繁数据、非频繁数据,然后按照顺序分别存储于一级存储、二级存储、三级存储。
将拆解后的法律法规文件进行编码采用混合分类法的分类方法,在编码方法上将层次码与顺序码结合,使用数字编码的形式,使分类代码层次明晰、结构合理,满足各地方执法部门对使用大数据手段的统计与分析的需求。
分类代码的代码设计长度为20位,由5个层次结构组成,各层级针对不同的分类对象,在每一层代码中使用递增顺序码进行具体标识和参照,在部分层级中使用系列顺序码对编码对象确定类别并划定各类代码取值范围;在本分类代码中,第一层级有2位代码,表示违纪程度情节较轻类型;第二层级有2位代码,表示违纪程度情节较重;第三层级有4位,表示违纪程度情节严重;第四层级有7位,分为三级代码,表示违法情节;第五层级有5位,为法律法规文件信息扩展位。
上述技术方案的有益效果为:通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。
在另一实施例中,所述S103步骤包括:
S1031:将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;
S1032:当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。
上述技术方案的工作原理为:将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。
上述技术方案的有益效果为:将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。从而方便了用户的查询。
在另一实施例中,所述S1021步骤包括:
将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。
上述技术方案的工作原理为:将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。
对法律法规文件中的实体进行抽取,法律法规文件的名称对应唯一的数字标注,法律法规文件中的内容为相关法律法规的内容属性,通过数字将条与法律法规两种实体类型进行相关联处理,法律法规与其内容构成实体—属性—属性值的三元组形式数据。将法律法规文件按照三元组的形式进行存储,从而使庞大的数据构成了法律法规文件的实体,属性,关系等。通过对实体进行抽取使法律法规范围相对变窄且知识精度提高。
上述技术方案的有益效果为:将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。将法律法规文件按照三元组的形式进行存储,从而使庞大的数据构成了法律法规文件的实体,属性,关系等。
在另一实施例中,法律法规文件获取单元用于基于执法大数据获取法律法规文件,对法律法规文件进行预处理;
数据结构化处理单元用于对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;
数据可视化单元用于将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。
上述技术方案的工作原理为:法律法规文件获取单元用于基于执法大数据获取法律法规文件,对法律法规文件进行预处理;数据结构化处理单元用于对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;数据可视化单元用于将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。将法律法规属性、法律法规对应的文本数据和法律法规内容属性进行结构化处理,使用排名算法、权重重构和多模态数据融合等方法,构建一个图谱矩阵,达到增强数据集中法律法规之间语义关联度的目的。
上述技术方案的有益效果为:法律法规文件获取单元用于基于执法大数据获取法律法规文件,对法律法规文件进行预处理;数据结构化处理单元用于对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;数据可视化单元用于将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。将法律法规属性、法律法规对应的文本数据和法律法规内容属性进行结构化处理,使用排名算法、权重重构和多模态数据融合等方法,构建一个图谱矩阵,达到增强数据集中法律法规之间语义关联度的目的。
在另一实施例中,所述法律法规文件获取单元包括:
爬取采集子单元用于通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;
分词预处理第一子单元用于将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;
分词预处理第二子单元用于去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。
上述技术方案的工作原理为:爬取采集子单元用于通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;分词预处理第一子单元用于将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;分词预处理第二子单元用于去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。
该方案中的爬虫技术是通过创建专门针对法律法规文件的聚焦型网络爬虫,针对法律法规文件的目标数据进行爬取,以Python语言和Scrapy框架创建Scrapy项目,在CMD窗口中,运行scrapy startproject命令创建爬虫项目框架,其中包括项目配置文件、Python模块、item文件、piplines管道文件、爬虫目录,通过建立Cookie池定时更换Cookie、伪装user-agent、设置爬取时间间隔来应对执法大数据网页的反爬。
将法律法规文件进行数据预处理过程中还将获取的原始数据做进一步的处理与分析,消除网页噪声、去除重复网页及利用网页文字分词技术进行网页内容和特征项的提取;在数据清洗环节,从数据的合法性、完整性、唯一性和正确性对采集的数据进行检验,并使用排序算法以及isnull和drop的技术对数据进行检验和清洗,清洗之后的法律法规文件数据信息完整准确。
上述技术方案的有益效果为:爬取采集子单元用于通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;分词预处理第一子单元用于将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;分词预处理第二子单元用于去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。从而在执法大数据中快速获取所需法律法规文件。
在另一实施例中,所述数据结构化处理单元包括:
数据结构化处理第一子单元用于通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;
数据结构化处理第二子单元用于将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;
数据结构化处理第三子单元用于编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。
上述技术方案的工作原理为:数据结构化处理第一子单元用于通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;数据结构化处理第二子单元用于将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;数据结构化处理第三子单元用于编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。其中,将存储分为一级存储、二级存储、三级存储,将结构化数据按关键词频率出现的高低分为最频繁数据、较频繁数据、非频繁数据,然后按照顺序分别存储于一级存储、二级存储、三级存储。
将拆解后的法律法规文件进行编码采用混合分类法的分类方法,在编码方法上将层次码与顺序码结合,使用数字编码的形式,使分类代码层次明晰、结构合理,满足各地方执法部门对使用大数据手段的统计与分析的需求。
分类代码的代码设计长度为20位,由5个层次结构组成,各层级针对不同的分类对象,在每一层代码中使用递增顺序码进行具体标识和参照,在部分层级中使用系列顺序码对编码对象确定类别并划定各类代码取值范围;在本分类代码中,第一层级有2位代码,表示违纪程度情节较轻类型;第二层级有2位代码,表示违纪程度情节较重;第三层级有4位,表示违纪程度情节严重;第四层级有7位,分为三级代码,表示违法情节;第五层级有5位,为法律法规文件信息扩展位。
结构化数据中的关键词出现频率越高,该关键词的文档词频值就越高,从而该词法律法规的重要程度,文档词频值的公式为:
其中,H表示文档词频值;法律法规的N维特征的对象为X和Y,X=(x1,x2,x3,……,xn),Y=(y1,y2,y3,……,yn);n表示有n个X或Y;i表示第i个X或Y。
通过计算文档词频值的方式来度量法律法规数据库中所有语句相似的程度,从而更精准的对法律法规数据进行分级存储。
上述技术方案的有益效果为:数据结构化处理第一子单元用于通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;数据结构化处理第二子单元用于将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;数据结构化处理第三子单元用于编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。
在另一实施例中,所述数据可视化单元包括:
法律法规平台终端子单元用于将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;
法律法规推荐子单元用于当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。
上述技术方案的工作原理为:法律法规平台终端子单元用于将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;法律法规推荐子单元用于当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。从而方便了用户的查询。
上述技术方案的有益效果为:法律法规平台终端子单元用于将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;法律法规推荐子单元用于当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。从而方便了用户的查询。
在另一实施例中,所述数据结构化处理第一子单元包括:
将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。
上述技术方案的工作原理为:将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。
对法律法规文件中的实体进行抽取,法律法规文件的名称对应唯一的数字标注,法律法规文件中的内容为相关法律法规的内容属性,通过数字将条与法律法规两种实体类型进行相关联处理,法律法规与其内容构成实体—属性—属性值的三元组形式数据。将法律法规文件按照三元组的形式进行存储,从而使庞大的数据构成了法律法规文件的实体,属性,关系等。通过对实体进行抽取使法律法规范围相对变窄且知识精度提高。
上述技术方案的有益效果为:将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。将法律法规文件按照三元组的形式进行存储,从而使庞大的数据构成了法律法规文件的实体,属性,关系等。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种法律法规结构化处理的方法,其特征在于,包括:
S101:基于执法大数据获取法律法规文件,对法律法规文件进行预处理;
S102:对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;
S103:将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。
2.根据权利要求1所述的一种法律法规结构化处理的方法,其特征在于,所述S101步骤包括:
S1011:通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;
S1012:将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;
S1013:去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。
3.根据权利要求1所述的一种法律法规结构化处理的方法,其特征在于,所述S102步骤包括:
S1021:通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;
S1022:将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;
S1023:编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。
4.根据权利要求1所述的一种法律法规结构化处理的方法,其特征在于,所述S103步骤包括:
S1031:将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;
S1032:当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。
5.根据权利要求3所述的一种法律法规结构化处理的方法,其特征在于,所述S1021步骤包括:
将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。
6.一种法律法规结构化处理的系统,其特征在于,包括:
法律法规文件获取单元用于基于执法大数据获取法律法规文件,对法律法规文件进行预处理;
数据结构化处理单元用于对法律法规文件进行结构化处理,将法律法规基本信息、文本内容进行拆解并赋码,构建法律法规结构化模型;
数据可视化单元用于将法律法规结构化模型进行可视化,工作人员通过终端查看对应的法律法规条款。
7.根据权利要求6所述的一种法律法规结构化处理的系统,其特征在于,所述法律法规文件获取单元包括:
爬取采集子单元用于通过爬虫技术从执法大数据中的纪检委网站爬取行政执法部门的法律法规文件;
分词预处理第一子单元用于将法律法规文件进行分词预处理,去除法律法规文件的无效内容,将法律法规文件的有效内容按照一定的规律分割为字符串匹配的法律法规文件;
分词预处理第二子单元用于去除字符串匹配的法律法规文件中重复出现的分词,将保留的法律法规文件分词组成数据集。
8.根据权利要求6所述的一种法律法规结构化处理的系统,其特征在于,所述数据结构化处理单元包括:
数据结构化处理第一子单元用于通过算法将法律法规文件内容按照编、章、节、条、款、项、目的形式进行拆解;
数据结构化处理第二子单元用于将拆解后的法律法规文件按照版本号、效力级别、时效性、法律法规文件条款内容进行编码操作;
数据结构化处理第三子单元用于编码后的法律法规文件经过处理形成结构化数据,将结构化数据按照关键词出现频率进行分级存储。
9.根据权利要求6所述的一种法律法规结构化处理的系统,其特征在于,所述数据可视化单元包括:
法律法规平台终端子单元用于将法律法规结构化模型以图网络或列表的形式展示于法律法规平台终端,工作人员通过法律法规平台终端查看对应的法律法规条款;
法律法规推荐子单元用于当工作人员通过在法律法规平台终端输入关键词查看对应的法律法规条款时,相关法律法规推荐模块将相似的法律法规信息推送至法律法规平台终端。
10.根据权利要求8所述的一种法律法规结构化处理的系统,其特征在于,所述数据结构化处理第一子单元包括:
将拆解后的法律法规文件按编、章、节、条、款、项、违纪行为、违纪程度、违纪处罚、法律法规作为实体,设定对应的关系类别,关系类别包括属于、给予、相关,将每相邻的两个实体与对应的关系类别进行组合,构成实体—关系—实体的三元组形式数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211359605.0A CN115545671B (zh) | 2022-11-02 | 2022-11-02 | 一种法律法规结构化处理的方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211359605.0A CN115545671B (zh) | 2022-11-02 | 2022-11-02 | 一种法律法规结构化处理的方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545671A true CN115545671A (zh) | 2022-12-30 |
CN115545671B CN115545671B (zh) | 2023-10-03 |
Family
ID=84720299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211359605.0A Active CN115545671B (zh) | 2022-11-02 | 2022-11-02 | 一种法律法规结构化处理的方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545671B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116029262A (zh) * | 2023-02-17 | 2023-04-28 | 广东远景信息科技有限公司 | 法律法规编码生成的方法、数据库构建的方法及装置 |
CN116069922A (zh) * | 2023-04-06 | 2023-05-05 | 广东远景信息科技有限公司 | 基于检索信息进行法律法规筛选的方法及系统 |
CN116468021A (zh) * | 2023-03-07 | 2023-07-21 | 天津市滨海新区司法局 | 一种基于编码化的执法依据数据处理和使用方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818138A (zh) * | 2017-09-28 | 2018-03-20 | 银江股份有限公司 | 一种案件法律条例推荐方法及系统 |
CN109344187A (zh) * | 2018-08-28 | 2019-02-15 | 合肥工业大学 | 一种司法判决书案情信息结构化处理系统 |
CN110489748A (zh) * | 2019-08-05 | 2019-11-22 | 北京市律典通科技有限公司 | 法律要素推导方法、装置、电子设备及计算机可存储介质 |
CN111859863A (zh) * | 2020-06-03 | 2020-10-30 | 远光软件股份有限公司 | 一种文档的结构转换方法、装置、存储介质及电子设备 |
US20210201182A1 (en) * | 2020-09-29 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for performing structured extraction on text, device and storage medium |
CN114372153A (zh) * | 2022-01-05 | 2022-04-19 | 重庆大学 | 基于知识图谱的法律文书结构化入库方法及系统 |
CN114492446A (zh) * | 2022-02-16 | 2022-05-13 | 平安科技(深圳)有限公司 | 法律文书处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-11-02 CN CN202211359605.0A patent/CN115545671B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818138A (zh) * | 2017-09-28 | 2018-03-20 | 银江股份有限公司 | 一种案件法律条例推荐方法及系统 |
CN109344187A (zh) * | 2018-08-28 | 2019-02-15 | 合肥工业大学 | 一种司法判决书案情信息结构化处理系统 |
CN110489748A (zh) * | 2019-08-05 | 2019-11-22 | 北京市律典通科技有限公司 | 法律要素推导方法、装置、电子设备及计算机可存储介质 |
CN111859863A (zh) * | 2020-06-03 | 2020-10-30 | 远光软件股份有限公司 | 一种文档的结构转换方法、装置、存储介质及电子设备 |
US20210201182A1 (en) * | 2020-09-29 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for performing structured extraction on text, device and storage medium |
CN114372153A (zh) * | 2022-01-05 | 2022-04-19 | 重庆大学 | 基于知识图谱的法律文书结构化入库方法及系统 |
CN114492446A (zh) * | 2022-02-16 | 2022-05-13 | 平安科技(深圳)有限公司 | 法律文书处理方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116029262A (zh) * | 2023-02-17 | 2023-04-28 | 广东远景信息科技有限公司 | 法律法规编码生成的方法、数据库构建的方法及装置 |
CN116468021A (zh) * | 2023-03-07 | 2023-07-21 | 天津市滨海新区司法局 | 一种基于编码化的执法依据数据处理和使用方法及系统 |
CN116069922A (zh) * | 2023-04-06 | 2023-05-05 | 广东远景信息科技有限公司 | 基于检索信息进行法律法规筛选的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115545671B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN108089843B (zh) | 一种智能化的银行企业级需求管理系统 | |
CN108829681B (zh) | 一种命名实体提取方法及装置 | |
CN115545671A (zh) | 一种法律法规结构化处理的方法、系统 | |
US7389306B2 (en) | System and method for processing semi-structured business data using selected template designs | |
US20040167870A1 (en) | Systems and methods for providing a mixed data integration service | |
CN102360367A (zh) | 一种xbrl数据搜索方法及搜索引擎 | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
CN111859070A (zh) | 一种海量互联网新闻清洗系统 | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
CN116384889A (zh) | 基于自然语言处理技术的情报大数据智能分析方法 | |
Ko et al. | Natural language processing–driven model to extract contract change reasons and altered work items for advanced retrieval of change orders | |
CN114860882A (zh) | 一种基于文本分类模型的公平竞争审查辅助方法 | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN112463985A (zh) | 政务图谱模型构建方法、装置、设备及计算机可读介质 | |
CN112364603A (zh) | 指标编码生成方法、装置、设备及存储介质 | |
CN110555212A (zh) | 基于自然语言处理的文档校验方法、装置和电子设备 | |
Coupette et al. | Simplify your law: using information theory to deduplicate legal documents | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN114879945A (zh) | 面向长尾分布特征的多样化api序列推荐方法及装置 | |
Moore | Accessing individual records from personal data files using non-unique identifiers | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 | |
CN111045716B (zh) | 一种基于异构数据的相关补丁推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |