CN113420126A - 基于法规文本的法律规则图谱构建方法及系统 - Google Patents
基于法规文本的法律规则图谱构建方法及系统 Download PDFInfo
- Publication number
- CN113420126A CN113420126A CN202110744524.1A CN202110744524A CN113420126A CN 113420126 A CN113420126 A CN 113420126A CN 202110744524 A CN202110744524 A CN 202110744524A CN 113420126 A CN113420126 A CN 113420126A
- Authority
- CN
- China
- Prior art keywords
- legal
- rule
- text
- law
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 230000006399 behavior Effects 0.000 claims description 30
- 238000013135 deep learning Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 238000002156 mixing Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000000692 anti-sense effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 239000002699 waste material Substances 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 2
- 235000012020 french fries Nutrition 0.000 claims description 2
- 238000012937 correction Methods 0.000 abstract description 2
- 238000013441 quality evaluation Methods 0.000 abstract description 2
- 239000012634 fragment Substances 0.000 description 7
- 238000001914 filtration Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000009411 base construction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种以法规文本为知识来源的规则图谱构建方法,主要针对法律、行政法规、司法解释、部委规章、地方性法规,根据法律法规的业务内容特征、立法技术、书写规范、法律法规半结构化特征、法律规则的构成特征、类型特征,设计了一种法律规则图谱的信息模型,提出了一种构建法律术语的方法、一种识别概念、原则、规则的分类方法和一种识别规则类型的方法,最终实现法律规则图谱的构建,输出XML结构化文档,使得计算机系统能够有效利用法律法规中存在的法律规则来开展立法、执法和司法应用,并在裁判文书纠错、裁判文书质量评查、案件质量监督、司法办案法条推送等领域中发挥作用。
Description
技术领域
本发明涉及法律知识工程技术领域,特别是涉及一种基于法规文本的法律规则图谱构建方法及系统。
背景技术
法律规则是采取一定的结构形式具体规定人们的法律权利、法律义务以及相应的法律后果的行为规范。法律规则一般在法律法规文本中以自然语言的方式来表示。这种知识表示方式对于计算机系统来说不具有良好的可读性,需要将法规文本中存在的法律规则以规则图谱的方式来重新表示。因此,从法规文本中抽取法律规则图谱的技术,是实现计算机系统执行法律法规在信息化场景下的关键技术。最接近的同类技术及其不足之处,分述如下:
1.一种基于机器学习的法律知识图谱构建方法、装置、系统和介质与流程(申请号/专利号:CN201710339258.8):核心的方法包括(1)利用自然语言理解模块抽取得到的文本特征;(2)特征机器学习模块学习得到的法律知识特征;(3)知识工程模块识别得到的法律概念;(4)对原始法律数据识别出法律知识点;(5)通过法律概念框架自动关联法律知识点以构建法律知识图谱。
2.一种基于信息抽取的法律知识图谱构建方法(申请号/专利号:CN201910980158.2):核心方法包括(1)从网络中爬取大量法律文书和法律实体;(2)从百度百科中抽取和法律相关的法律实体;(3)融合爬取得到的法律实体和百度百度中抽取得到的法律实体,并将法律实体链接至法律文书,构建法律实体与法律文书之间的网络;(4)利用实体描述和实体名称构建实体网络,基于实体结构信息构建实体相似度网络;(5)抽取法律文书中的三元组,结合法律知识网络构建法律知识图谱。
3.一种法律知识图谱自动构建方法(申请号/专利号:CN201710270508.7):(1)获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词;(2)根据分词后的语料,分别抽取三类审判文书的主题词,对抽取的主题词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语主题词作为法律知识图谱的实体概念;(3)获取与抽取的每一名词或名词短语主题词关系相近的词,对获取的相近词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念;(4)同属于主题词的实体概念之间形成主题关系,每一主题词实体概念与其相近词实体概念构成相近关系,根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱。
上述三个专利,相对于法律规则图谱的构建来说,不足之处在于:(1)泛化的法律知识图谱,强调了知识的关联体系,缺少对法律领域知识最核心的“规则”的知识表示形态;(2)都是一个通用方法,对简单的法律知识图谱的构建是适用的,基于文本上下文短距离的语义关联来形成图谱,而对于复杂知识图谱的构建则没有进一步的进行方法上的设计;(3)针对局部文本语义的图谱构建,不能支持多个图谱之间的推理来构建新的图谱,因为难以实现多个法律规则之间的关系进行二次图谱的构建;(4)针对具体每一类知识图谱并没有提供提取率、提准率的控制机制;(5)特征机器学习模块利用随机森林、支持向量机等算法训练学习法律知识特征,并没有很好的利用法律知识特征的行业特点,其训练效果难以达到高精度的指标。
发明内容
本发明要解决的技术问题是提供一种基于法规文本的法律规则图谱构建方法及系统,能够利用法律知识特征的行业特点,使其训练效果达到高精度的指标。
为解决上述技术问题,本发明提供了一种基于法规文本的法律规则图谱构建方法,所述方法包括:根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型,并以此分片模型为基础,结合法规文本的立法技术特征、语义特征,基于规则的NLP算法,实现对法规文本的切片并存储;根据法律法规的法律原理、立法技术规范和法律规则应用目标,以整个法规文本为对象,设计法规属性模型,利用文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对法规属性的提取并存储;基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类;根据法律规则的业务特征,设计法律规则结构模型;在自有法律术语库基础上,针对法规文本语料,采用专家词库、基于规则的自举法和卷积神经网络混合的模式,构建法律术语库;利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储;针对法规语料,根据法律规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别法律术语之间的关系,并根据法律规则结构模型,生成法规语料中存在的法律规则,并记录法律规则与语料的链接关系;利用构建的法律术语概念图谱,结合当前法规文本或其他法规文本中的上下文语义指代,开展单一法律规则之间的规则推理,生成新的法律规则;按照抽取的法律规则的类型,在对应的法律规则结构模型中进行存储。
在一些实施方式中,根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型,并以此分片模型为基础,结合法规文本的立法技术特征、语义特征,基于规则的NLP算法,实现对法规文本的切片并存储,包括:总结法规文本书写规范和文本结构,将文本各段落按照逻辑关系划分出多层级的文本片,对法规文本的一级文本片进行分析;基于法规文本的切片业务特征、立法技术规范和语义特征,采用基于规则的NLP算法模型,实现对法规文本的多层级切片,在切片基础上,结合法规不同切片层级的立法技术规范和语义特征,采用基于规则和深度学习混合的算法模型,提取每个层级切片的基本属性和文本内容;设计文书切片模型用以存储法规文本各层级切片。
在一些实施方式中,根据法律法规的法律原理、立法技术规范和法律规则应用目标,以整个法规文本为对象,设计法规属性模型,利用文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对法规属性的提取并存储,包括:总结法律法规关于法的渊源、法的效力、法的分类等基本法律原理,结合立法技术规范关于法律立改废的技术要求,以及本专利涉及到法律规则在法律适用层面的应用目标,对法规作为整体的属性维度进行建模;设计法规文本的属性模型用以存储法规文本各各属性;基于法规各种属性的业务内涵、属性所在位置特征、属性语义特征,采用基于规则的NLP算法模型,实现对法规文本基于切片结果自身包含有属性信息的部分属性进行自动提取;针对基于法规文本之间的属性关联才能形成提取和赋值的法规属性,采用构建法规属性库并基于属性库利用推理规则的方法,实现对这部分法规属性的自动生成。
在一些实施方式中,基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类,包括:设计分类体系,对于法条的分类,属于文本多分类问题的解决范畴;标注一批分类学习样本,获取一批法条分段,进行分类标注,分成训练、验证、测试三份样本集;采用TextBiLSTM+Attention神经网络,结合预训练语言模型AlBert的微调,训练法条分类算法模型;应用法条分类模型,对条文进行分类,并将条文分类存储于法条的“技术分类”属性中。
在一些实施方式中,对于法条的分类至少包括:法律概念条文、法律原则条文、法律规则条文、立法目的条文,并将条文分类存储于法条的“技术分类”属性中。
在一些实施方式中,根据法律规则的业务特征,设计法律规则结构模型,包括:设计标准法律规则的结构模型,包括行为条件、行为模式、法律后果三组要素组成,每组要素组分成单因素和多因素两种类,在结构模型上支持两种类型的存储,并且设计多因素情况下因素之间的逻辑类型;设计非标准法律规则的结构模型,某一个行为条件、行为模式也可以作为上述结构模型中的法律后果要素,其他行为条件和行为模式作为法律规则结构模型中的两组要素与这一某一个行为条件、行为模式构成一个完整的法律规则;设计法律规则的强制力属性,包括命令性、禁止性、指引性三类;设计法律规则的规范内容属性,包括授权性、义务性、权义复合性三类。
在一些实施方式中,在自有法律术语库基础上,针对法规文本语料,采用专家词库、基于规则的自举法和卷积神经网络混合的模式,构建法律术语库,包括:准备法规文本语料,法规文本语料以xml格式提供;候选法律术语生成;统计特征计算,分别计算语料的TF-IDF、NC-Value、PMI、左(右)邻字熵等值,作为统计特征;分类器学习,根据正负样本,学习一个二元分类器,分类器模型可以用决策树、随机森林或者支持向量机的一种;执行统计特征计算结果;采用卷积神经网络,利用之前形成的标准库,进行训练,形成新的法律术语抽取成果。
在一些实施方式中,利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储,包括:设计法律术语概念图谱中的关系类型体系,包括同义词关系、缩略词关系、上位词关系、下位词关系、指代关系、反义关系;基于模式匹配,自举法进行抽取;专家工程审核,形成标准数据;深度学习方法,算法训练;基于法律术语库形成法律术语概念图谱。
在一些实施方式中,针对法规语料,根据法律规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别法律术语之间的关系,并根据法律规则结构模型,生成法规语料中存在的法律规则,并记录法律规则与语料的链接关系,包括:针对单条包含有完整法律规则结构要素情形的法律规则条文法规语料,进行法律术语的标记,并结合当前标记的法律术语及其上下文,识别法律术语之间的关系以及法律术语在法律规则结构模型中的归属,并基于此实现法律规则结构类型识别;针对单条没有包含有完整法律规则结构要素的法律规则条文法规语料,先初步进行法律术语的标记,并结合法律术语概念图谱、其他法规文本中的关联法律规则语料,识别当前条文的法律术语加上其他法规文本中关联法律术语之间的关系以及法律术语在法律规则结构模型中的归属,并基于此实现法律规则结构类型识别。
此外,本发明还提供了一种基于法规文本的法律规则图谱构建系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据前文所述的基于法规文本的规律规则图谱构建方法。
采用这样的设计后,本发明至少具有以下优点:
使得计算机系统能够有效利用法律法规中存在的法律规则来开展立法、执法和司法应用,并在裁判文书纠错、裁判文书质量评查、案件质量监督、司法办案法条推送等领域中发挥作用。
附图说明
上述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,以下结合附图与具体实施方式对本发明作进一步的详细说明。
图1是总流程图;
图2是法律术语库构建流程图;
图3是候选法律术语生成的流程图;
图4是形成法律属于概念图谱的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明包括以下步骤:
步骤(1)根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型,并以此分片模型为基础,结合法规文本的立法技术特征、语义特征,基于规则的NLP算法,实现对法规文本的切片并存储;
步骤(2)根据法律法规的法律原理、立法技术规范和法律规则应用目标,以整个法规文本为对象,设计法规属性模型;利用步骤(1)中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对法规属性的提取并存储;
步骤(3)基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类,分类至少包括“法律概念条文”、“法律原则条文”、“法律规则条文”、“立法目的条文”,并将条文分类存储于法条的“技术分类”属性中;
步骤(4)根据法律规则的业务特征,设计法律规则结构模型;
步骤(5)在自有法律术语库基础上,针对法规文本语料,采用专家词库、基于规则的自举法和卷积神经网络混合的模式,构建法律术语库;
步骤(6)利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储;
步骤(7)针对识别为“法律规则条文”的法规语料,根据法律规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别“法律规则条文”中的法律术语之间的关系,并根据法律规则结构模型,生成法规语料中存在的法律规则,并记录法律规则与语料的链接关系;
步骤(8)利用步骤(6)构建的法律术语概念图谱,结合当前法规文本或其他法规文本中的上下文语义指代,开展单一法律规则之间的规则推理,生成新的法律规则;
步骤(9)按照抽取的法律规则的类型,在对应的法律规则结构模型中进行存储。具体如图1所示。
步骤(1)根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型;
法规文内通常是用WORD或WPS软件书写,且文本分段清晰,书写规范,具有明显的条款结构。按法规文本的立法技术规范并总结其书写规律,本专利采用一种由粗到细结构化法规文本的方法,依据立法机关对法规文本书写规范的要求,将文本切分出多个文本片,并设计出文书切片模型,用以存储各个逻辑段落。具体步骤如下:
步骤(1.1)总结法规文本书写规范和文本结构,将文本各段落按照逻辑关系划分出多层级的文本片,对法规文本的一级文本片进行分析,包括“法规首部”、“法规正文”、“法规尾部”,“法规首部”包括二级文本分片“发布命令”、“发布文号”、“发布内容”、“发布机关和人员”、“发布日期”等;“法规正文”包括多子级文本分片,二级分片包括“法规标题”、“目录”、“条文内容”,“条文内容”的子级分片以“篇|则”、“章”、“节”、“条”、“款”、“项”、“目”来层层递进。每一层级的分片,都包括分片属性和分片内容,同一层级分片之间定义上下文顺序。
步骤(1.2)基于法规文本的切片业务特征、立法技术规范和语义特征,采用基于规则的NLP算法模型,实现对法规文本的多层级切片,在切片基础上,结合法规不同切片层级的立法技术规范和语义特征,采用基于规则和深度学习混合的算法模型,提取每个层级切片的基本属性和文本内容。
步骤(1.3)设计文书切片模型用以存储法规文本各层级切片。根据每个层级切片所包含的细切片以及每个切片的基本属性和文本内容,每个层级切片以对应基本属性给文本片命名,例如“法规正文”、“条文内容”、“条”,并保存每个层级切片中的基本属性和文本内容,基本属性以有限范围表述形态的短字符串存储,文本内容以长字符串存储,整个切片模型采用树状结构存储。
步骤(2.1)总结法律法规关于法的渊源、法的效力、法的分类等基本法律原理,结合立法技术规范关于法律立改废的技术要求,以及本专利涉及到法律规则在法律适用层面的应用目标,对法规作为整体的属性维度进行建模,模型属性至少包括“法规名称”、“法规文号”、“颁布机构”、“法规层级”、“法规类型”、“法规效力”、“颁布时间”、“生效时间”、“失效时间”、“法规简称”、“前序版本名称”、“前序版本颁布时间”、“前序版本生效时间”。
步骤(2.2)设计法规文本的属性模型用以存储法规文本各各属性。整个属性模型采用树状结构存储,部分属性具备唯一属性值,部分属性具有多值;部分属性形成子节点属性。每项属性采用属性名称来命名。
步骤(2.3)基于法规各种属性的业务内涵、属性所在位置特征、属性语义特征,采用基于规则的NLP算法模型,实现对法规文本基于切片结果自身包含有属性信息的部分属性进行自动提取。
步骤(2.4)针对基于法规文本之间的属性关联才能形成提取和赋值的法规属性,采用构建法规属性库并基于属性库利用推理规则的方法,实现对这部分法规属性的自动生成。
步骤(3)基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类。具体步骤如下:
步骤(3.1)设计分类体系,对于法条的分类,属于文本多分类问题的解决范畴,在设计的分类中至少包括“法律概念条文”、“法律原则条文”、“法律规则条文”、“立法目的条文”等类型;
步骤(3.2)标注一批分类学习样本,从步骤(1)及步骤(2)中获取一批法条分段,进行分类标注,分成训练、验证、测试三份样本集;
步骤(3.3)采用TextBiLSTM+Attention神经网络,结合预训练语言模型AlBert的微调,训练法条分类算法模型;
步骤(3.4)应用步骤(3.3)的法条分类模型,对条文进行分类,并将条文分类存储于法条的“技术分类”属性中。
步骤(4)结合法律规则的法律规则的构成要素、法律规则的强制力属性、规范内容,设计法律规则的结构模型。具体步骤如下:
步骤(4.1)设计标准法律规则的结构模型,包括行为条件、行为模式、法律后果三组要素组成,每组要素组分成单因素和多因素两种类,在结构模型上支持两种类型的存储,并且设计多因素情况下因素之间的逻辑类型;行为条件、行为模式、法律后果的要素包括定性要素和定量要素两种类型,定量要素支持定量值和定量值区间两种模式;法律规则的结构模型中的三组要素,行为条件、行为模式可以缺省其一;
步骤(4.2)设计非标准法律规则的结构模型,某一个行为条件、行为模式也可以作为上述结构模型中的法律后果要素,其他行为条件和行为模式作为法律规则结构模型中的两组要素与这一某一个行为条件、行为模式构成一个完整的法律规则;
步骤(4.3)设计法律规则的强制力属性,包括命令性、禁止性、指引性三类;
步骤(4.4)设计法律规则的规范内容属性,包括授权性、义务性、权义复合性三类;
步骤(5)在自有法律术语库基础上,针对法规文本语料,采用专家词库、基于规则的NLP和卷积神经网络混合的模式,构建法律术语库,方法如图2。
具体步骤如下:
步骤(5.1)准备法规文本语料。
法规文本语料经过本专利步骤(1)、(2)、(3)的处理,以xml规格提供;
步骤(5.2)候选法律术语生成,如图3所示。
步骤(5.3)统计特征计算,分别计算语料的TF-IDF、NC-Value、PMI、左(右)邻字熵等值,作为统计特征;
步骤(5.4)分类器学习,根据正负样本,学习一个二元分类器,分类器模型可以用决策树、随机森林或者支持向量机的一种。
步骤(5.5)质量评分,执行统计特征计算结果;
步骤(5.6)采用卷积神经网络,利用之前形成的标准库,进行训练,形成新的法律术语抽取成果。
步骤(6)构建法律术语概念图谱。在步骤(5)的基础上,运用基于模式匹配和深度学习混合应用的方法,对关系进行分类,以三元组的方式存储,形成法律术语概念图谱,方法如图4所示。
步骤(6.1)设计法律术语概念图谱中的关系类型体系,包括同义词关系、缩略词关系、上位词关系、下位词关系、指代关系、反义关系。
步骤(6.2)基于模式匹配,自举法进行抽取。
步骤(6.3)专家工程审核,形成标准数据。
步骤(6.4)深度学习方法,算法训练。
步骤(6.5)基于法律术语库形成法律术语概念图谱。
步骤(7)针对识别为“法律规则条文”的法规语料中存在的法律规则的不同形态,有“法律规则条文”自身包含完整法律规则,有“法律概念条文”、“法律规则条文”联合在一起包含完整的法律规则情形,也有不同法规文本之间的“法律概念条文”、“法律规则条文”联合在一起包含完整的法律规则情形,需要根据文本特征和法律规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别“法律规则条文”中的法律术语之间的关系,并根据法律规则结构模型,生成法规语料中存在的法律规则,并记录法律规则与语料的链接关系,具体包括:
步骤(7.1)针对单条包含有完整法律规则结构要素情形的“法律规则条文”法规语料,进行法律术语的标记,并结合当前标记的法律术语及其上下文,识别法律术语之间的关系以及法律术语在法律规则结构模型中的归属,并基于此实现法律规则结构类型识别。通过法律术语库的词的类型,或者基于模式识别的规则匹配模式,实现类型识别,输出结果为标准法律规则还是非标准法律规则,以及行为条件、行为模式的单、多因素特征,法律后果的定量和定性特征,结合识别的法律术语间的关系,生成法律规则;
步骤(7.2)针对单条没有包含有完整法律规则结构要素的“法律规则条文”法规语料,先初步进行法律术语的标记,并结合法律术语概念图谱、其他法规文本中的关联法律规则语料,识别当前条文的法律术语加上其他法规文本中关联法律术语之间的关系以及法律术语在法律规则结构模型中的归属,并基于此实现法律规则结构类型识别。通过法律术语库的词的类型,或者基于模式识别的规则匹配模式,实现类型识别,输出结果为标准法律规则还是非标准法律规则,以及行为条件、行为模式的单、多因素特征,法律后果的定量和定性特征,结合识别的法律术语间的关系,生成法律规则。
步骤(8)利用步骤(6)构建的法律术语概念图谱,结合当前法规文本或其他法规文本中的上下文语义指代,开展单一法律规则之间的规则推理,生成新的法律规则;
步骤(9)按照抽取的法律规则的类型,在对应的法律规则结构模型中进行存储。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰,均落在本发明的保护范围内。
Claims (10)
1.一种基于法规文本的法律规则图谱构建方法,其特征在于,包括:
根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型,并以此分片模型为基础,结合法规文本的立法技术特征、语义特征,基于规则的NLP算法,实现对法规文本的切片并存储;
根据法律法规的法律原理、立法技术规范和法律规则应用目标,以整个法规文本为对象,设计法规属性模型,利用文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对法规属性的提取并存储;
基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类;
根据法律规则的业务特征,设计法律规则结构模型;
在自有法律术语库基础上,针对法规文本语料,采用专家词库、基于规则的自举法和卷积神经网络混合的模式,构建法律术语库;
利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储;
针对法规语料,根据法律规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别法律术语之间的关系,并根据法律规则结构模型,生成法规语料中存在的法律规则,并记录法律规则与语料的链接关系;
利用构建的法律术语概念图谱,结合当前法规文本或其他法规文本中的上下文语义指代,开展单一法律规则之间的规则推理,生成新的法律规则;
按照抽取的法律规则的类型,在对应的法律规则结构模型中进行存储。
2.根据权利要求1所述的基于法规文本的法律规则图谱构建方法,其特征在于,根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型,并以此分片模型为基础,结合法规文本的立法技术特征、语义特征,基于规则的NLP算法,实现对法规文本的切片并存储,包括:
总结法规文本书写规范和文本结构,将文本各段落按照逻辑关系划分出多层级的文本片,对法规文本的一级文本片进行分析;
基于法规文本的切片业务特征、立法技术规范和语义特征,采用基于规则的NLP算法模型,实现对法规文本的多层级切片,在切片基础上,结合法规不同切片层级的立法技术规范和语义特征,采用基于规则和深度学习混合的算法模型,提取每个层级切片的基本属性和文本内容;
设计文书切片模型用以存储法规文本各层级切片。
3.根据权利要求1所述的基于法规文本的法律规则图谱构建方法,其特征在于,根据法律法规的法律原理、立法技术规范和法律规则应用目标,以整个法规文本为对象,设计法规属性模型,利用文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对法规属性的提取并存储,包括:
总结法律法规关于法的渊源、法的效力、法的分类等基本法律原理,结合立法技术规范关于法律立改废的技术要求,以及本专利涉及到法律规则在法律适用层面的应用目标,对法规作为整体的属性维度进行建模;
设计法规文本的属性模型用以存储法规文本各各属性;
基于法规各种属性的业务内涵、属性所在位置特征、属性语义特征,采用基于规则的NLP算法模型,实现对法规文本基于切片结果自身包含有属性信息的部分属性进行自动提取;
针对基于法规文本之间的属性关联才能形成提取和赋值的法规属性,采用构建法规属性库并基于属性库利用推理规则的方法,实现对这部分法规属性的自动生成。
4.根据权利要求1所述的基于法规文本的法律规则图谱构建方法,其特征在于,基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类,包括:
设计分类体系,对于法条的分类,属于文本多分类问题的解决范畴;
标注一批分类学习样本,获取一批法条分段,进行分类标注,分成训练、验证、测试三份样本集;
采用TextBiLSTM+Attention神经网络,结合预训练语言模型AlBert的微调,训练法条分类算法模型;
应用法条分类模型,对条文进行分类,并将条文分类存储于法条的“技术分类”属性中。
5.根据权利要求4所述的基于法规文本的法律规则图谱构建方法,其特征在于,对于法条的分类至少包括:法律概念条文、法律原则条文、法律规则条文、立法目的条文,并将条文分类存储于法条的“技术分类”属性中。
6.根据权利要求1所述的基于法规文本的法律规则图谱构建方法,其特征在于,根据法律规则的业务特征,设计法律规则结构模型,包括:
设计标准法律规则的结构模型,包括行为条件、行为模式、法律后果三组要素组成,每组要素组分成单因素和多因素两种类,在结构模型上支持两种类型的存储,并且设计多因素情况下因素之间的逻辑类型;
设计非标准法律规则的结构模型,某一个行为条件、行为模式也可以作为上述结构模型中的法律后果要素,其他行为条件和行为模式作为法律规则结构模型中的两组要素与这一某一个行为条件、行为模式构成一个完整的法律规则;
设计法律规则的强制力属性,包括命令性、禁止性、指引性三类;
设计法律规则的规范内容属性,包括授权性、义务性、权义复合性三类。
7.根据权利要求1所述的基于法规文本的法律规则图谱构建方法,其特征在于,在自有法律术语库基础上,针对法规文本语料,采用专家词库、基于规则的自举法和卷积神经网络混合的模式,构建法律术语库,包括:
准备法规文本语料,法规文本语料以xml格式提供;
候选法律术语生成;
统计特征计算,分别计算语料的TF-IDF、NC-Value、PMI、左(右)邻字熵等值,作为统计特征;
分类器学习,根据正负样本,学习一个二元分类器,分类器模型可以用决策树、随机森林或者支持向量机的一种;
执行统计特征计算结果;
采用卷积神经网络,利用之前形成的标准库,进行训练,形成新的法律术语抽取成果。
8.根据权利要求1所述的基于法规文本的法律规则图谱构建方法,其特征在于,利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储,包括:
设计法律术语概念图谱中的关系类型体系,包括同义词关系、缩略词关系、上位词关系、下位词关系、指代关系、反义关系;
基于模式匹配,自举法进行抽取;
专家工程审核,形成标准数据;
深度学习方法,算法训练;
基于法律术语库形成法律术语概念图谱。
9.根据权利要求1所述的基于法规文本的规律规则图谱构建方法,其特征在于,针对法规语料,根据法律规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别法律术语之间的关系,并根据法律规则结构模型,生成法规语料中存在的法律规则,并记录法律规则与语料的链接关系,包括:
针对单条包含有完整法律规则结构要素情形的法律规则条文法规语料,进行法律术语的标记,并结合当前标记的法律术语及其上下文,识别法律术语之间的关系以及法律术语在法律规则结构模型中的归属,并基于此实现法律规则结构类型识别;
针对单条没有包含有完整法律规则结构要素的法律规则条文法规语料,先初步进行法律术语的标记,并结合法律术语概念图谱、其他法规文本中的关联法律规则语料,识别当前条文的法律术语加上其他法规文本中关联法律术语之间的关系以及法律术语在法律规则结构模型中的归属,并基于此实现法律规则结构类型识别。
10.一种基于法规文本的规律规则图谱构建系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的基于法规文本的规律规则图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744524.1A CN113420126B (zh) | 2021-06-30 | 2021-06-30 | 基于法规文本的法律规则图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744524.1A CN113420126B (zh) | 2021-06-30 | 2021-06-30 | 基于法规文本的法律规则图谱构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420126A true CN113420126A (zh) | 2021-09-21 |
CN113420126B CN113420126B (zh) | 2024-05-07 |
Family
ID=77717746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110744524.1A Active CN113420126B (zh) | 2021-06-30 | 2021-06-30 | 基于法规文本的法律规则图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420126B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114706993A (zh) * | 2022-02-23 | 2022-07-05 | 税友信息技术有限公司 | 一种文本实体链接方法、系统、电子设备及存储介质 |
CN114818681A (zh) * | 2022-06-24 | 2022-07-29 | 西南财经大学 | 一种实体识别方法及系统、计算机可读存储介质及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7386505B1 (en) * | 2003-06-30 | 2008-06-10 | Logicease Solutions, Inc. | System and method for automated compliance with loan legislation |
CN108073673A (zh) * | 2017-05-15 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
-
2021
- 2021-06-30 CN CN202110744524.1A patent/CN113420126B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7386505B1 (en) * | 2003-06-30 | 2008-06-10 | Logicease Solutions, Inc. | System and method for automated compliance with loan legislation |
CN108073673A (zh) * | 2017-05-15 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139610A (zh) * | 2021-11-15 | 2022-03-04 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114139610B (zh) * | 2021-11-15 | 2024-04-26 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114706993A (zh) * | 2022-02-23 | 2022-07-05 | 税友信息技术有限公司 | 一种文本实体链接方法、系统、电子设备及存储介质 |
CN114818681A (zh) * | 2022-06-24 | 2022-07-29 | 西南财经大学 | 一种实体识别方法及系统、计算机可读存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN113420126B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9588960B2 (en) | Automatic extraction of named entities from texts | |
CN113420126B (zh) | 基于法规文本的法律规则图谱构建方法及系统 | |
Azmi et al. | Computational and natural language processing based studies of hadith literature: a survey | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
CN103218444B (zh) | 基于语义的藏文网页文本分类方法 | |
Haque et al. | Literature review of automatic multiple documents text summarization | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
CN113535959B (zh) | 面向基层治理的事件自动分拨方法 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN114997288B (zh) | 一种设计资源关联方法 | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
CN112559734A (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN113554172A (zh) | 基于案例文本的裁判规则知识抽取方法及系统 | |
Shang et al. | Improved feature weight algorithm and its application to text classification | |
CN113360680A (zh) | 一种基于电力审计制度的无监督知识图谱构建方法 | |
Zolotarev | Research and development of linguo-statistical methods for forming a portrait of a subject area | |
Azzopardi et al. | Fusion of news reports using surface-based methods | |
Kazyulina et al. | Emotion classification in Russian: feature engineering and analysis | |
Strinyuk et al. | Corpus Based Information Extraction Approach for Marine Ontology Development | |
SILVA | Extracting structured information from text to augment knowledge bases | |
Kim et al. | Development of an Embedding Framework for Clustering Scientific Papers | |
Baimuratov et al. | ‘Improving the segmentation of the russian building code texts with meta-learning | |
Berrazega et al. | A Knowledge-Based Approach for Provisions’ Categorization in Arabic Normative Texts | |
Wan et al. | A Case Knowledge Extraction Method for Chinese Legal Texts | |
Martínez-Villaseñor et al. | Advances in Computational Intelligence: 19th Mexican International Conference on Artificial Intelligence, MICAI 2020, Mexico City, Mexico, October 12–17, 2020, Proceedings, Part II |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |