CN113554172A - 基于案例文本的裁判规则知识抽取方法及系统 - Google Patents
基于案例文本的裁判规则知识抽取方法及系统 Download PDFInfo
- Publication number
- CN113554172A CN113554172A CN202110860221.6A CN202110860221A CN113554172A CN 113554172 A CN113554172 A CN 113554172A CN 202110860221 A CN202110860221 A CN 202110860221A CN 113554172 A CN113554172 A CN 113554172A
- Authority
- CN
- China
- Prior art keywords
- rule
- legal
- referee
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims description 25
- 238000000034 method Methods 0.000 claims abstract description 63
- 239000000203 mixture Substances 0.000 claims abstract description 13
- 230000006399 behavior Effects 0.000 claims description 40
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000013135 deep learning Methods 0.000 claims description 27
- 238000013461 design Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 239000000470 constituent Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000000692 anti-sense effect Effects 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract description 13
- 238000012937 correction Methods 0.000 abstract description 3
- 238000013441 quality evaluation Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种以案例文本为知识来源的规则图谱构建方法,主要针对法院审理的刑事、民事、行政一审、二审、再审案件的裁判文书,根据裁判文书的业务内容特征、裁判文书制作规范、裁判文书半结构化特征、法律规则的构成特征、类型特征,设计了一种裁判规则图谱的信息模型,提出了一种构建法律术语的方法、一种识别规则的分类方法和一种识别规则类型的方法,最终实现裁判规则图谱的构建,输出XML结构化文档,使得计算机系统能够有效利用案例文本中存在的裁判规则来开展立法、执法和司法应用,并在裁判文书纠错、裁判文书质量评查、案件质量监督、司法办案法条推送等领域中发挥作用。
Description
技术领域
本发明涉及法律知识工程技术领域,特别是涉及一种基于案例文本的裁判规则知识抽取方法及系统。
背景技术
法律规则是采取一定的结构形式具体规定人们的法律权利、法律义务以及相应的法律后果的行为规范。法律规则一般在法律法规文本中以自然语言的方式来表示,但基于法律法规立法技术的要求,法律法规文本中的法律规则表述具有概括性和抽象性,相当于本体的存在,在法律适用中需要针对具体场景进行法律规则中的法律术语的操作化映射和推理,特别是在司法裁判过程中,为阐明当前案件的法律推理过程,需要将法律规则进一步操作化为具体规则,相当于针对本体的实体存在,以匹配当前案件的法律关系。在裁判文书中将这个过程记录下来,就形成更具有操作性的裁判规则。可以说,裁判规则是一个更具体和具有操作性的实体法律规则。在裁判文书中,裁判规则也是以自然语言的方式来表示,这种知识表示方式对于计算机系统来说不具有良好的可读性,需要将案例文本中存在的裁判规则以规则图谱的方式来重新表示。因此,从案例文本中抽取裁判规则图谱的技术,是实现计算机系统获取新的法律规则的关键技术。最接近的同类技术及其不足之处,分述如下:
1.一种基于机器学习的法律知识图谱构建方法、装置、系统和介质与流程(申请号/专利号:CN201710339258.8):核心的方法包括(1)利用自然语言理解模块抽取得到的文本特征;(2)特征机器学习模块学习得到的法律知识特征;(3)知识工程模块识别得到的法律概念;(4)对原始法律数据识别出法律知识点;(5)通过法律概念框架自动关联法律知识点以构建法律知识图谱。
2.一种基于信息抽取的法律知识图谱构建方法(申请号/专利号:CN201910980158.2):核心方法包括(1)从网络中爬取大量法律文书和法律实体;(2)从百度百科中抽取和法律相关的法律实体;(3)融合爬取得到的法律实体和百度百度中抽取得到的法律实体,并将法律实体链接至法律文书,构建法律实体与法律文书之间的网络;(4)利用实体描述和实体名称构建实体网络,基于实体结构信息构建实体相似度网络;(5)抽取法律文书中的三元组,结合法律知识网络构建法律知识图谱。
3.一种法律知识图谱自动构建方法(申请号/专利号:CN201710270508.7):(1)获取民事、刑事、行政三类审判文书作为法律知识图谱构建的语料,对所述语料去停用词和进行分词;(2)根据分词后的语料,分别抽取三类审判文书的主题词,对抽取的主题词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语主题词作为法律知识图谱的实体概念;(3)获取与抽取的每一名词或名词短语主题词关系相近的词,对获取的相近词进行词性标注和过滤,根据过滤结果,抽取名词或名词短语相近词作为法律知识图谱的实体概念;(4)同属于主题词的实体概念之间形成主题关系,每一主题词实体概念与其相近词实体概念构成相近关系,根据抽取的主题词实体概念和相近词实体概念以及其之间的关系形成的主题词-主题关系-主题词,主题词-相近关系-相近词三元组结构,构建法律知识图谱。
4.一种司法裁判规则数据库的构建方法、数据库及查询方法(申请号/专利号:CN201910988426.5):本发明公开了一种司法裁判规则数据库的构建方法、数据库及查询方法,所述构建方法包括以下步骤:1)、数据收集:通过加工案例裁判文书,获得案例的裁判规则、裁判问题和案例要素,所述案例包括网上公布的案例或其它未在网上公布的案例;2)、数据存储:将裁判问题、裁判规则、案例要素存储在数据库中并在数据库中建立裁判问题与裁判规则、案例要素的对应关系。本发明解决了现有法律数据库的数据不全面、无法直接获取裁判规则的问题。
上述四个专利,相对于法律规则图谱的构建来说,不足之处在于:(1)缺少针对裁判文书中包含的法律规则的这种自然语言场景的针对性方案;(2)泛化的法律知识图谱,强调了知识的关联体系,缺少对法律领域知识最核心的“规则”的知识表示形态;(3)都是一个通用方法,对简单的法律知识图谱的构建是适用的,基于文本上下文短距离的语义关联来形成图谱,而对于复杂知识图谱的构建则没有进一步的进行方法上的设计;(4)针对局部文本语义的图谱构建,不能支持多个图谱之间的推理来构建新的图谱,因为难以实现多个法律规则之间的关系进行二次图谱的构建;(5)针对具体每一类知识图谱并没有提供提取率、提准率的控制机制;(6)特征机器学习模块利用随机森林、支持向量机等算法训练学习法律知识特征,并没有很好的利用法律知识特征的行业特点,其训练效果难以达到高精度的指标。
发明内容
本发明要解决的技术问题是提供一种基于案例文本的裁判规则知识抽取方法及系统,能够构建针对法律规则的知识图谱。
为解决上述技术问题,本发明提供了一种基于案例文本的裁判规则知识抽取方法,所述方法包括:根据裁判文书的书写规范与文书结构,按诉讼程序的业务标准,将文书由粗到细切分为多层级的文本片,设计文书的切片模型;根据裁判规则可能出现的切片位置,利用中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对裁判规则所在自然语言片段的切片模型的设计和算法实现;根据裁判规则的业务特征,设计裁判规则结构模型;在自有法律术语库基础上,针对法规文本语料、裁判文书文本语料,采用专家词库、基于规则的自举法和混合的模式,构建法律术语库;利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储;针对识别为“裁判规则”的裁判规则切片语料,根据裁判规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别“裁判规则切片”中的法律术语之间的关系,并根据裁判规则结构模型,生成裁判规则切片语料中存在的裁判规则,并记录裁判规则与语料的链接关系;按照抽取的法律规则的类型,在对应的法律规则结构模型中进行存储。
在一些实施方式中,根据裁判文书的书写规范与文书结构,按诉讼程序的业务标准,将文书由粗到细切分为多层级的文本片,设计文书的切片模型,包括:总结司法文书书写规范和文书结构,将文书各段落按照逻辑关系划分出多层级的文本片,对裁判文书的一级文本片进行分析,包括“文本首部”、“当事人基本信息段”、“案件由来段”、“诉辩信息段”、“案件事实段”、“裁判分析过程段”、“判决结果段”和“文本尾部”;设计文书切片模型用以存储文书各逻辑段,每个逻辑段包含若干个细切片。根据每个段落所包含的细切片,设计文书切片模型,如图所示,每个细切片内容用字符串类型存储,并以包含的内容给文本片命名,例如“案件事实段”、“证据细切段”,整个切片模型采用树状结构存储。
在一些实施方式中,根据裁判规则可能出现的切片位置,利用中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对裁判规则所在自然语言片段的切片模型的设计和算法实现,包括:总结裁判规则可能出现的目标切片位置,指向“案件事实推理段”、“证据认证段”、“事实争议焦点认定段”、“裁判要旨段”、“法律争议焦点认定段”;基于裁判规则的业务内涵、所在位置特征、语义特征,采用基于规则的NLP算法模型,实现对案例文本目标切片段落中的裁判规则切片的提取;对提取的裁判规则切片文本,在案件xml整体模型中,以“裁判规则切片”节点来存储,并同时记录切片的原文位置。
在一些实施方式中,根据裁判规则的业务特征,设计裁判规则结构模型,包括:结合裁判规则的构成要素、裁判规则的强制力属性、规范内容,设计裁判规则的结构模型。
在一些实施方式中,结合裁判规则的构成要素、裁判规则的强制力属性、规范内容,设计裁判规则的结构模型,包括:设计标准裁判规则的结构模型,包括行为条件、行为模式、法律后果三组要素组成,每组要素组分成单因素和多因素两种类,在结构模型上支持两种类型的存储,并且设计多因素情况下因素之间的逻辑类型,行为条件、行为模式、法律后果的要素包括定性要素和定量要素两种类型,定量要素支持定量值和定量值区间两种模式,裁判规则的结构模型中的三组要素,行为条件、行为模式可以缺省其一;设计非标准裁判规则的结构模型,某一个行为条件、行为模式也可以作为上述结构模型中的法律后果要素,其他行为条件和行为模式作为法律规则结构模型中的两组要素与这一某一个行为条件、行为模式构成一个完整的裁判规则;设计裁判规则的强制力属性,包括命令性、禁止性、指引性三类;设计裁判规则的规范内容属性,包括授权性、义务性、权义复合性三类。
在一些实施方式中,在自有法律术语库基础上,针对法规文本语料、裁判文书文本语料,采用专家词库、基于规则的自举法和混合的模式,构建法律术语库,包括:准备法规文本语料、案例文本语料;候选法律术语生成;统计特征计算,分别计算语料的TF-IDF、NC-Value、PMI、左(右)邻字熵等值,作为统计特征;分类器学习,根据正负样本,学习一个二元分类器,分类器模型可以用决策树、随机森林或者支持向量机的一种;质量评分,执行统计特征计算结果;采用卷积神经网络,利用之前形成的标准库,进行训练,形成新的法律术语抽取成果。
在一些实施方式中,准备法规文本语料、案例文本语料,包括:根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型,并以此分片模型为基础,结合法规文本的立法技术特征、语义特征,基于规则的NLP算法,实现对法规文本的切片并存储;根据法律法规的法律原理、立法技术规范和法律规则应用目标,以整个法规文本为对象,设计法规属性模型,利用中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对法规属性的提取并存储;基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类,分类至少包括“法律概念条文”、“法律原则条文”、“法律规则条文”、“立法目的条文”,并将条文分类存储于法条的“技术分类”属性中。
在一些实施方式中,利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储,包括:设计法律术语概念图谱中的关系类型体系,包括同义词关系、缩略词关系、上位词关系、下位词关系、指代关系、反义关系;基于模式匹配,自举法进行抽取;专家工程审核,形成标准数据;深度学习方法,算法训练;基于法律术语库形成法律术语概念图谱。
在一些实施方式中,针对识别为“裁判规则”的裁判规则切片语料,根据裁判规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别“裁判规则切片”中的法律术语之间的关系,并根据裁判规则结构模型,生成裁判规则切片语料中存在的裁判规则,并记录裁判规则与语料的链接关系,包括:针对单条包含有完整裁判规则结构要素情形的“裁判规则切片”案例语料,进行法律术语的标记,并结合当前标记的法律术语及其上下文,识别法律术语之间的关系以及法律术语在裁判规则结构模型中的归属,并基于此实现裁判规则结构类型识别;针对单条没有包含有完整裁判规则结构要素的“裁判规则切片”案例语料,先初步进行法律术语的标记,并结合法律术语概念图谱,识别当前裁判规则切片的法律术语加上案例上下文中关联法律术语之间的关系以及法律术语在裁判规则结构模型中的归属,并基于此实现裁判规则结构类型识别。
此外,本发明还提供了一种基于案例文本的裁判规则知识抽取系统,所述系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据前文所述的基于案例文本的裁判规则知识抽取方法。
采用这样的设计后,本发明至少具有以下优点:
本发明是一种以案例文本为知识来源的规则图谱构建方法,主要针对法院审理的刑事、民事、行政一审、二审、再审案件的裁判文书,根据裁判文书的业务内容特征、裁判文书制作规范、裁判文书半结构化特征、法律规则的构成特征、类型特征,设计了一种裁判规则图谱的信息模型,提出了一种构建法律术语的方法、一种识别规则的分类方法和一种识别规则类型的方法,最终实现裁判规则图谱的构建,输出XML结构化文档,使得计算机系统能够有效利用案例文本中存在的裁判规则来开展立法、执法和司法应用,并在裁判文书纠错、裁判文书质量评查、案件质量监督、司法办案法条推送等领域中发挥作用。
附图说明
上述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,以下结合附图与具体实施方式对本发明作进一步的详细说明。
图1是方法的流程示意图;
图2是切片模型的原理示意图;
图3是构建法律术语库的流程示意图;
图4是候选法律术语生成的流程示意图;
图5是构建法律术语概念图谱的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明是一种以案例文本为知识来源的规则图谱构建方法,主要针对法院审理的刑事、民事、行政一审、二审、再审案件的裁判文书,根据裁判文书的业务内容特征、裁判文书制作规范、裁判文书半结构化特征、法律规则的构成特征、类型特征,设计了一种裁判规则图谱的信息模型,提出了一种构建法律术语的方法、一种识别规则的分类方法和一种识别规则类型的方法,最终实现裁判规则图谱的构建,输出XML结构化文档,使得计算机系统能够有效利用案例文本中存在的裁判规则来开展立法、执法和司法应用,并在裁判文书纠错、裁判文书质量评查、案件质量监督、司法办案法条推送等领域中发挥作用。
参见图1,本发明包括以下步骤:
步骤(1)根据裁判文书的书写规范与文书结构,按诉讼程序的业务标准,将文书由粗到细切分为多层级的文本片,设计文书的切片模型;
步骤(2)根据裁判规则可能出现的切片位置,利用步骤(1)中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对裁判规则所在自然语言片段的切片模型的设计和算法实现;
步骤(3)根据裁判规则的业务特征,设计裁判规则结构模型;
步骤(4)在自有法律术语库基础上,针对法规文本语料、裁判文书文本语料,采用专家词库、基于规则的自举法和混合的模式,构建法律术语库;
步骤(5)利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储;
步骤(6)针对识别为“裁判规则”的裁判规则切片语料,根据裁判规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别“裁判规则切片”中的法律术语之间的关系,并根据裁判规则结构模型,生成裁判规则切片语料中存在的裁判规则,并记录裁判规则与语料的链接关系;
步骤(7)按照抽取的法律规则的类型,在对应的法律规则结构模型中进行存储。
步骤(1)根据裁判文书的书写规范与文书结构,按诉讼程序的业务标准,将文书由粗到细切分为多层级的文本片,设计文书的切片模型;
裁判文书通常是用WORD或WPS软件书写,且文书分段清晰,书写规范,具有明显的文书结构。按诉讼程序的业务标准并总结其书写规律,本专利采用一种由粗到细结构化司法文书的方法,依据法院对文书书写规范的要求,将文书切分出多个文本片,并设计出文书切片模型,用以存储各个逻辑段落。具体步骤如下:
步骤(1.1)总结司法文书书写规范和文书结构,将文书各段落按照逻辑关系划分出多层级的文本片,对裁判文书的一级文本片进行分析,包括“文本首部”、“当事人基本信息段”、“案件由来段”、“诉辩信息段”、“案件事实段”、“裁判分析过程段”、“判决结果段”和“文本尾部”。
步骤(1.2)设计文书切片模型用以存储文书各逻辑段,每个逻辑段包含若干个细切片。根据每个段落所包含的细切片,设计文书切片模型,如图所示,每个细切片内容用字符串类型存储,并以包含的内容给文本片命名,例如“案件事实段”、“证据细切段”,整个切片模型采用树状结构存储。
步骤(2)根据裁判规则可能出现的切片位置,利用步骤(1)中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对裁判规则所在自然语言片段的切片模型的设计和算法实现;
步骤(2.1)总结裁判规则可能出现的目标切片位置,指向“案件事实推理段”、“证据认证段”、“事实争议焦点认定段”、“裁判要旨段”、“法律争议焦点认定段”。
步骤(2.2)基于裁判规则的业务内涵、所在位置特征、语义特征,采用基于规则的NLP算法模型,实现对案例文本目标切片段落中的裁判规则切片的提取。
步骤(2.3)对提取的裁判规则切片文本,在案件xml整体模型中,以“裁判规则切片”节点来存储,并同时记录切片的原文位置。
步骤(3)结合裁判规则的构成要素、裁判规则的强制力属性、规范内容,设计裁判规则的结构模型。具体步骤如下:
步骤(3.1)设计标准裁判规则的结构模型,包括行为条件、行为模式、法律后果三组要素组成,每组要素组分成单因素和多因素两种类,在结构模型上支持两种类型的存储,并且设计多因素情况下因素之间的逻辑类型;行为条件、行为模式、法律后果的要素包括定性要素和定量要素两种类型,定量要素支持定量值和定量值区间两种模式;裁判规则的结构模型中的三组要素,行为条件、行为模式可以缺省其一。
步骤(3.2)设计非标准裁判规则的结构模型,某一个行为条件、行为模式也可以作为上述结构模型中的法律后果要素,其他行为条件和行为模式作为法律规则结构模型中的两组要素与这一某一个行为条件、行为模式构成一个完整的裁判规则。
步骤(3.3)设计裁判规则的强制力属性,包括命令性、禁止性、指引性三类。
步骤(3.4)设计裁判规则的规范内容属性,包括授权性、义务性、权义复合性三类。
步骤(4)在自有法律术语库基础上,针对案例文本语料,采用专家词库、基于规则的NLP和卷积神经网络混合的模式,构建法律术语库,方法如图3。
具体步骤如下:
步骤(4.1)准备法规文本语料、案例文本语料。
法规文本语料经过如下步骤处理,以xml规格提供:
(4.1.1)根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型,并以此分片模型为基础,结合法规文本的立法技术特征、语义特征,基于规则的NLP算法,实现对法规文本的切片并存储;
(4.1.2)根据法律法规的法律原理、立法技术规范和法律规则应用目标,以整个法规文本为对象,设计法规属性模型;利用步骤(4.1.)中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对法规属性的提取并存储;
(4.1.3)基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类,分类至少包括“法律概念条文”、“法律原则条文”、“法律规则条文”、“立法目的条文”,并将条文分类存储于法条的“技术分类”属性中
案例文本语料,经过本专利步骤(1)、(2)的处理,以xml规格提供
步骤(4.2)候选法律术语生成,如图4所示。
步骤(4.3)统计特征计算,分别计算语料的TF-IDF、NC-Value、PMI、左(右)邻字熵等值,作为统计特征;
步骤(4.4)分类器学习,根据正负样本,学习一个二元分类器,分类器模型可以用决策树、随机森林或者支持向量机的一种。
步骤(4.5)质量评分,执行统计特征计算结果;
步骤(4.6)采用卷积神经网络,利用之前形成的标准库,进行训练,形成新的法律术语抽取成果。
步骤(5)构建法律术语概念图谱。在步骤(4)的基础上,运用基于模式匹配和深度学习混合应用的方法,对关系进行分类,以三元组的方式存储,形成法律术语概念图谱,方法如图5所示。
步骤(5.1)设计法律术语概念图谱中的关系类型体系,包括同义词关系、缩略词关系、上位词关系、下位词关系、指代关系、反义关系。
步骤(5.2)基于模式匹配,自举法进行抽取。
步骤(5.3)专家工程审核,形成标准数据。
步骤(5.4)深度学习方法,算法训练。
步骤(5.5)基于法律术语库形成法律术语概念图谱。
步骤(6)针对识别为“裁判规则”的裁判规则切片语料,根据裁判规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别“裁判规则切片”中的法律术语之间的关系,并根据裁判规则结构模型,生成裁判规则切片语料中存在的裁判规则,并记录裁判规则与语料的链接关系,具体包括:
步骤(6.1)针对单条包含有完整裁判规则结构要素情形的“裁判规则切片”案例语料,进行法律术语的标记,并结合当前标记的法律术语及其上下文,识别法律术语之间的关系以及法律术语在裁判规则结构模型中的归属,并基于此实现裁判规则结构类型识别。通过法律术语库的词的类型,或者基于模式识别的规则匹配模式,实现类型识别,输出结果为标准裁判规则还是非标准裁判规则,以及行为条件、行为模式的单、多因素特征,法律后果的定量和定性特征,结合识别的法律术语间的关系,生成裁判规则。
步骤(6.2)针对单条没有包含有完整裁判规则结构要素的“裁判规则切片”案例语料,先初步进行法律术语的标记,并结合法律术语概念图谱,识别当前裁判规则切片的法律术语加上案例上下文中关联法律术语之间的关系以及法律术语在裁判规则结构模型中的归属,并基于此实现裁判规则结构类型识别。通过法律术语库的词的类型,或者基于模式识别的规则匹配模式,实现类型识别,输出结果为标准裁判规则或者非标准裁判规则,以及行为条件、行为模式的单、多因素特征,法律后果的定量和定性特征,结合识别的法律术语间的关系,生成裁判规则。
步骤(7)按照抽取的法律规则的类型,在对应的法律规则结构模型中进行存储。
以下说明用于实现算法和执行方法的客户端、服务器和基于云的处理系统资源的示例性处理电路。分布式处理系统可以包括电路的多个实例,所述电路可以用于实现任一处理电路,以执行图1、图3、图4和图5中所示的流程图所表示的算法。在各个实施例中不需要使用所有组件。例如,分布式处理系统的客户端、服务器和网络资源中的每一个可以使用不同的组件集合,在图形数据库服务器的情况下,例如可以使用更大的存储设备。
以计算机形式存在的一个示例性处理系统可以包括处理单元、存储器、可移动存储设备和不可移动存储设备,均耦合到总线。处理单元可以包括一个或多个单核或多核处理设备。尽管示例性处理系统被描述为计算机,但是处理系统在不同实施例中可以具有表现为不同的形式。例如,用户设备的处理系统还可以是笔记本电脑、平板电脑或包括与元件相同或相似的元件的另一处理设备。笔记本电脑、平板电脑等设备可以统称为移动设备或用户设备。此外,尽管各种数据存储元件被描述为计算机的一部分,但存储设备可以或替代地包括可以通过网络(例如局域网(local area network,LAN)、个人局域网(personalarea network,PAN)、广域网(wide area network,WAN)如互联网)访问的网络连接(例如,基于云的)存储设备,或本地基于服务器的存储设备。
存储器可以包括易失性存储器和非易失性存储器。计算机可以包括或可以访问包括各种计算机可读介质(例如易失性存储器、非易失性存储器、可移动存储设备及不可以动存储设备)的处理环境。计算机存储器包括随机存取存储器(random access memory,RAM)、只读存储器(read only memory,ROM)、可擦除可编程只读存储器(erasable programmableread-only memory,EPROM)和电可擦除可编程只读存储器(electrically erasableprogrammable read-only memory,EEPROM)、闪存或其他存储技术、光盘只读存储器(compact disc read-only memory,CDROM)、数字通用磁盘(digital vresatile disk,DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁存储设备,或能够存储计算机可读指令的任何其它介质。
计算机可以包括或可以访问包括输入接口、输出接口和通信连接或接口的处理环境,其中,如图所示,输入接口、输出接口和通信连接或接口连接到总线。输出接口可以包括显示设备,例如触摸屏或计算机显示器,输出接口也可以作为耦合到输入接口的输入设备。输入接口可以包括触摸屏、触控板、鼠标、键盘、相机、一个或多个设备特定按钮、集成在计算机内或经由有线或无线数据连接耦合到计算机的一个或多个传感器、其他输入设备等设备中的一个或多个。计算机可以在网络环境中运行,通过通信连接连接到一个或多个远程计算机,例如大型机、服务器和/或数据库服务器,这些远程计算机可用于实现网络连接服务。用户设备可以包括个人计算机(personal computer,PC)、服务器、路由器、网络PC、对端设备或其他普通网络节点等。所述通信连接可以包括局域网(local area network,LAN)、广域网(wide area network,WAN)、蜂窝网络、Wi-Fi网络、蓝牙网络、互联网或其它网络。
存储在计算机可读介质中的计算机可读指令可由计算机的处理单元执行。硬盘驱动器CD-ROM和RAM是包括非瞬时性计算机可读介质(例如磁存储介质、光存储介质、闪存介质和固态存储介质)的物品的一些示例。由于载波过于短暂,因此属于“计算机可读介质”和“存储设备”不包括载波。例如,可以通过一个或多个应用程序使得处理单元执行本文描述的一个或多个方法或算法。
应理解,软件可以安装在用户设备和/或网络连接服务的一个或多个处理器中并与它们一起销售。或者,可以通过物理介质或分布式系统例如从软件创作者拥有的服务器或从非软件创作者拥有但被软件创作者实用的服务器获得软件,并将软件加载到用户设备和/或网络连接服务中。例如,软件可以存储在服务器上,以便通过互联网分配。
本文描述的功能或算法可以在实施例中通过软件实现。软件可以包括存储在计算机可读介质或计算机可读存储设备例如一个或多个物理存储设备或其它类型的基于硬件的存储设备,本地或网络上的计算机可执行指令。此外,这些功能对应于模块,这些模块可以是软件、硬件、固件或其它任意组合。多个功能可以根据需要在一个或多个模块中执行,所描述的实施例仅仅是示例性的。该软件可以在处理系统例如数字信号处理器、专用集成电路(application-specific integrated circuit,ASIC)、微处理器、大型处理器或运行在计算机系统(例如个人计算机服务器或其他处理系统)上的其它类型的处理器上执行,从而将此类处理系统变为具体编程的机器。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰,均落在本发明的保护范围内。
Claims (10)
1.一种基于案例文本的裁判规则知识抽取方法,其特征在于,包括:
根据裁判文书的书写规范与文书结构,按诉讼程序的业务标准,将文书由粗到细切分为多层级的文本片,设计文书的切片模型;
根据裁判规则可能出现的切片位置,利用中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对裁判规则所在自然语言片段的切片模型的设计和算法实现;
根据裁判规则的业务特征,设计裁判规则结构模型;
在自有法律术语库基础上,针对法规文本语料、裁判文书文本语料,采用专家词库、基于规则的自举法和混合的模式,构建法律术语库;
利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储;
针对识别为“裁判规则”的裁判规则切片语料,根据裁判规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别“裁判规则切片”中的法律术语之间的关系,并根据裁判规则结构模型,生成裁判规则切片语料中存在的裁判规则,并记录裁判规则与语料的链接关系;
按照抽取的法律规则的类型,在对应的法律规则结构模型中进行存储。
2.根据权利要求1所述的基于案例文本的裁判规则知识抽取方法,其特征在于,根据裁判文书的书写规范与文书结构,按诉讼程序的业务标准,将文书由粗到细切分为多层级的文本片,设计文书的切片模型,包括:
总结司法文书书写规范和文书结构,将文书各段落按照逻辑关系划分出多层级的文本片,对裁判文书的一级文本片进行分析,包括“文本首部”、“当事人基本信息段”、“案件由来段”、“诉辩信息段”、“案件事实段”、“裁判分析过程段”、“判决结果段”和“文本尾部”;
设计文书切片模型用以存储文书各逻辑段,每个逻辑段包含若干个细切片。根据每个段落所包含的细切片,设计文书切片模型,如图所示,每个细切片内容用字符串类型存储,并以包含的内容给文本片命名,例如“案件事实段”、“证据细切段”,整个切片模型采用树状结构存储。
3.根据权利要求1所述的基于案例文本的裁判规则知识抽取方法,其特征在于,根据裁判规则可能出现的切片位置,利用中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对裁判规则所在自然语言片段的切片模型的设计和算法实现,包括:
总结裁判规则可能出现的目标切片位置,指向“案件事实推理段”、“证据认证段”、“事实争议焦点认定段”、“裁判要旨段”、“法律争议焦点认定段”;
基于裁判规则的业务内涵、所在位置特征、语义特征,采用基于规则的NLP算法模型,实现对案例文本目标切片段落中的裁判规则切片的提取;
对提取的裁判规则切片文本,在案件xml整体模型中,以“裁判规则切片”节点来存储,并同时记录切片的原文位置。
4.根据权利要求1所述的基于案例文本的裁判规则知识抽取方法,其特征在于,根据裁判规则的业务特征,设计裁判规则结构模型,包括:
结合裁判规则的构成要素、裁判规则的强制力属性、规范内容,设计裁判规则的结构模型。
5.根据权利要求4所述的基于案例文本的裁判规则知识抽取方法,其特征在于,结合裁判规则的构成要素、裁判规则的强制力属性、规范内容,设计裁判规则的结构模型,包括:
设计标准裁判规则的结构模型,包括行为条件、行为模式、法律后果三组要素组成,每组要素组分成单因素和多因素两种类,在结构模型上支持两种类型的存储,并且设计多因素情况下因素之间的逻辑类型,行为条件、行为模式、法律后果的要素包括定性要素和定量要素两种类型,定量要素支持定量值和定量值区间两种模式,裁判规则的结构模型中的三组要素,行为条件、行为模式可以缺省其一;
设计非标准裁判规则的结构模型,某一个行为条件、行为模式也可以作为上述结构模型中的法律后果要素,其他行为条件和行为模式作为法律规则结构模型中的两组要素与这一某一个行为条件、行为模式构成一个完整的裁判规则;
设计裁判规则的强制力属性,包括命令性、禁止性、指引性三类;
设计裁判规则的规范内容属性,包括授权性、义务性、权义复合性三类。
6.根据权利要求1所述的基于案例文本的裁判规则知识抽取方法,其特征在于,在自有法律术语库基础上,针对法规文本语料、裁判文书文本语料,采用专家词库、基于规则的自举法和混合的模式,构建法律术语库,包括:
准备法规文本语料、案例文本语料;
候选法律术语生成;
统计特征计算,分别计算语料的TF-IDF、NC-Value、PMI、左(右)邻字熵等值,作为统计特征;
分类器学习,根据正负样本,学习一个二元分类器,分类器模型可以用决策树、随机森林或者支持向量机的一种;
质量评分,执行统计特征计算结果;
采用卷积神经网络,利用之前形成的标准库,进行训练,形成新的法律术语抽取成果。
7.根据权利要求6所述的基于案例文本的裁判规则知识抽取方法,其特征在于,准备法规文本语料、案例文本语料,包括:
根据法律法规的书写规范与文本结构,按立法技术规范,将法规文本由粗到细切分为多层级的文本片,设计法规文本的切片模型,并以此分片模型为基础,结合法规文本的立法技术特征、语义特征,基于规则的NLP算法,实现对法规文本的切片并存储;
根据法律法规的法律原理、立法技术规范和法律规则应用目标,以整个法规文本为对象,设计法规属性模型,利用中文本分层切片的成果基础上,采用基于规则和深度学习混合的算法模型,实现对法规属性的提取并存储;
基于法规的立法技术规范、法条属性特征,采用深度学习算法模型,实现对法条的自动分类,分类至少包括“法律概念条文”、“法律原则条文”、“法律规则条文”、“立法目的条文”,并将条文分类存储于法条的“技术分类”属性中。
8.根据权利要求1所述的基于案例文本的裁判规则知识抽取方法,其特征在于,利用构建的法律术语库,基于深度学习的关系抽取模型,构建法律术语概念图谱,图谱采用标准的三元组存储,包括:
设计法律术语概念图谱中的关系类型体系,包括同义词关系、缩略词关系、上位词关系、下位词关系、指代关系、反义关系;
基于模式匹配,自举法进行抽取;
专家工程审核,形成标准数据;
深度学习方法,算法训练;
基于法律术语库形成法律术语概念图谱。
9.根据权利要求1所述的基于案例文本的裁判规则知识抽取方法,其特征在于,针对识别为“裁判规则”的裁判规则切片语料,根据裁判规则模型中的不同类型特征,融合法律术语库,采用基于规则和深度学习混合的方法,识别“裁判规则切片”中的法律术语之间的关系,并根据裁判规则结构模型,生成裁判规则切片语料中存在的裁判规则,并记录裁判规则与语料的链接关系,包括:
针对单条包含有完整裁判规则结构要素情形的“裁判规则切片”案例语料,进行法律术语的标记,并结合当前标记的法律术语及其上下文,识别法律术语之间的关系以及法律术语在裁判规则结构模型中的归属,并基于此实现裁判规则结构类型识别;
针对单条没有包含有完整裁判规则结构要素的“裁判规则切片”案例语料,先初步进行法律术语的标记,并结合法律术语概念图谱,识别当前裁判规则切片的法律术语加上案例上下文中关联法律术语之间的关系以及法律术语在裁判规则结构模型中的归属,并基于此实现裁判规则结构类型识别。
10.一种基于案例文本的裁判规则知识抽取系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的基于案例文本的裁判规则知识抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860221.6A CN113554172A (zh) | 2021-07-28 | 2021-07-28 | 基于案例文本的裁判规则知识抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860221.6A CN113554172A (zh) | 2021-07-28 | 2021-07-28 | 基于案例文本的裁判规则知识抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113554172A true CN113554172A (zh) | 2021-10-26 |
Family
ID=78133161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110860221.6A Pending CN113554172A (zh) | 2021-07-28 | 2021-07-28 | 基于案例文本的裁判规则知识抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113554172A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115203439B (zh) * | 2022-09-15 | 2022-11-29 | 天津市道本科技有限公司 | 用于合规监管的知识图谱的构建方法、相关方法和系统 |
CN115982388A (zh) * | 2023-03-06 | 2023-04-18 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN110309393A (zh) * | 2019-03-28 | 2019-10-08 | 平安科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
US20200151392A1 (en) * | 2015-10-28 | 2020-05-14 | Qomplx, Inc. | System and method automated analysis of legal documents within and across specific fields |
-
2021
- 2021-07-28 CN CN202110860221.6A patent/CN113554172A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200151392A1 (en) * | 2015-10-28 | 2020-05-14 | Qomplx, Inc. | System and method automated analysis of legal documents within and across specific fields |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN110309393A (zh) * | 2019-03-28 | 2019-10-08 | 平安科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
Non-Patent Citations (1)
Title |
---|
刘明伟等: "面向裁判文书的司法知识抽取方法", 信息技术, no. 06, 25 June 2021 (2021-06-25), pages 51 - 57 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115203439B (zh) * | 2022-09-15 | 2022-11-29 | 天津市道本科技有限公司 | 用于合规监管的知识图谱的构建方法、相关方法和系统 |
CN115982388A (zh) * | 2023-03-06 | 2023-04-18 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
CN115982388B (zh) * | 2023-03-06 | 2024-04-19 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725836B2 (en) | Intent-based organisation of APIs | |
RU2662688C1 (ru) | Извлечение информации из смысловых блоков документов с использованием микромоделей на базе онтологии | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
CN109416705B (zh) | 利用语料库中可用的信息用于数据解析和预测 | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
RU2657173C2 (ru) | Сентиментный анализ на уровне аспектов с использованием методов машинного обучения | |
US9626358B2 (en) | Creating ontologies by analyzing natural language texts | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
Hamborg et al. | Giveme5w1h: A universal system for extracting main events from news articles | |
JP7296419B2 (ja) | 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
US20150120738A1 (en) | System and method for document classification based on semantic analysis of the document | |
CN111291161A (zh) | 法律案件知识图谱查询方法、装置、设备及存储介质 | |
US10445428B2 (en) | Information object extraction using combination of classifiers | |
US20180060306A1 (en) | Extracting facts from natural language texts | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
US20200342059A1 (en) | Document classification by confidentiality levels | |
US11379656B2 (en) | System and method of automatic template generation | |
RU2640297C2 (ru) | Определение степеней уверенности, связанных со значениями атрибутов информационных объектов | |
RU2618374C1 (ru) | Выявление словосочетаний в текстах на естественном языке | |
US20180081861A1 (en) | Smart document building using natural language processing | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
CN113554172A (zh) | 基于案例文本的裁判规则知识抽取方法及系统 | |
Han et al. | Text Summarization Using FrameNet‐Based Semantic Graph Model | |
CN114997288A (zh) | 一种设计资源关联方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |