CN110956026B - 法律文书生成方法、生成装置和电子设备 - Google Patents
法律文书生成方法、生成装置和电子设备 Download PDFInfo
- Publication number
- CN110956026B CN110956026B CN201911192031.0A CN201911192031A CN110956026B CN 110956026 B CN110956026 B CN 110956026B CN 201911192031 A CN201911192031 A CN 201911192031A CN 110956026 B CN110956026 B CN 110956026B
- Authority
- CN
- China
- Prior art keywords
- entity
- entity data
- legal
- data
- definition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000008569 process Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 2
- 239000002699 waste material Substances 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 13
- 238000007689 inspection Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种法律文书生成方法、装置和电子设备。该法律文书生成方法包括:获取在办案件的结构化数据和前置文书,所述结构化数据包括在办案件的第一实体数据;基于实体识别引擎从所述前置文书提取实体内容;基于法律知识图谱从所述实体内容中提取出所述在办案件的第二实体数据;基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,所述知识库包括标签定义库和抗辩说理拼装规则库;以及,基于模板模型库对经过文本定义和逻辑拼装后的实体数据进行文本拼装,以生成法律文书。这样,提高法律文书的生成效率,避免司法资源的浪费,并且该法律文书生成方法具有更强的适应性。
Description
技术领域
本申请涉及文本处理领域,尤其是涉及法律文书生成方法、法律文书生成装置和电子设备。
背景技术
随着法制社会的建设和完善,我国对司法活动的要求也越来越高。司法领域长期存在“案多人少”的困境,法官、检察官等传统法律工作人员撰写、校对法律文书,常耗时巨大,导致其无法将更多精力投入到案件本身的研究,造成司法资源的部分浪费。
因此,期望提供改进的生成法律文书的方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请提供了一种法律文书生成方法、装置和电子设备,其基于法律知识图谱和知识库对在办案件进行实体数据的提取和基于机器学习的文本处理以自动拼装生成法律文书,从而提高法律文书的生成效率,避免司法资源的浪费,并生成适应性更强的法律文书。
根据本申请的一方面,提供了一种法律文书生成方法,包括:
获取在办案件的结构化数据和前置文书,所述结构化数据包括在办案件的第一实体数据;
基于实体识别引擎从所述前置文书提取实体内容;
基于法律知识图谱从所述实体内容中提取出所述在办案件的第二实体数据;
基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,所述知识库包括标签定义库和抗辩说理拼装规则库;以及
基于模板模型库对经过文本定义和逻辑拼装后的实体数据进行文本拼装,以生成法律文书。
在上述法律文书生成方法中,基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装包括:识别所述第一实体数据和所述第二实体数据中针对于同一实体的实体数据;以及,将针对于同一实体的实体数据进行合并和/或选择其中之一确定为实体数据。
在上述法律文书生成方法中,基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装包括:基于标签定义库对所述实体数据中单一标签进行文本定义,生成针对于单一标签的实体数据。
在上述法律文书生成方法中,基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装包括:基于抗辩说理拼装规则库和所述标签定义库,对所述实体数据进行逻辑拼装。
在上述法律文书生成方法中,构建知识库的过程包括:获取预定类型的法律文书;对所述预定类型的法律文书进行内容解析,以划分段落和提取实体内容;对所述实体内容进行标注;基于机器学习对标注后的所述实体内容进行处理,以生成文书生成模型并存储至模板模型库;获取针对于标注后的所述实体内容的标签和定义规则,并存储至标签定义库;以及,获取针对于所述预定类型的法律文书的相关推荐法条。
在上述法律文书生成方法中,所述前置文书包括起诉书、起诉状、答辩状、审查报告、庭审笔录。
在上述法律文书生成方法中,所述实体内容包括:诉讼请求、抗辩内容、基本法律关系和事实认定情况。
根据本申请的另一方面,提供了一种法律文书生成装置,包括:
内容获取单元,用于获取在办案件的结构化数据和前置文书,所述结构化数据包括在办案件的第一实体数据;
内容提取单元,用于基于实体识别引擎从所述前置文书提取实体内容;
数据提取单元,用于基于法律知识图谱从所述实体内容中提取出所述在办案件的第二实体数据;
文本定义和拼装单元,用于基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,所述知识库包括标签定义库和抗辩说理拼装规则库;以及
文书生成单元,用于基于模板模型库对经过文本定义和逻辑拼装后实体数据进行文本拼装,以生成法律文书。
在上述法律文书生成装置中,所述文本定义和拼装单元用于:识别所述第一实体数据和所述第二实体数据中针对于同一实体的实体数据;以及,将针对于同一实体的实体数据进行合并和/或选择其中之一确定为实体数据。
在上述法律文书生成装置中,所述文本定义和拼装单元用于:基于标签定义库对所述实体数据中单一标签进行文本定义,生成针对于单一标签的实体数据。
在上述法律文书生成装置中,所述文本定义和拼装单元用于:基于抗辩说理拼装规则库和所述标签定义库,对所述实体数据进行逻辑拼装。
在上述法律文书生成装置中,所述生成装置进一步包括知识库构建单元,用于:获取预定类型的法律文书;对所述预定类型的法律文书进行内容解析,以划分段落和提取实体内容;对所述实体内容进行标注;基于机器学习对标注后的所述实体内容进行处理,以生成文书生成模型并存储至模板模型库;获取针对于标注后的所述实体内容的标签和定义规则,并存储至标签定义库;以及,获取针对于所述预定类型的法律文书的相关推荐法条。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的法律文书生成方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的法律文书生成方法。
本申请提供了的法律文书生成方法、装置和电子设备能够基于法律知识图谱和知识库对在办案件进行实体数据的提取和基于机器学习的文本处理以自动拼装生成法律文书,从而提高法律文书的生成效率,避免司法资源的浪费,并生成适应性更强的法律文书。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本申请实施例的法律文书生成方法的流程图。
图2图示了根据本申请实施例的构建知识库的一示例的流程图。
图3图示了根据本申请实施例的构建知识库的另一示例的流程示意图。
图4图示了根据本申请实施例的法律文书生成过程的流程图。
图5图示了根据本申请实施例的法律文书生成方法的另一流程示意图。
图6图示了根据本申请实施例的法律文书生成装置的框图。
图7图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,在司法领域中,法律工作人员将大量精力分配于法律文书的撰写和校对工作上,造成了司法资源的部分浪费。为了提高司法工作中诸如起诉书、起诉意见书、审查报告、裁判文书等相关法律文书的生成效率。现有的做法是由法官、检察官等司法人员对每种类型案由的案例文书进行总结,以给出每种类型案由的待生成法律文书的通用模板。
但是,这种推送待生成法律文书的通用模板和法律文书的方式过于笼统宽泛,尽管一种类型案由可能有多个通用模板,但是带推送的法律文书中所阐述的事实各不相同。因此,法官、检察官等司法人员在处理某种类型案由的待生成的法律文书时,需要从推送的待生成的法律文书的通用模板和法律文书中确定可用的通用模板和法律文书,导致了生成法律文书效果的降低。并且,推送的通用模板和法律文书与待生成的法律文书的相关性可能不高,导致司法人员在基于所提供的通用模板进行撰写法律文书时,需做大量的自适应调整工作,影响文书生成效率。也就是说,基于通用模板的法律文书生成方法的适应性不高。
例如,某种刑事案件裁判文书生成的技术方案主要依赖于用于刑事案件的通用模板,上述说明的技术问题在该技术方案中依旧存在。
针对上述技术问题,本申请的基本构思是结合法律知识图谱和知识库,提出一种自动生成法律文书的技术方案,其能够基于法律知识图谱和知识库对在办案件进行基于机器学习的文本处理以自动拼装生成法律文书,从而提高法律文书的生成效率,避免司法资源的浪费,并且,该法律文书生成方法的适应性更强。
基于此,本申请提出了一种法律文书生成方法、装置和电子设备,其首先获取在办案件的结构化数据和前置文书,所述结构化数据包括在办案件的第一实体数据;再基于实体识别引擎从所述前置文书提取实体内容;然后基于法律知识图谱从所述实体内容中提取出所述在办案件的第二实体数据;接着基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,所述知识库包括标签定义库和抗辩说理拼装规则库;最后基于模板模型库对经过文本定义和逻辑拼装后的实体数据进行拼装,以生成法律文书。
这样,本申请提出的法律文书生成方法、装置和电子设备能够基于法律知识图谱和知识库对在办案件进行基于机器学习的文本处理以自动拼装生成法律文书,从而提高法律文书的生成效率,避免司法资源的浪费,并且,本申请提供的所述法律文书生成方法的适应性更强。
另外,本申请提出的法律文书生成方法、装置和电子设备能够改进审理流程规范化,也就是,因为本申请提出的法律文书的生成逻辑内含天然的规范性与格式性,迫使法官、检察官在案件审理过程中必须遵循既定的审理流程,注重对当事人诉称意见的查实及争议证据及事实的认证。
此外,本申请提出的法律文书生成方法、装置和电子设备可以帮助法官、检察官等法律从业人员自动梳理所需各类要素、整理案件事实及其证据,自动梳理出本案的争议焦点,并且可以大大减轻法官、检察官办案过程中整理案件各类材料的负担,也省去了书写文书、整理案件材料归档等繁重工作,使法官、检察官能够有更多的时间进行业务的提高和对疑难案件的充分研究。另外,也有利于刚入行的助理审判员及法官助理尽快熟悉类案审理流程并在内心形成固化的类案审理思路。
需要说明的是,本申请的上述基本构思还可以应用于其他标准文书的生成方案中,例如,招投标文书、债权募集文书等。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的法律文书生成方法的流程图。如图1所示,根据本申请实施例的法律文书生成方法,包括:S110,获取在办案件的结构化数据和前置文书,所述结构化数据包括在办案件的第一实体数据;S120,基于实体识别引擎从所述前置文书提取实体内容;S130,基于法律知识图谱从所述实体内容中提取出所述在办案件的第二实体数据;S140,基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,所述知识库包括标签定义库和抗辩说理拼装规则库;以及,S150,基于模板模型库对经过文本定义和逻辑拼装后的实体数据进行拼装,以生成法律文书。
在步骤S110中,获取在办案件的结构化数据和前置文书,所述结构化数据包括在办案件的第一实体数据。在本申请实施例中,所述在办案件的结构化数据和前置文书,可从案件电子卷宗中提取,更具体地,可从在办案件电子卷宗中提取。
例如,根据在办案件的案件标识,可以通过业务系统提供的接口获取该案件的案件基本信息(即,第一实体数据),比如案号、案由、当事人基本信息、审判组织成员等,并且也可以获取到该案件的前置文书数据。
在本申请实施例中,所述在办案件的结构化数据可以包括预先提取的同类型案件的结构化数据,也可以包括基于当前的在办案件获取的结构化数据。
并且,在本申请实施例中,所述在办案件的前置文书(或者说,案件的前置文书)包括但不限于案件的起诉书、起诉状、答辩状、审查报告、庭审笔录等文书。
在步骤S120中,基于实体识别引擎从所述前置文书提取实体内容。具体来说,基于实体识别引擎对所述前置文书中的内容进行解析,以进行段落拆分和实体提取,其中,所提取的实体内容包括指控部分、答辩部分、事实部分、说理部分和法条部分。
在步骤S130中,基于法律知识图谱从所述实体内容中提取出所述在办案件的第二实体数据。应可以理解,一方面,提取出的实体内容中除了所述在办案件的第二实体数据之外,还存在其他数据,例如,标点符号,逻辑关联词等。另一方面,在所述在办案件的第二实体数据中也存在定义不明确,没有采用标准表述等文本问题,因此,需要基于法律知识图谱对所述实体内容进行文本处理,以从所述实体内容中提取出所述在办案件的第二实体数据。具体来说,该文本处理过程,包括基于法律知识图谱采用自然语言处理和/或机器学习的方式,基于拆分的实体内容就对应的诉讼请求、抗辩内容、事实认定情况和基本法律关系进行甄别和提取。
此外,对于实体内容中以比较直观的形式呈现的实体数据,可以直接采用标注的方式提取出来。
因此,所述第二实体数据表示法律文书中的对象或概念,其包括但不限于诉讼请求、抗辩内容、事实认定情况和基本法律关系等。并且,所述第二实体数据与实体内容具有一定的对应关系,例如诉讼请求对应于指控部分,抗辩内容对应于答辩部分,事实认定情况对应于事实部分,基本法律关系对应于说理部分和法条部分,等等。
在步骤S140中,基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,所述知识库包括标签定义库和抗辩说理拼装规则库。具体来说,文本定义和逻辑拼装的过程包括:识别所述第一实体数据和所述第二实体数据中针对于同一实体的实体数据;以及,将针对于同一实体的实体数据进行合并和/或选择其中之一确定为实体数据。
具体地,在本申请实施例中,每个抗辩说理拼装规则中使用到的标签定义可能来自于各个实体数据,且规则中会定义每个实体数据的取值顺序,例如,优先取第一实体数据来源,后面根据第二实体数据中的文书种类依次排序,从前往后按顺序从数据源中获取以实现该标签的内容融合取值。
例如,根据当事人属性中的性别,从第一实体数据中能获取到当事人列表,从第二实体数据中每个文书同样能获取到当事人列表,根据当事人姓名做对应,取出同一当事人各个数据来源的内容,然后按照定义的顺序,优先从第一实体数据中获取当事人属性-性别,如果第一实体数据中有取值,则采用该取值,如果第一实体数据中没有该值,则从第二实体数据中按照定义的文书顺序,依次取值,直到取到该值或者所有来源遍历完都没有值为止。
值得注意的是,在本申请实施例中,通过识别针对于同一实体的第一实体数据和第二实体数据,并对上述来源不同识别的第一实体数据和第二实体数据进行融合。在将上述来源不同的实体数据进行融合的过程中,需要用到所述知识库中的标签定义库来识别所述第一实体数据和所述第二实体数据中针对于同一实体的实体数据,因此,本质上实体数据融合是文本定义的一种具体技术呈现。
进一步地,在本申请实施例中,文本定义和逻辑拼装的过程包括:基于标签定义库对所述实体数据中单一标签进行文本定义,生成针对于单一标签的实体数据。应可以理解,在所述第一实体数据和所述第二实体数据中,存在单一标签,即,仅存在于所述第一实体数据或所述第二实体数据中的标签。针对于这种情况,在本申请实施例中,基于标签定义库的规则对所述单一标签进行文本定义,以生成针对于单一标签的实体数据。
进一步地,在本申请实施例中,文本定义和逻辑拼装的过程包括:基于抗辩说理拼装规则库对所述实体数据进行逻辑拼装。应可以理解,在法律文书中,表达和陈述基于法律表达逻辑,例如,在说理部分会遵循大前提-小前提-结论的三段论式的逻辑形式。因此,在对不同来源的实体数据进行文本定义后,需对所述实体数据进行逻辑拼装,以使其符合法律表达逻辑。在进行逻辑拼装时,需要用到所述知识库中的所述抗辩说理拼装规则库。
值得一提的是,在本申请实施例中,对应于不同类型的法律文书的所述知识库可以是预先建立好的,也可以基于待生成的法律文书类型实时构建。
在本申请一种可能的实现方式中,构建所述知识库的过程包括:获取预定类型的法律文书,也就是说,基于待生成的法律文书的类型,从在电子卷宗库的案件文书库中筛选出类型适配的法律文书。优选地,可通过人工或机器对筛选出的法律文书进行质量评估,以选择质量较优者用于后续的知识库构建。
接着,对所述预定类型的法律文书进行内容解析,以划分段落和提取实体内容。在本申请实施例中,可使用在上述实体识别引擎对所述预定类型的法律文书进行内容解析,或者,采用不同类型的实体识别引擎对所述法律文书进行文本处理,对此,并不为本申请所局限。
然后,对所述实体内容进行标注。对实体内容的标注表示给实体内容打上标签,例如,将某一段或某几段实体内容标识为指控部分、答辩部分、事实部分、说理部分、法条部分的任一标签。在具体实施中,实体内容的标注可由机器或人工或机器辅助人工完成。
接着,基于机器学习对标注后的所述实体内容进行处理,以生成文书生成模型并存储至模板模型库。具体来说,基于待生成的法律文书,将需要根据实际在办案件自动生成的部分采用传统的机器学习或深度学习(例如,卷积神经网络或循环神经网络的编码器-解码器模型)对标注后的所述实体内容进行处理,以生成文书生成模型。相应地,文书生成模型的累计便形成了模板模型库。
接着,获取针对于标注后的所述实体内容的标签和定义规则,并存储至标签定义库。在具体实施中,对识别出来的指控部分、答辩部分、事实部分、说理部分等实体内容,可根据在办案件的法律文书特定的法律概念和说理描述,由专业法律人士或业务专家进行规则的抽象,并定义成对应的规则标签,形成一批标签和规则定义并存储至标签定义库。相应地,可通过同样的方式获取用于逻辑拼装实体内容的抗辩说理拼装规则并存储至抗辩说理拼装规则库。
接着,获取针对于所述预定类型的法律文书的相关推荐法条。在具体实施中,可根据在办案件的法律文书特定的法律概念和说理描述,由专业法律人士或业务专家提供相关推荐法条。同样可行的是,可基于目标文书类型、法律知识图谱、说理内容、事实认定情况以及案件的办理流程,利用基于这些特征的机器学习,推荐出相关推荐法条。
这样,通过上述过程,根据本申请实施例的所述知识库便构建形成。图2图示了根据本申请实施例的构建知识库的流程图。如图2所示,构建知识库的过程,包括:S210,获取预定类型的法律文书;S220,对所述预定类型的法律文书进行内容解析,以划分段落和提取实体内容;S230,对所述实体内容进行标注;S240,基于机器学习对标注后的所述实体内容进行处理,以生成文书生成模型并存储至模板模型库;S250,获取针对于标注后的所述实体内容的标签和定义规则,并存储至标签定义库;以及,S260,获取针对于所述预定类型的法律文书的相关推荐法条。
图3图示了根据本申请实施例的构建知识库的另一流程示意图。如图3所示,所述知识库的过程,包括自案件文书库筛选出预定类型的法律文书,然后基于实体识别引擎服务进行文书段落识别和文书实体内容识别,再基于法律知识图谱和自然语言处理进行人工标注、规则抽象、机器学习和说理法条推荐,这样最终形成标签定义库、抗辩说理拼装规则库和模板模型库。
在步骤S150中,基于模板模型库对经过文本定义和逻辑拼装后实体数据进行拼装,以生成法律文书。这里,基于模板模型库对所述实体数据所做的拼装仅仅是文本层面的拼装,逻辑层面的拼装在步骤S140中完成。相应地,在生成所述法律文书后,可进一步地将所述法律文书写回案件结案文书库中存储以进行数据反哺,提升系统的整体性能。
综上,基于本申请实施例的法律文书生成方法被阐明,其基于法律知识图谱和知识库对在办案件进行基于机器学习的文本处理以自动拼装生成法律文书,从而提高法律文书的生成效率,避免司法资源的浪费,并且,本申请提供的所述法律文书生成方法的适应性更强。
图4图示了根据本申请实施例的法律文书生成过程的流程图。如图4所示,基于本申请实施例的所述法律文书生成过程首先包括自案件电子卷宗中提取出在办案件的结构化数据以及自案件文书库中提取出在办案件的前置文书;然后,基于实体识别引擎服务对前置文书进行文本处理,以进行文书段落识别和文书实体内容识别;然后,基于法律知识图谱和自然语言处理对实体内容进行文本处理,以实现诉讼请求识别、抗辩内容识别和基本法律关系识别;接着,基于标签引擎、规则拼装引擎和抗辩说理引擎,进行数据融合、标签定义、实体对应和规则拼装;进而,基于模板模型库生成法律文书,其中,所述法律文书包括当事人部分、指控部分、答辩部分、事实部分、说理部分和法条部分。
图5图示了根据本申请实施例的法律文书生成方法的另一流程示意图。
图5所示意的流程示意图相较于图4所示意的法律文书生成过程,其增加的部分为知识库的构建过程,在该示例中,知识库的构建过程,包括:自案件文书库筛选出预定类型的法律文书,然后基于实体识别引擎服务进行文书段落识别和文书实体内容识别,再基于法律知识图谱和自然语言处理进行人工标注、规则抽象、机器学习和说理法条推荐,这样最终形成标签定义库、抗辩说理拼装规则库和模板模型库。
以上,虽然以本申请基本构思用于法律文书生成方法为示例,本领域普通技术人员应知晓,本申请的上述基本构思还可以应用于其他标准文书生成方案中,例如,招投标文书、债权募集文书等,对此,并不为申请所局限。
示例性装置
图6图示了根据本申请实施例的法律文书生成装置的框图。
如图6所示,根据本申请实施的所述法律文书生成装置600,包括:内容获取单元610,用于获取在办案件的结构化数据和前置文书,其中,所述结构化数据包括在办案件的第一实体数据;内容提取单元620,用于基于实体识别引擎从所述前置文书提取实体内容;数据提取单元630,用于基于法律知识图谱对所述实体内容进行文本处理,以从所述实体内容中提取出所述在办案件的第二实体数据;文本定义和拼装单元640,用于基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,其中,所述知识库包括标签定义库和抗辩说理拼装规则库;以及,文书生成单元650,用于基于模板模型库对经过文本定义和逻辑拼装后实体数据进行文本拼装,以生成法律文书。
在一个示例中,在上述用于推荐系统的法律文书生成装置600中,所述文本定义和拼装单元640用于:识别所述第一实体数据和所述第二实体数据中针对于同一实体的实体数据;以及,将针对于同一实体的实体数据进行合并和/或选择其中之一确定为实体数据。
在一个示例中,在上述用于推荐系统的法律文书生成装置600中,所述文本定义和拼装单元640用于:基于标签定义库对所述实体数据中单一标签进行文本定义,生成针对于单一标签的实体数据。
在一个示例中,在上述用于推荐系统的法律文书生成装置600中,所述文本定义和拼装单元640用于:基于抗辩说理拼装规则库和所述标签定义库,对所述实体数据进行逻辑拼装。
在一个示例中,在上述用于推荐系统的法律文书生成装置600中,所述生成装置进一步包括知识库构建单元660,用于:获取预定类型的法律文书;对所述预定类型的法律文书进行内容解析,以划分段落和提取实体内容;对所述实体内容进行标注;基于机器学习对标注后的所述实体内容进行处理,以生成文书生成模型并存储至模板模型库;获取针对于标注后的所述实体内容的标签和定义规则,并存储至标签定义库;以及,获取针对于所述预定类型的法律文书的相关推荐法条。
这里,本领域技术人员可以理解,上述法律文书生成装置600中的各个单元和模块的具体功能和操作已经在上面参考图1至图5的法律文书生成方法/过程的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的法律文书生成装置600可以实现在各种终端设备中,例如大屏智能设备,或者独立于大屏智能设备的计算机等。在一个示例中,根据本申请实施例的法律文书生成装置600可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该法律文书生成装置600可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该法律文书生成装置600同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该法律文书生成装置600与该终端设备也可以是分立的设备,并且该法律文书生成装置600可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的法律文书生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如法律文书等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括生成的法律文书等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的法律文书生成方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的法律文书生成方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (7)
1.一种法律文书生成方法,其特征在于,包括:
获取在办案件的结构化数据和前置文书,所述结构化数据包括在办案件的第一实体数据;所述第一实体数据为案件的基本信息;
基于实体识别引擎从所述前置文书提取实体内容;
基于法律知识图谱从所述实体内容中提取出所述在办案件的第二实体数据;所述第二实体数据表示法律文书中的对象或概念,包括:诉讼请求、抗辩内容、事实认定情况和基本法律关系;
基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,所述知识库包括标签定义库和抗辩说理拼装规则库;其中,基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装包括:识别所述第一实体数据和所述第二实体数据中针对于同一实体的实体数据;将针对于同一实体的实体数据进行合并和/或选择其中之一确定为实体数据,其中,每个抗辩说理拼装规则中使用到的标签定义来自于各个实体数据,所述拼装规则中定义每个实体数据的取值顺序,在进行逻辑拼装时按预先设定的顺序从数据源中获取以实现该标签的内容融合取值;基于标签定义库对所述实体数据中单一标签进行文本定义,生成针对于单一标签的实体数据;
基于抗辩说理拼装规则库对所述实体数据进行逻辑拼装,包括:在对不同来源的实体数据进行文本定义后,对所述实体数据进行逻辑拼装,以使其符合法律表达逻辑;以及
基于模板模型库对经过文本定义和逻辑拼装后实体数据进行文本拼装,以生成法律文书。
2.根据权利要求1所述的法律文书生成方法,其中,构建知识库的过程包括:
获取预定类型的法律文书;
对所述预定类型的法律文书进行内容解析,以划分段落和提取实体内容;
对所述实体内容进行标注;
基于机器学习对标注后的所述实体内容进行处理,以生成文书生成模型并存储至模板模型库;
获取针对于标注后的所述实体内容的标签和定义规则,并存储至标签定义库;以及
获取针对于所述预定类型的法律文书的相关推荐法条。
3.根据权利要求1或2所述的法律文书生成方法,其中,所述前置文书包括起诉书、起诉状、答辩状、审查报告、庭审笔录。
4.根据权利要求1或2所述的法律文书生成方法,其中,所述实体内容包括:包括指控部分、答辩部分、事实部分、说理部分和法条部分。
5.一种法律文书生成装置,其特征在于,包括:
内容获取单元,用于获取在办案件的结构化数据和前置文书,所述结构化数据包括在办案件的第一实体数据;所述第一实体数据为案件的基本信息;
内容提取单元,用于基于实体识别引擎从所述前置文书提取实体内容;
数据提取单元,用于基于法律知识图谱从所述实体内容中提取出所述在办案件的第二实体数据;所述第二实体数据表示法律文书中的对象或概念,包括:诉讼请求、抗辩内容、事实认定情况和基本法律关系;文本定义和拼装单元,用于基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装,所述知识库包括标签定义库和抗辩说理拼装规则库;其中,基于知识库对所述第一实体数据和第二实体数据进行文本定义和逻辑拼装包括:识别所述第一实体数据和所述第二实体数据中针对于同一实体的实体数据;将针对于同一实体的实体数据进行合并和/或选择其中之一确定为实体数据,其中,每个抗辩说理拼装规则中使用到的标签定义来自于各个实体数据,所述拼装规则中定义每个实体数据的取值顺序,在进行逻辑拼装时按预先设定的顺序从数据源中获取以实现该标签的内容融合取值;基于标签定义库对所述实体数据中单一标签进行文本定义,生成针对于单一标签的实体数据;基于抗辩说理拼装规则库对所述实体数据进行逻辑拼装,包括:在对不同来源的实体数据进行文本定义后,对所述实体数据进行逻辑拼装,以使其符合法律表达逻辑;以及
文书生成单元,用于基于模板模型库对经过文本定义和逻辑拼装后实体数据进行文本拼装,以生成法律文书。
6.一种电子设备,其特征在于,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如权利要求1-4任一所述的法律文书生成方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如权利要求1-4任一所述的法律文书生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911192031.0A CN110956026B (zh) | 2019-11-28 | 2019-11-28 | 法律文书生成方法、生成装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911192031.0A CN110956026B (zh) | 2019-11-28 | 2019-11-28 | 法律文书生成方法、生成装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956026A CN110956026A (zh) | 2020-04-03 |
CN110956026B true CN110956026B (zh) | 2022-04-01 |
Family
ID=69978714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911192031.0A Active CN110956026B (zh) | 2019-11-28 | 2019-11-28 | 法律文书生成方法、生成装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956026B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476034B (zh) * | 2020-04-07 | 2023-05-12 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
CN111639479A (zh) * | 2020-04-30 | 2020-09-08 | 广州华资软件技术有限公司 | 一种基于深度学习的智能辅助办案方法 |
CN112559766B (zh) * | 2020-12-08 | 2022-08-26 | 杭州互仲网络科技有限公司 | 一种法律知识图谱构建系统 |
CN113128191B (zh) * | 2021-03-12 | 2022-03-25 | 广州广电仲达数字科技有限公司 | 一种仲裁文书脚本化生成的方法及装置 |
CN113673255B (zh) * | 2021-08-25 | 2023-06-30 | 北京市律典通科技有限公司 | 文本功能区域拆分方法、装置、计算机设备及存储介质 |
CN115392209B (zh) * | 2022-08-08 | 2023-04-28 | 山东东沃信息技术有限公司 | 一种自动生成民事案件法律文书的方法、设备及介质 |
CN116011408A (zh) * | 2022-12-12 | 2023-04-25 | 北京华宇九品科技有限公司 | 一种在线可编辑的文书生成系统及方法 |
CN116822477B (zh) * | 2023-05-16 | 2024-04-30 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
CN116933757B (zh) * | 2023-09-15 | 2023-12-29 | 京华信息科技股份有限公司 | 一种应用语言人工智能的文书生成方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130191303A1 (en) * | 2011-02-17 | 2013-07-25 | Thomas E. Santarlas | System and Method for the Automated Handling of Documents Related to Private Investigations |
CN103412868B (zh) * | 2013-07-02 | 2016-06-15 | 福建榕基软件股份有限公司 | 文书生成方法及装置 |
CN108009299A (zh) * | 2017-12-28 | 2018-05-08 | 北京市律典通科技有限公司 | 法律审判业务处理方法和装置 |
CN108334500B (zh) * | 2018-03-05 | 2022-02-22 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN109033249B (zh) * | 2018-07-05 | 2021-06-18 | 鼎富智能科技有限公司 | 公检法领域结构化文书的信息提取方法、装置及存储介质 |
CN110096689A (zh) * | 2019-05-17 | 2019-08-06 | 北京市律典通科技有限公司 | 模板式法律文书信息填充方法及装置 |
CN110059193A (zh) * | 2019-06-21 | 2019-07-26 | 南京擎盾信息科技有限公司 | 基于法律语义件与文书大数据统计分析的法律咨询系统 |
-
2019
- 2019-11-28 CN CN201911192031.0A patent/CN110956026B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110956026A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956026B (zh) | 法律文书生成方法、生成装置和电子设备 | |
US10489502B2 (en) | Document processing | |
US9286290B2 (en) | Producing insight information from tables using natural language processing | |
US9304993B2 (en) | Methods and data structures for multiple combined improved searchable formatted documents including citation and corpus generation | |
JP5065420B2 (ja) | ウェブ・サービス定義の品質を事前評価および精密化するための方法、システム、およびコンピュータ読み取り可能媒体 | |
US20220172725A1 (en) | Systems and methods for extracting information from a dialogue | |
US20110099052A1 (en) | Automatic checking of expectation-fulfillment schemes | |
WO2022218186A1 (zh) | 个性化知识图谱的生成方法、装置及计算机设备 | |
US9965540B1 (en) | System and method for facilitating associating semantic labels with content | |
US20100092088A1 (en) | Methods and data structures for improved searchable formatted documents including citation and corpus generation | |
WO2021121158A1 (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
WO2020237872A1 (zh) | 语义分析模型准确度的校验方法、装置、存储介质及设备 | |
JP2004362223A (ja) | 情報マイニングシステム | |
CN116244410B (zh) | 一种基于知识图谱和自然语言的指标数据分析方法及系统 | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
US20160328374A1 (en) | Methods and Data Structures for Improved Searchable Formatted Documents including Citation and Corpus Generation | |
Annervaz et al. | Natural language requirements quality analysis based on business domain models | |
CN112330501A (zh) | 一种文书处理方法、装置、电子设备及存储介质 | |
CN110555212A (zh) | 基于自然语言处理的文档校验方法、装置和电子设备 | |
CN113033177B (zh) | 一种电子病历数据的解析方法及装置 | |
WO2021018016A1 (zh) | 一种专利信息展示方法、装置、设备及存储介质 | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN114118072A (zh) | 文档结构化方法、装置、电子设备和计算机可读存储介质 | |
Wu et al. | Automatic semantic knowledge extraction from electronic forms | |
JPH10111876A (ja) | 情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |