CN116822477A - 一种法律文书自动生成系统 - Google Patents
一种法律文书自动生成系统 Download PDFInfo
- Publication number
- CN116822477A CN116822477A CN202310547961.3A CN202310547961A CN116822477A CN 116822477 A CN116822477 A CN 116822477A CN 202310547961 A CN202310547961 A CN 202310547961A CN 116822477 A CN116822477 A CN 116822477A
- Authority
- CN
- China
- Prior art keywords
- image
- legal
- information
- groups
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000463 material Substances 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000012015 optical character recognition Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 102100032202 Cornulin Human genes 0.000 claims 3
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims 3
- 238000004891 communication Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- -1 pictures Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及法律文本生成技术领域,具体公开了一种法律文书自动生成系统,所述系统包括操作终端,服务器和服务终端,所述服务器包括:模板匹配模块,用于对操作终端输入的法律文本描述信息进行识别,获取关键词,根据关键词匹配数据库中留存的对应文书模板;解析识别模块,用于对操作终端输入的材料数据进行解析识别;重要案由生成模块,用于根据获得的结构化数据,通过GPT‑MoE稀疏大模型生成当前案件的重要案由信息;实体命名模块,用于根据操作终端输入的材料数据,通过BERT‑BiLSTM‑CRF网络模型识别获取法律文书中的命名实体;文书生成模块,将获得的重要案由信息及命名实体按照对应文书模板进行填充,生成法律文书。
Description
技术领域
本发明涉及法律文本生成技术领域,具体为一种法律文书自动生成系统。
背景技术
法律文书定制流程主要依靠咨询法务与用户进行长时间的信息交互,针对不同法律案件收集相关证据材料,根据获取的证据材料与用户诉求梳理案件重要信息,然后将图片、纸质文档、聊天信息等各种材料手动填充进法律文书中,生成一份具有法律效用的文本;但面对各种场景的法律文书定制化需求,从咨询过程中提取信息、审核证据材料、手动撰写法律文书这种方式不但对法务有较高的专业性与经验要求,而且面对大量用户时这种方式效率低、成本高、流程复杂。
现有技术中的法律文书生成系统主要通过对证据资料的获取及识别,按照预先的文本定义及逻辑拼接,将识别的内容对应的放置于法律文本的对应位置,生成法律文书。
然而,上述现有的法律文书生成系统需要对资料进行预先处理,保证资料能够被识别;其次,此种方式生成的法律文书格式单一且仅仅能够对基础信息进行自动生成,对于较为复杂的内容无法进行采集和判断,进而使得文本生成的内容专业性较差。
发明内容
本发明的目的在于提供一种法律文书自动生成系统,解决以下技术问题:
如何智能填充法律文书所需信息、自动优化文书格式与措辞、实现个性化定制文书模板的需求。
本发明的目的可以通过以下技术方案实现:
一种法律文书自动生成系统,所述系统包括操作终端,服务器和服务终端,所述服务器包括:
模板匹配模块,用于对操作终端输入的法律文本描述信息进行识别,获取关键词,根据关键词匹配数据库中留存的对应文书模板;
解析识别模块,用于对操作终端输入的材料数据进行解析识别;
所述解析识别的过程包括:
将卷积神经网络CRNN作为特征提取器,CTC作为解码器,对材料数据进行解析,获得结构化数据;
重要案由生成模块,用于根据获得的结构化数据,通过GPT-MoE稀疏大模型生成当前案件的重要案由信息;
实体命名模块,用于根据操作终端输入的材料数据,通过BERT-BiLSTM-CRF网络模型识别获取法律文书中的命名实体;
文书生成模块,将获得的重要案由信息及命名实体按照对应文书模板进行填充,生成法律文书。
进一步地,所述卷积神经网络CRNN由一个CNN和一个BiLSTM组成,且BiLSTM为stack形深层双向LSTM结构;
CRNN特征提取器与CTC解码对材料数据进行解析的过程包括:
S1、使用深度CNN对输入图像提取特征,得到特征图;
S2、将特征图维度转化为若干个特征序列,使用BiLSTM对特征序列进行预测,并对序列中的每个特征向量进行学习,输出预测标签分布;
S3、CTC解码器使用CTC的损失函数来对CNN和RNN进行端到端的联合训练,将预测标签分布转换成最终的标签序列,输出结构化数据。
进一步地,所述重要案由信息的生成过程包括:
SS1、调用训练完成的BPE分词器对输入数据进行分词;
所述BPE分词器的训练过程包括:
基于海量法律文书作为BPE分词器的训练数据,在大规模语料中按照上下文统计特征提炼出中文单个汉字构成的大颗粒度词组,获得BPE分词器;
SS2、调用训练完成的GPT-MoE稀疏大模型,输入文本信息生成当前事件中的重要案由信息;
所述GPT-MoE稀疏大模型的训练过程包括:
从多个FFN中选取一部分FFN进行激活,对Expert路由的选择过程对token到FFN的映射模块进行强化;
其中,MoE中的Expert对应的是Transfomrer模型的FFN层。
进一步地,所述BERT-BiLSTM-CRF网络模型包括:
BERT层,用于作为预训练模型,训练出位置向量和字向量;
BiLSTM层,用于学习到BERT层预训练输出的向量信息,捕捉到较长距离的依赖关系和上下文语义特征;
Attention层,用于对信息进行处理并分配权重;
CRF层,用于将Attention层的输出添加约束计算得到最优结果,转化成序列标签输出最后的预测结果。
进一步地,在步骤S1之前,还通过图像调整策略对图像进行调整;
所述图像调整策略包括:
采用若干组图像参数调整策略对图像进行调整,分别对若干组调整后的图像同一测定位置进行OCR识别;
通过若干组OCR识别内容的比对结果选定图像调整策略,将图像按照选定的图像调整策略进行调整后输入至S1。
进一步地,所述图像参数调整策略包括:
基于公式y=[x-127.5(1-B)]*k+127.5*(1+B),按照序列(k1、B1)、(k2、B2)、…、(kn、Bn)为阶梯对图像进行调整,获取n组调整后的图像;
其中,y为调整后像素点灰度值;x为调整前像素点灰度值;B∈[-1,1];arctan(k)∈[1,89];
将n组调整后的图像识别结果与1组调整前的图像识别结果进行比对,根据比对结果选择(ki、Bi)调节阶梯下的调整后图像输入至步骤S1;
其中,i∈[1,n]。
进一步地,(ki、Bi)的选择过程包括:
获取n组识别内容中相同内容对应的序号序列,获取序号序列中连续序号总数的最大值;
选取最大值连续序号的中间值作为选择结果。
本发明的有益效果:
(1)本发明通过深度学习、强化学习从法务与用户的沟通交互中学习并梳理、理解沟通交流信息与证据材料的意图,自动生成法律案由和专业用语后填充进法律文书模板中,将法务咨询、证据审核、法律文书定制环节一体化连接,实现法律文书的智能生产过程。
(2)本发明通过设置图像参数调整策略,可以针对一些图片不清晰的问题进行适应性调整,进而最大程度的提高内容识别内容的准确性。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明法律文书自动生成系统的逻辑框图;
图2是本发明CRNN特征提取器与CTC解码对材料数据进行解析的步骤流程图;
图3是本发明重要案由信息的生成的步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,在一个实施例中,提供了一种法律文书自动生成系统,所述系统包括操作终端,服务器和服务终端,所述服务器包括:
模板匹配模块,用于对操作终端输入的法律文本描述信息进行识别,获取关键词,根据关键词匹配数据库中留存的对应文书模板;
解析识别模块,用于对操作终端输入的材料数据进行解析识别;
所述解析识别的过程包括:
将卷积神经网络CRNN作为特征提取器,CTC作为解码器,对材料数据进行解析,获得结构化数据;
重要案由生成模块,用于根据获得的结构化数据,通过GPT-MoE稀疏大模型生成当前案件的重要案由信息;
实体命名模块,用于根据操作终端输入的材料数据,通过BERT-BiLSTM-CRF网络模型识别获取法律文书中的命名实体;
文书生成模块,将获得的重要案由信息及命名实体按照对应文书模板进行填充,生成法律文书。
通过上述技术方案,本实施例给出的法律文本生成系统融合自然语言理解与处理、图像处理、计算机视觉、深度学习、大数据技术等,利用OCR(OpticalCharacterRecognition)文字技术识别图片等非文本证据材料,提取法务与用户沟通交互过程中的关键信息与相关证据链中的重点信息,然后利用获取到的信息数据,通过深度学习、强化学习从法务与用户的沟通交互中学习并梳理、理解沟通交流信息与证据材料的意图,自动生成法律案由和专业用语后填充进法律文书模板中,将法务咨询、证据审核、法律文书定制环节一体化连接,实现法律文书的智能生产过程。
具体的,系统包括操作终端、服务器和服务终端,操作终端与服务器通过网络相连接,服务终端与服务器通过网络相连接;操作终端用于法务人员输入法律文书的描述信息,上传包含证据材料、聊天信息的文档压缩包;在操作终端发出后由服务器进行接收处理;服务器将最终生成的法律文书提交到服务终端,交由咨询法务审查,审查无误即为一篇专业性法律文书;在服务器分析的过程中,通过设置模板匹配模块、解析识别模块、重要案由生成模块、实体命名模块及文书生成模块来完成法律文本的生产过程,在服务器接收到法务人员输入法律文书的描述信息,比如“起诉状,对方欠钱不还”等,模板匹配模块对文本描述信息切词后匹配数据库中留存的标准欠款起诉状文书模板,进而实现对应文书模板的匹配;在服务器收到法务上传的证据材料、聊天信息的文档压缩包之后,会解压当前压缩包,该文档包含的证据材料与聊天信息大多是图片,可能包含一些doc、Pdf等,图片中包含手写体、图章、手印等;因此通过解析识别模块将doc、Pdf文档直接解析成结构化数据,利用卷积循环神经网络CRNN(ConvolutionalRecurrentNeuralNetwork)作为特征提取器,CTC(ConnectionistTemporalClassification)作为解码器对图片进行文字识别;再通过重要案由生成模块,将解析文本信息数据作为输入,以GPT文本生成模型为底座;为提升文本生成任务的高效能、降低延时,通过构建基于混合专家网络(MixtureofExperts,MoE)的GPT大模型对行业数据进行训练、推理,利用训练好的中文稀疏GPT大模型生成当前案件描述、法律条文等重要案由信息填充进法律文书中,进而生成当前案件的重要案由信息;通过实体命名模块,将从图片以及文档中获取的数据作为输入数据,通过融合注意力机制的BERT-BiLSTM-CRF网络模型对法律行业标准对法律文书中需要填充的一些实体,比如合同名称、地址、机构名、金额、时间等进行命名实体识别与填充;获取法律文书中的命名实体;最后再通过文书生成模块,将获得的重要案由信息及命名实体按照对应文书模板进行填充,生成法律文书;通过上述过程,进而能够通过深度学习、强化学习从法务与用户的沟通交互中学习并梳理、理解沟通交流信息与证据材料的意图,自动生成法律案由和专业用语后填充进法律文书模板中,将法务咨询、证据审核、法律文书定制环节一体化连接,实现法律文书的一键生成。
作为本发明的一种实施方式,所述卷积神经网络CRNN由一个CNN和一个BiLSTM组成,且BiLSTM为stack形深层双向LSTM结构;
请参阅图2所示,CRNN特征提取器与CTC解码对材料数据进行解析的过程包括:
S1、使用深度CNN对输入图像提取特征,得到特征图;
S2、将特征图维度转化为若干个特征序列,使用BiLSTM对特征序列进行预测,并对序列中的每个特征向量进行学习,输出预测标签分布;
S3、CTC解码器使用CTC的损失函数来对CNN和RNN进行端到端的联合训练,将预测标签分布转换成最终的标签序列,输出结构化数据。
通过上述技术方案,本实施例中的卷积神经网络CRNN由一个CNN和一个BiLSTM组成,且BiLSTM为stack形深层双向LSTM结构;其中,CRNN特征提取器与CTC解码流程如下:S1、使用深度CNN对输入图像提取特征,得到特征图,假设输入图像尺寸为32x100x3,经过CNN转换成1x25x512;S2。使用双向RNN(BiLSTM)对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签(真实值)分布,即将步骤1中的CNN输出维度转换为25个1x512的序列,送入深层双向LSTM中,得到CRNN的输出特征,维度转换成为25xn(n是字符集合总数);S3、CTC解码器使用CTC的损失函数来对CNN和RNN进行端到端的联合训练。具体来讲,是计算CTCloss(转录层),使用CTC损失,把从循环层获取的一系列标签分布转换成最终的标签序列,最后输出图片中的结构化文本信息数据;通过上述CRNN特征提取器与CTC解码流程,进而能够实现对资料的解析过程。
作为本发明的一种实施方式,请参阅图3所示,所述重要案由信息的生成过程包括:
SS1、调用训练完成的BPE分词器对输入数据进行分词;
所述BPE分词器的训练过程包括:
基于海量法律文书作为BPE分词器的训练数据,在大规模语料中按照上下文统计特征提炼出中文单个汉字构成的大颗粒度词组,获得BPE分词器;
SS2、调用训练完成的GPT-MoE稀疏大模型,输入文本信息生成当前事件中的重要案由信息;
所述GPT-MoE稀疏大模型的训练过程包括:
从多个FFN中选取一部分FFN进行激活,对Expert路由的选择过程对token到FFN的映射模块进行强化;
其中,MoE中的Expert对应的是Transfomrer模型的FFN层。
通过上述技术方案,给出了一种重要案由信息的具体生成过程,SS1、BPE(BytePairEncoding)分词,利用数据库中留存的数十万级法律文书作为BPE分词器的训练数据,训练出一个法律行业的中文分词工具,它能够从大规模语料中按照上下文统计特征提炼出中文单个汉字构成的大颗粒度词组;使用时,调用训练好的BPE分词器对输入数据进行分词。2、GPT-MoE稀疏大模型,MoE中的Expert对应的是Transfomrer模型的FFN层,对稀疏GPT大模型进行训练时从多个FFN中选取一部分FFN进行激活,对Expert路由选择也就是到token到FFN的映射模块进行强化,让该模块在做映射路径选择的时候更加保持平衡,可以在不增加计算强度(FLOPS/Bytes)的情况下,通过增加FFN的数量进而增加模型参数量级来提升模型在下游任务上的性能;使用时,调用训练好的GPT-MoE稀疏大模型,输入文本信息自动生成当前事件中的重要案由信息;通过上述过程,进而实现重要案由信息的生成。
作为本发明的一种实施方式,所述BERT-BiLSTM-CRF网络模型包括:
BERT层,用于作为预训练模型,训练出位置向量和字向量;
BiLSTM层,用于学习到BERT层预训练输出的向量信息,捕捉到较长距离的依赖关系和上下文语义特征;
Attention层,用于对信息进行处理并分配权重;
CRF层,用于将Attention层的输出添加约束计算得到最优结果,转化成序列标签输出最后的预测结果。
通过上述技术方案,本实施例中的BERT-BiLSTM-CRF网络模型包括:BERT层,作为预训练模型,可以更好地训练出位置向量和字向量;BiLSTM层,能够学习到BERT层预训练输出的向量信息,更好地捕捉到较长距离的依赖关系和上下文语义特征;Attention层可以在有限的资源下快速、准确地处理信息,分配权重;CRF层将Attention层的输出添加约束计算得到最优结果,转化成序列标签输出最后的预测结果;进而通过形成的BERT-BiLSTM-CRF网络模型对法律行业标准对法律文书中的实体进行填充。
作为本发明的一种实施方式,在步骤S1之前,还通过图像调整策略对图像进行调整;
所述图像调整策略包括:
采用若干组图像参数调整策略对图像进行调整,分别对若干组调整后的图像同一测定位置进行OCR识别;
通过若干组OCR识别内容的比对结果选定图像调整策略,将图像按照选定的图像调整策略进行调整后输入至S1。
作为本发明的一种实施方式,本实施例在识别前,通过设置图像参数调整策略,可以针对一些图片不清晰的问题进行适应性调整,进而最大程度的提高内容识别内容的准确性,具体地,采用若干组图像参数调整策略对图像进行调整,分别对若干组调整后的图像同一测定位置进行OCR识别;通过若干组OCR识别内容的比对结果选定图像调整策略,将图像按照选定的图像调整策略进行调整后输入至S1,进而能够综合多组识别结果选取最佳的图像调整策略,提高内容识别内容的准确性。
需要说明的是,OCR识别的测定位置可按照内容的识别顺序选择最先识别的若干的字符作为参考,在此不作进一步限制。
作为本发明的一种实施方式,所述图像参数调整策略包括:
基于公式y=[x-127.5(1-B)]*k+127.5*(1+B),按照序列(k1、B1)、(k2、B2)、…、(kn、Bn)为阶梯对图像进行调整,获取n组调整后的图像;
其中,y为调整后像素点灰度值;x为调整前像素点灰度值;B∈[-1,1];arctan(k)∈[1,89];
将n组调整后的图像识别结果与1组调整前的图像识别结果进行比对,根据比对结果选择(ki、Bi)调节阶梯下的调整后图像输入至步骤S1;
其中,i∈[1,n]。
(ki、Bi)的选择过程包括:
获取n组识别内容中相同内容对应的序号序列,获取序号序列中连续序号总数的最大值;
选取最大值连续序号的中间值作为选择结果。
通过上述技术方案,本实施例给出了具体的图像参数调整策略,基于公式y=[x-127.5(1-B)]*k+127.5*(1+B),预先划分n组调整参数,其中,k能够对亮度参数进行调整;B能够对对比度参数进行调整;进而将n组调整后的图像识别结果与1组调整前的图像识别结果进行比对,获取n组识别内容中相同内容对应的序号序列,获取序号序列中连续序号总数的最大值;选取最大值连续序号的中间值作为选择结果,进而根据比对结果选择(ki、Bi)调节阶梯下的调整后图像输入至步骤S1;获取针对该识别内容最佳的图像调整策略,最大程度的提高内容识别内容的准确性。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (7)
1.一种法律文书自动生成系统,所述系统包括操作终端,服务器和服务终端,其特征在于,所述服务器包括:
模板匹配模块,用于对操作终端输入的法律文本描述信息进行识别,获取关键词,根据关键词匹配数据库中留存的对应文书模板;
解析识别模块,用于对操作终端输入的材料数据进行解析识别;
所述解析识别的过程包括:
将卷积神经网络CRNN作为特征提取器,CTC作为解码器,对材料数据进行解析,获得结构化数据;
重要案由生成模块,用于根据获得的结构化数据,通过GPT-MoE稀疏大模型生成当前案件的重要案由信息;
实体命名模块,用于根据操作终端输入的材料数据,通过BERT-BiLSTM-CRF网络模型识别获取法律文书中的命名实体;
文书生成模块,将获得的重要案由信息及命名实体按照对应文书模板进行填充,生成法律文书。
2.根据权利要求1所述的一种法律文书自动生成系统,其特征在于,所述卷积神经网络CRNN由一个CNN和一个B iLSTM组成,且BiLSTM为stack形深层双向LSTM结构;
CRNN特征提取器与CTC解码对材料数据进行解析的过程包括:
S1、使用深度CNN对输入图像提取特征,得到特征图;
S2、将特征图维度转化为若干个特征序列,使用BiLSTM对特征序列进行预测,并对序列中的每个特征向量进行学习,输出预测标签分布;
S3、CTC解码器使用CTC的损失函数来对CNN和RNN进行端到端的联合训练,将预测标签分布转换成最终的标签序列,输出结构化数据。
3.根据权利要求1所述的一种法律文书自动生成系统,其特征在于,所述重要案由信息的生成过程包括:
SS1、调用训练完成的BPE分词器对输入数据进行分词;
所述BPE分词器的训练过程包括:
基于海量法律文书作为BPE分词器的训练数据,在大规模语料中按照上下文统计特征提炼出中文单个汉字构成的大颗粒度词组,获得BPE分词器;
SS2、调用训练完成的GPT-MoE稀疏大模型,输入文本信息生成当前事件中的重要案由信息;
所述GPT-MoE稀疏大模型的训练过程包括:
从多个FFN中选取一部分FFN进行激活,对Expert路由的选择过程对token到FFN的映射模块进行强化;
其中,MoE中的Expert对应的是Transfomrer模型的FFN层。
4.根据权利要求1所述的一种法律文书自动生成系统,其特征在于,所述BERT-BiLSTM-CRF网络模型包括:
BERT层,用于作为预训练模型,训练出位置向量和字向量;
B iLSTM层,用于学习到BERT层预训练输出的向量信息,捕捉到较长距离的依赖关系和上下文语义特征;
Attention层,用于对信息进行处理并分配权重;
CRF层,用于将Attenti on层的输出添加约束计算得到最优结果,转化成序列标签输出最后的预测结果。
5.根据权利要求2所述的一种法律文书自动生成系统,其特征在于,在步骤S1之前,还通过图像调整策略对图像进行调整;
所述图像调整策略包括:
采用若干组图像参数调整策略对图像进行调整,分别对若干组调整后的图像同一测定位置进行OCR识别;
通过若干组OCR识别内容的比对结果选定图像调整策略,将图像按照选定的图像调整策略进行调整后输入至S1。
6.根据权利要求5所述的一种法律文书自动生成系统,其特征在于,所述图像参数调整策略包括:
基于公式y=[x-127.5(1-B)]*k+127.5*(1+B),按照序列(k1、B1)、(k2、B2)、…、(kn、Bn)为阶梯对图像进行调整,获取n组调整后的图像;
其中,y为调整后像素点灰度值;x为调整前像素点灰度值;B∈[-1,1];arctan(k)∈[1,89];
将n组调整后的图像识别结果与1组调整前的图像识别结果进行比对,根据比对结果选择(ki、Bi)调节阶梯下的调整后图像输入至步骤S1;
其中,i∈[1,n]。
7.根据权利要求6所述的一种法律文书自动生成系统,其特征在于,(ki、Bi)的选择过程包括:
获取n组识别内容中相同内容对应的序号序列,获取序号序列中连续序号总数的最大值;
选取最大值连续序号的中间值作为选择结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310547961.3A CN116822477B (zh) | 2023-05-16 | 2023-05-16 | 一种法律文书自动生成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310547961.3A CN116822477B (zh) | 2023-05-16 | 2023-05-16 | 一种法律文书自动生成系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116822477A true CN116822477A (zh) | 2023-09-29 |
CN116822477B CN116822477B (zh) | 2024-04-30 |
Family
ID=88119372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310547961.3A Active CN116822477B (zh) | 2023-05-16 | 2023-05-16 | 一种法律文书自动生成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822477B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118504527A (zh) * | 2024-07-22 | 2024-08-16 | 人民法院信息技术服务中心 | 一种法律文书案由生成方法、装置、设备及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020147611A1 (en) * | 2000-05-22 | 2002-10-10 | Greene William S. | Method and system for realizing a rendezvous service in a management operations center implemented in a global ecosystem of interrelated services |
CN106055528A (zh) * | 2013-07-02 | 2016-10-26 | 福建榕基软件股份有限公司 | 文书自动生成方法及装置 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110807328A (zh) * | 2019-10-25 | 2020-02-18 | 华南师范大学 | 面向法律文书多策略融合的命名实体识别方法及系统 |
CN110910283A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
CN110956026A (zh) * | 2019-11-28 | 2020-04-03 | 北京华宇元典信息服务有限公司 | 法律文书生成方法、生成装置和电子设备 |
CN111274779A (zh) * | 2020-02-29 | 2020-06-12 | 重庆百事得大牛机器人有限公司 | 基于用户体验预测的法律文书生成系统及方法 |
CN112560419A (zh) * | 2020-12-08 | 2021-03-26 | 中国电子科技集团公司第十五研究所 | 一种文书自动生成方法及系统 |
CN113609857A (zh) * | 2021-07-22 | 2021-11-05 | 武汉工程大学 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
CN113903422A (zh) * | 2021-09-09 | 2022-01-07 | 北京邮电大学 | 医疗影像诊断报告实体提取方法、装置及设备 |
CN114048308A (zh) * | 2021-11-03 | 2022-02-15 | 中国司法大数据研究院有限公司 | 一种类案检索报告生成的方法及装置 |
CN114372465A (zh) * | 2021-09-29 | 2022-04-19 | 武汉工程大学 | 基于Mixup和BQRNN的法律命名实体识别方法 |
CN115062104A (zh) * | 2022-05-17 | 2022-09-16 | 北京理工大学 | 融合知识提示的法律文本小样本命名实体识别方法 |
CN115206478A (zh) * | 2022-04-28 | 2022-10-18 | 上海商汤智能科技有限公司 | 医学报告生成方法以及装置、电子设备、可读存储介质 |
CN115579096A (zh) * | 2021-07-06 | 2023-01-06 | 桂林谷科林科技有限公司 | 一种针对药物警戒e2b r3标准报告的自动生成与解析验证方法、系统及存储介质 |
CN115687647A (zh) * | 2022-11-01 | 2023-02-03 | 法信公证云(厦门)科技有限公司 | 公证文书生成方法、装置、电子设备及存储介质 |
-
2023
- 2023-05-16 CN CN202310547961.3A patent/CN116822477B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020147611A1 (en) * | 2000-05-22 | 2002-10-10 | Greene William S. | Method and system for realizing a rendezvous service in a management operations center implemented in a global ecosystem of interrelated services |
CN106055528A (zh) * | 2013-07-02 | 2016-10-26 | 福建榕基软件股份有限公司 | 文书自动生成方法及装置 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110910283A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
CN110807328A (zh) * | 2019-10-25 | 2020-02-18 | 华南师范大学 | 面向法律文书多策略融合的命名实体识别方法及系统 |
CN110956026A (zh) * | 2019-11-28 | 2020-04-03 | 北京华宇元典信息服务有限公司 | 法律文书生成方法、生成装置和电子设备 |
CN111274779A (zh) * | 2020-02-29 | 2020-06-12 | 重庆百事得大牛机器人有限公司 | 基于用户体验预测的法律文书生成系统及方法 |
CN112560419A (zh) * | 2020-12-08 | 2021-03-26 | 中国电子科技集团公司第十五研究所 | 一种文书自动生成方法及系统 |
CN115579096A (zh) * | 2021-07-06 | 2023-01-06 | 桂林谷科林科技有限公司 | 一种针对药物警戒e2b r3标准报告的自动生成与解析验证方法、系统及存储介质 |
CN113609857A (zh) * | 2021-07-22 | 2021-11-05 | 武汉工程大学 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
CN113903422A (zh) * | 2021-09-09 | 2022-01-07 | 北京邮电大学 | 医疗影像诊断报告实体提取方法、装置及设备 |
CN114372465A (zh) * | 2021-09-29 | 2022-04-19 | 武汉工程大学 | 基于Mixup和BQRNN的法律命名实体识别方法 |
CN114048308A (zh) * | 2021-11-03 | 2022-02-15 | 中国司法大数据研究院有限公司 | 一种类案检索报告生成的方法及装置 |
CN115206478A (zh) * | 2022-04-28 | 2022-10-18 | 上海商汤智能科技有限公司 | 医学报告生成方法以及装置、电子设备、可读存储介质 |
CN115062104A (zh) * | 2022-05-17 | 2022-09-16 | 北京理工大学 | 融合知识提示的法律文本小样本命名实体识别方法 |
CN115687647A (zh) * | 2022-11-01 | 2023-02-03 | 法信公证云(厦门)科技有限公司 | 公证文书生成方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
YUNHAI SONG等: ""Instrument Recognition in Transformer Substation Base on Image Recognition Algorithm"", 《2020 5TH ASIA-PACIFIC CONFERENCE ON INTELLIGENT ROBOT SYSTEMS (ACIRS)》, 10 August 2020 (2020-08-10) * |
吴云朝: ""法律文书要素的识别方法研究与实现"", 《中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑》, 15 March 2021 (2021-03-15), pages 120 - 188 * |
李春楠: ""面向法律文书的命名实体识别研究"", 《中国优秀硕士学位论文全文数据库社会科学Ⅰ辑》, 15 January 2022 (2022-01-15), pages 120 - 15 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118504527A (zh) * | 2024-07-22 | 2024-08-16 | 人民法院信息技术服务中心 | 一种法律文书案由生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116822477B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN109508400A (zh) | 图文摘要生成方法 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN116822477B (zh) | 一种法律文书自动生成系统 | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN113051916A (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
US11755636B2 (en) | System and method for text processing for summarization and optimization | |
CN112364125B (zh) | 一种联合阅读课程学习机制的文本信息抽取系统及方法 | |
CN113449081A (zh) | 文本特征的提取方法、装置、计算机设备及存储介质 | |
CN115953788A (zh) | 基于ocr和nlp技术的绿色金融属性智能认定方法及系统 | |
CN115757596A (zh) | 一种通用电力非结构化数据转结构化数据方法 | |
CN115329073A (zh) | 一种基于注意力机制的方面级文本情感分析方法及系统 | |
CN117573842A (zh) | 文档检索方法以及自动问答方法 | |
CN113139751A (zh) | 基于大数据的微服务用户业务类型确定方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116308219B (zh) | 一种基于Tranformer的生成式RPA流程推荐方法及系统 | |
CN117197722A (zh) | 基于移动互联网视频的用户感知与分析系统 | |
CN116595169A (zh) | 一种基于提示学习的煤矿生产领域问答意图分类方法 | |
CN117235271A (zh) | 信息抽取方法、装置、计算机存储介质及电子设备 | |
CN118227770B (zh) | 任务处理方法、法律问答方法及任务处理模型训练方法 | |
CN117807995B (zh) | 一种情绪引导的摘要生成方法、系统、装置及介质 | |
CN116932742A (zh) | 摘要提取方法以及装置 | |
CN113362026B (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |