CN116822477A

CN116822477A - 一种法律文书自动生成系统

Info

Publication number: CN116822477A
Application number: CN202310547961.3A
Authority: CN
Inventors: 华涛; 周志明; 李莹莹
Original assignee: Zhejiang Fazhidao Information Technology Co ltd
Current assignee: Zhejiang Fazhidao Information Technology Co ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-09-29
Anticipated expiration: 2043-05-16
Also published as: CN116822477B

Abstract

本发明涉及法律文本生成技术领域，具体公开了一种法律文书自动生成系统，所述系统包括操作终端，服务器和服务终端，所述服务器包括：模板匹配模块，用于对操作终端输入的法律文本描述信息进行识别，获取关键词，根据关键词匹配数据库中留存的对应文书模板；解析识别模块，用于对操作终端输入的材料数据进行解析识别；重要案由生成模块，用于根据获得的结构化数据，通过GPT‑MoE稀疏大模型生成当前案件的重要案由信息；实体命名模块，用于根据操作终端输入的材料数据，通过BERT‑BiLSTM‑CRF网络模型识别获取法律文书中的命名实体；文书生成模块，将获得的重要案由信息及命名实体按照对应文书模板进行填充，生成法律文书。

Description

一种法律文书自动生成系统

技术领域

本发明涉及法律文本生成技术领域，具体为一种法律文书自动生成系统。

背景技术

法律文书定制流程主要依靠咨询法务与用户进行长时间的信息交互，针对不同法律案件收集相关证据材料，根据获取的证据材料与用户诉求梳理案件重要信息，然后将图片、纸质文档、聊天信息等各种材料手动填充进法律文书中，生成一份具有法律效用的文本；但面对各种场景的法律文书定制化需求，从咨询过程中提取信息、审核证据材料、手动撰写法律文书这种方式不但对法务有较高的专业性与经验要求，而且面对大量用户时这种方式效率低、成本高、流程复杂。

现有技术中的法律文书生成系统主要通过对证据资料的获取及识别，按照预先的文本定义及逻辑拼接，将识别的内容对应的放置于法律文本的对应位置，生成法律文书。

然而，上述现有的法律文书生成系统需要对资料进行预先处理，保证资料能够被识别；其次，此种方式生成的法律文书格式单一且仅仅能够对基础信息进行自动生成，对于较为复杂的内容无法进行采集和判断，进而使得文本生成的内容专业性较差。

发明内容

本发明的目的在于提供一种法律文书自动生成系统，解决以下技术问题：

如何智能填充法律文书所需信息、自动优化文书格式与措辞、实现个性化定制文书模板的需求。

本发明的目的可以通过以下技术方案实现：

一种法律文书自动生成系统，所述系统包括操作终端，服务器和服务终端，所述服务器包括：

模板匹配模块，用于对操作终端输入的法律文本描述信息进行识别，获取关键词，根据关键词匹配数据库中留存的对应文书模板；

解析识别模块，用于对操作终端输入的材料数据进行解析识别；

所述解析识别的过程包括：

将卷积神经网络CRNN作为特征提取器，CTC作为解码器，对材料数据进行解析，获得结构化数据；

重要案由生成模块，用于根据获得的结构化数据，通过GPT-MoE稀疏大模型生成当前案件的重要案由信息；

实体命名模块，用于根据操作终端输入的材料数据，通过BERT-BiLSTM-CRF网络模型识别获取法律文书中的命名实体；

文书生成模块，将获得的重要案由信息及命名实体按照对应文书模板进行填充，生成法律文书。

进一步地，所述卷积神经网络CRNN由一个CNN和一个BiLSTM组成，且BiLSTM为stack形深层双向LSTM结构；

CRNN特征提取器与CTC解码对材料数据进行解析的过程包括：

S1、使用深度CNN对输入图像提取特征，得到特征图；

S2、将特征图维度转化为若干个特征序列，使用BiLSTM对特征序列进行预测，并对序列中的每个特征向量进行学习，输出预测标签分布；

S3、CTC解码器使用CTC的损失函数来对CNN和RNN进行端到端的联合训练，将预测标签分布转换成最终的标签序列，输出结构化数据。

进一步地，所述重要案由信息的生成过程包括：

SS1、调用训练完成的BPE分词器对输入数据进行分词；

所述BPE分词器的训练过程包括：

基于海量法律文书作为BPE分词器的训练数据，在大规模语料中按照上下文统计特征提炼出中文单个汉字构成的大颗粒度词组，获得BPE分词器；

SS2、调用训练完成的GPT-MoE稀疏大模型，输入文本信息生成当前事件中的重要案由信息；

所述GPT-MoE稀疏大模型的训练过程包括：

从多个FFN中选取一部分FFN进行激活，对Expert路由的选择过程对token到FFN的映射模块进行强化；

其中，MoE中的Expert对应的是Transfomrer模型的FFN层。

进一步地，所述BERT-BiLSTM-CRF网络模型包括：

BERT层，用于作为预训练模型，训练出位置向量和字向量；

BiLSTM层，用于学习到BERT层预训练输出的向量信息，捕捉到较长距离的依赖关系和上下文语义特征；

Attention层，用于对信息进行处理并分配权重；

CRF层，用于将Attention层的输出添加约束计算得到最优结果，转化成序列标签输出最后的预测结果。

进一步地，在步骤S1之前，还通过图像调整策略对图像进行调整；

所述图像调整策略包括：

采用若干组图像参数调整策略对图像进行调整，分别对若干组调整后的图像同一测定位置进行OCR识别；

通过若干组OCR识别内容的比对结果选定图像调整策略，将图像按照选定的图像调整策略进行调整后输入至S1。

进一步地，所述图像参数调整策略包括：

基于公式y＝[x-127.5(1-B)]*k+127.5*(1+B)，按照序列(k₁、B₁)、(k₂、B₂)、…、(k_n、B_n)为阶梯对图像进行调整，获取n组调整后的图像；

其中，y为调整后像素点灰度值；x为调整前像素点灰度值；B∈[-1，1]；arctan(k)∈[1，89]；

将n组调整后的图像识别结果与1组调整前的图像识别结果进行比对，根据比对结果选择(k_i、B_i)调节阶梯下的调整后图像输入至步骤S1；

其中，i∈[1，n]。

进一步地，(k_i、B_i)的选择过程包括：

获取n组识别内容中相同内容对应的序号序列，获取序号序列中连续序号总数的最大值；

选取最大值连续序号的中间值作为选择结果。

本发明的有益效果：

(1)本发明通过深度学习、强化学习从法务与用户的沟通交互中学习并梳理、理解沟通交流信息与证据材料的意图，自动生成法律案由和专业用语后填充进法律文书模板中，将法务咨询、证据审核、法律文书定制环节一体化连接，实现法律文书的智能生产过程。

(2)本发明通过设置图像参数调整策略，可以针对一些图片不清晰的问题进行适应性调整，进而最大程度的提高内容识别内容的准确性。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明法律文书自动生成系统的逻辑框图；

图2是本发明CRNN特征提取器与CTC解码对材料数据进行解析的步骤流程图；

图3是本发明重要案由信息的生成的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，在一个实施例中，提供了一种法律文书自动生成系统，所述系统包括操作终端，服务器和服务终端，所述服务器包括：

所述解析识别的过程包括：

通过上述技术方案，本实施例给出的法律文本生成系统融合自然语言理解与处理、图像处理、计算机视觉、深度学习、大数据技术等，利用OCR(OpticalCharacterRecognition)文字技术识别图片等非文本证据材料，提取法务与用户沟通交互过程中的关键信息与相关证据链中的重点信息，然后利用获取到的信息数据，通过深度学习、强化学习从法务与用户的沟通交互中学习并梳理、理解沟通交流信息与证据材料的意图，自动生成法律案由和专业用语后填充进法律文书模板中，将法务咨询、证据审核、法律文书定制环节一体化连接，实现法律文书的智能生产过程。

具体的，系统包括操作终端、服务器和服务终端，操作终端与服务器通过网络相连接，服务终端与服务器通过网络相连接；操作终端用于法务人员输入法律文书的描述信息，上传包含证据材料、聊天信息的文档压缩包；在操作终端发出后由服务器进行接收处理；服务器将最终生成的法律文书提交到服务终端，交由咨询法务审查，审查无误即为一篇专业性法律文书；在服务器分析的过程中，通过设置模板匹配模块、解析识别模块、重要案由生成模块、实体命名模块及文书生成模块来完成法律文本的生产过程，在服务器接收到法务人员输入法律文书的描述信息，比如“起诉状，对方欠钱不还”等，模板匹配模块对文本描述信息切词后匹配数据库中留存的标准欠款起诉状文书模板，进而实现对应文书模板的匹配；在服务器收到法务上传的证据材料、聊天信息的文档压缩包之后，会解压当前压缩包，该文档包含的证据材料与聊天信息大多是图片，可能包含一些doc、Pdf等，图片中包含手写体、图章、手印等；因此通过解析识别模块将doc、Pdf文档直接解析成结构化数据，利用卷积循环神经网络CRNN(ConvolutionalRecurrentNeuralNetwork)作为特征提取器，CTC(ConnectionistTemporalClassification)作为解码器对图片进行文字识别；再通过重要案由生成模块，将解析文本信息数据作为输入，以GPT文本生成模型为底座；为提升文本生成任务的高效能、降低延时，通过构建基于混合专家网络(MixtureofExperts，MoE)的GPT大模型对行业数据进行训练、推理，利用训练好的中文稀疏GPT大模型生成当前案件描述、法律条文等重要案由信息填充进法律文书中，进而生成当前案件的重要案由信息；通过实体命名模块，将从图片以及文档中获取的数据作为输入数据，通过融合注意力机制的BERT-BiLSTM-CRF网络模型对法律行业标准对法律文书中需要填充的一些实体，比如合同名称、地址、机构名、金额、时间等进行命名实体识别与填充；获取法律文书中的命名实体；最后再通过文书生成模块，将获得的重要案由信息及命名实体按照对应文书模板进行填充，生成法律文书；通过上述过程，进而能够通过深度学习、强化学习从法务与用户的沟通交互中学习并梳理、理解沟通交流信息与证据材料的意图，自动生成法律案由和专业用语后填充进法律文书模板中，将法务咨询、证据审核、法律文书定制环节一体化连接，实现法律文书的一键生成。

作为本发明的一种实施方式，所述卷积神经网络CRNN由一个CNN和一个BiLSTM组成，且BiLSTM为stack形深层双向LSTM结构；

请参阅图2所示，CRNN特征提取器与CTC解码对材料数据进行解析的过程包括：

S1、使用深度CNN对输入图像提取特征，得到特征图；

通过上述技术方案，本实施例中的卷积神经网络CRNN由一个CNN和一个BiLSTM组成，且BiLSTM为stack形深层双向LSTM结构；其中，CRNN特征提取器与CTC解码流程如下：S1、使用深度CNN对输入图像提取特征，得到特征图，假设输入图像尺寸为32x100x3，经过CNN转换成1x25x512；S2。使用双向RNN(BiLSTM)对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签(真实值)分布，即将步骤1中的CNN输出维度转换为25个1x512的序列，送入深层双向LSTM中，得到CRNN的输出特征，维度转换成为25xn(n是字符集合总数)；S3、CTC解码器使用CTC的损失函数来对CNN和RNN进行端到端的联合训练。具体来讲，是计算CTCloss(转录层)，使用CTC损失，把从循环层获取的一系列标签分布转换成最终的标签序列，最后输出图片中的结构化文本信息数据；通过上述CRNN特征提取器与CTC解码流程，进而能够实现对资料的解析过程。

作为本发明的一种实施方式，请参阅图3所示，所述重要案由信息的生成过程包括：

SS1、调用训练完成的BPE分词器对输入数据进行分词；

所述BPE分词器的训练过程包括：

所述GPT-MoE稀疏大模型的训练过程包括：

其中，MoE中的Expert对应的是Transfomrer模型的FFN层。

通过上述技术方案，给出了一种重要案由信息的具体生成过程，SS1、BPE(BytePairEncoding)分词，利用数据库中留存的数十万级法律文书作为BPE分词器的训练数据，训练出一个法律行业的中文分词工具，它能够从大规模语料中按照上下文统计特征提炼出中文单个汉字构成的大颗粒度词组；使用时，调用训练好的BPE分词器对输入数据进行分词。2、GPT-MoE稀疏大模型，MoE中的Expert对应的是Transfomrer模型的FFN层，对稀疏GPT大模型进行训练时从多个FFN中选取一部分FFN进行激活，对Expert路由选择也就是到token到FFN的映射模块进行强化，让该模块在做映射路径选择的时候更加保持平衡，可以在不增加计算强度(FLOPS/Bytes)的情况下，通过增加FFN的数量进而增加模型参数量级来提升模型在下游任务上的性能；使用时，调用训练好的GPT-MoE稀疏大模型，输入文本信息自动生成当前事件中的重要案由信息；通过上述过程，进而实现重要案由信息的生成。

作为本发明的一种实施方式，所述BERT-BiLSTM-CRF网络模型包括：

BERT层，用于作为预训练模型，训练出位置向量和字向量；

Attention层，用于对信息进行处理并分配权重；

通过上述技术方案，本实施例中的BERT-BiLSTM-CRF网络模型包括：BERT层，作为预训练模型，可以更好地训练出位置向量和字向量；BiLSTM层，能够学习到BERT层预训练输出的向量信息，更好地捕捉到较长距离的依赖关系和上下文语义特征；Attention层可以在有限的资源下快速、准确地处理信息，分配权重；CRF层将Attention层的输出添加约束计算得到最优结果，转化成序列标签输出最后的预测结果；进而通过形成的BERT-BiLSTM-CRF网络模型对法律行业标准对法律文书中的实体进行填充。

作为本发明的一种实施方式，在步骤S1之前，还通过图像调整策略对图像进行调整；

所述图像调整策略包括：

作为本发明的一种实施方式，本实施例在识别前，通过设置图像参数调整策略，可以针对一些图片不清晰的问题进行适应性调整，进而最大程度的提高内容识别内容的准确性，具体地，采用若干组图像参数调整策略对图像进行调整，分别对若干组调整后的图像同一测定位置进行OCR识别；通过若干组OCR识别内容的比对结果选定图像调整策略，将图像按照选定的图像调整策略进行调整后输入至S1，进而能够综合多组识别结果选取最佳的图像调整策略，提高内容识别内容的准确性。

需要说明的是，OCR识别的测定位置可按照内容的识别顺序选择最先识别的若干的字符作为参考，在此不作进一步限制。

作为本发明的一种实施方式，所述图像参数调整策略包括：

其中，i∈[1，n]。

(k_i、B_i)的选择过程包括：

选取最大值连续序号的中间值作为选择结果。

通过上述技术方案，本实施例给出了具体的图像参数调整策略，基于公式y＝[x-127.5(1-B)]*k+127.5*(1+B)，预先划分n组调整参数，其中，k能够对亮度参数进行调整；B能够对对比度参数进行调整；进而将n组调整后的图像识别结果与1组调整前的图像识别结果进行比对，获取n组识别内容中相同内容对应的序号序列，获取序号序列中连续序号总数的最大值；选取最大值连续序号的中间值作为选择结果，进而根据比对结果选择(k_i、B_i)调节阶梯下的调整后图像输入至步骤S1；获取针对该识别内容最佳的图像调整策略，最大程度的提高内容识别内容的准确性。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种法律文书自动生成系统，所述系统包括操作终端，服务器和服务终端，其特征在于，所述服务器包括：

所述解析识别的过程包括：

2.根据权利要求1所述的一种法律文书自动生成系统，其特征在于，所述卷积神经网络CRNN由一个CNN和一个B iLSTM组成，且BiLSTM为stack形深层双向LSTM结构；

CRNN特征提取器与CTC解码对材料数据进行解析的过程包括：

S1、使用深度CNN对输入图像提取特征，得到特征图；

3.根据权利要求1所述的一种法律文书自动生成系统，其特征在于，所述重要案由信息的生成过程包括：

SS1、调用训练完成的BPE分词器对输入数据进行分词；

所述BPE分词器的训练过程包括：

所述GPT-MoE稀疏大模型的训练过程包括：

其中，MoE中的Expert对应的是Transfomrer模型的FFN层。

4.根据权利要求1所述的一种法律文书自动生成系统，其特征在于，所述BERT-BiLSTM-CRF网络模型包括：

BERT层，用于作为预训练模型，训练出位置向量和字向量；

B iLSTM层，用于学习到BERT层预训练输出的向量信息，捕捉到较长距离的依赖关系和上下文语义特征；

Attention层，用于对信息进行处理并分配权重；

CRF层，用于将Attenti on层的输出添加约束计算得到最优结果，转化成序列标签输出最后的预测结果。

5.根据权利要求2所述的一种法律文书自动生成系统，其特征在于，在步骤S1之前，还通过图像调整策略对图像进行调整；

所述图像调整策略包括：

6.根据权利要求5所述的一种法律文书自动生成系统，其特征在于，所述图像参数调整策略包括：

其中，i∈[1，n]。

7.根据权利要求6所述的一种法律文书自动生成系统，其特征在于，(k_i、B_i)的选择过程包括：

选取最大值连续序号的中间值作为选择结果。