CN116108171A

CN116108171A - 基于ai循环神经网络深度学习技术的司法材料处理系统

Info

Publication number: CN116108171A
Application number: CN202211631386.7A
Authority: CN
Inventors: 张梁; 蔡述平; 明邦祥; 刘婷; 杨琳; 陆思颖; 周琪
Original assignee: Shenzhen Hongchang Technology Co ltd; Guangdong Branch Of China Post Express Logistics Co ltd
Current assignee: Shenzhen Hongchang Technology Co ltd; Guangdong Branch Of China Post Express Logistics Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-05-12
Anticipated expiration: 2042-12-19
Also published as: CN116108171B

Abstract

本发明提供基于AI循环神经网络深度学习技术的司法材料处理系统，包括：获取模块、智能分析模块和处理模块；其中，获取模块用于获取司法材料的文本特征信息；智能分析模块用于根据获取的文本特征信息，将本文特征信息输入到训练好的司法材料识别模型中，得到司法材料的分类识别结果；处理模块用于根据得到的分类识别结果，完成对司法材料的分类管理。本发明有助于降低司法材料处理过程中的人工成本，提高司法材料的处理效率和数据管理水平。

Description

基于AI循环神经网络深度学习技术的司法材料处理系统

技术领域

本发明涉及深度学习技术领域，特别是基于AI循环神经网络深度学习技术的司法材料处理系统。

背景技术

传统的司法活动过程中，会涉及到如判决文书、诉状文书、起诉文书、检举文书等大量的司法材料，司法材料在递交到相关部门之后，需要交到对应的人员来进行处理，例如，针对不同类型的起诉文书，文件初审流程部门会根据案件类型将起诉文书下派到对应的部门进行处理。

现有技术中，针对司法文书的筛查和分类，通常需要相关人员在查阅内书内容后进行人工分类，这导致了需要耗费大量的人工成本，随着目前案件量的不断递增，当前的人工数量无法应对案件数量的逐步增多，使得案件处理的效率低下。

发明内容

针对上述问题，本发明旨在提供基于AI循环神经网络深度学习技术的司法材料处理系统。

本发明的目的采用以下技术方案来实现：

本发明示出基于AI循环神经网络深度学习技术的司法材料处理系统，包括：获取模块、智能分析模块和处理模块；其中，

获取模块用于获取司法材料的文本特征信息；

智能分析模块用于根据获取的文本特征信息，将本文特征信息输入到训练好的司法材料识别模型中，得到司法材料的分类识别结果；

处理模块用于根据得到的分类识别结果，完成对司法材料的分类管理。

一种实施方式中，获取模块包括电子文档上传单元；

电子文档上传单元用于上传司法材料的电子文档，并根据得到的电子文档的文本数据获取司法材料的文本特征信息。

一种实施方式中，获取模块包括图像获取单元和文本识别单元；其中，

图像获取单元用于拍摄或扫描纸质版的司法材料，获取司法材料图像数据；

文本识别单元用于根据得到的司法材料图像数据进行文本识别处理，得到对应的文本数据，并根据得到的文本数据获取司法材料的文本特征信息。

一种实施方式中，文本识别单元包括：

根据得到的司法材料图像数据进行图像预处理，得到预处理后的司法材料图像，并基于文本识别模型对预处理后的司法材料图像进行处理，提取司法材料图像对应的文本数据，并根据得到的文本数据进行数据清洗、分词、去停用词等处理，得到司法材料的文本特征信息。

一种实施方式中，所述司法材料识别模型基于卷积神经网络进行搭建，其中司法材料识别模型包括输入层、BERT层、循环神经网络层、卷积神经网络层和第一softmax层、第二softmax层和融合输出层；

其中，输入层用于将司法材料的文本特征信息输入到司法材料识别模型中；BERT层于输入层连接，用于对输入的文本特征信息进行语义特征提取，得到每个单词的输出向量并组成语义特征序列矩阵，将得到的语义特征序列矩阵分别输出到循环神经网络层和卷积神经网络层；

循环神经网络层基于BiLSTM网络结构进行搭建，用于根据输入的语义特征序列矩阵进行语义编码，得到各个单词的上下文表示，其中BiLSTM网络的输出设置有Attention层，同通过attention机制为每个单词的上下文表示向量分配权重，并通过加权求和的方式得到文本特征信息的全局语义特征表示；并将得到的全局语义特征表示输入到第一softmax层中进行分类处理，得到第一司法材料分类结果；

卷积神经网络层用于根据输入的语义特征序列矩阵提取文本特征信息的局部特征表示，其中卷积神经网络层中包含卷积层和池化层，其中卷积层设置有不同窗口大小的卷积核，分别对输入的语义特征序列矩阵进行卷积处理，分别得到不同粒度大小的特征图，池化层针对得到的各个特征图进行最大池化操作筛选特征和特征拼接融合得到文本特征信息的局部特征表示；并将得到的局部语义特征表示输入到第二softmax层中进行分类处理，得到第二司法材料分类结果；

融合输出层用于根据得到的第一司法材料分类结果和第二司法材料分类结果进行概率融合，得到并输出最终的司法材料分类识别结果。

一种实施方式中，该系统还包括模型训练模块；

模型训练模块用于训练所述司法材料识别模型，具体包括：

根据司法材料和对应的分类标识构建训练集，并采用训练集对司法材料识别模型进行训练；

采用测试集对训练好的司法材料识别模型进行验证，当测试集的准确率超过设定的标准时，则停止司法材料识别模型的训练并输出训练好的司法材料识别模型。

一种实施方式中，处理模块包括标识单元和分类管理单元；

标识单元用于根据得到的司法材料分类识别结果对相应的司法材料进行分类标记；

分类管理单元用于根据司法材料的分类标记对司法材料进行分类归档处理。

本发明的有益效果为：本发明系统首先提取司法材料的文本特征信息，通过基于深度学习训练的司法材料识别模型对司法材料进行自适应的分类处理，能够实现司法材料的智能化分类，并根据得到的分类结果对司法材料进行标识和分类管理，有助于降低司法材料处理过程中的人工成本，提高司法材料的处理效率和数据管理水平。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明基于AI循环神经网络深度学习技术的司法材料处理系统的框架结构图；

图2为本发明智能分析模块中司法材料识别模型的结构示意图。

具体实施方式

结合以下应用场景对本发明作进一步描述。

参见图1实施例所示基于AI循环神经网络深度学习技术的司法材料处理系统，包括：获取模块、智能分析模块和处理模块；其中，

获取模块用于获取司法材料的文本特征信息；

其中，司法材料包括司法文书材料、判决文书、诉状文书、起诉文书、检举文书等。

本发明上述实施方式，首先提取司法材料的文本特征信息，通过基于深度学习训练的司法材料识别模型对司法材料进行自适应的分类处理，能够实现司法材料的智能化分类，并根据得到的分类结果对司法材料进行标识和分类管理，有助于降低司法材料处理过程中的人工成本，提高司法材料的处理效率和数据管理水平。

一种场景中，通过司法材料识别模型，能够对司法材料进行自适应的分类处理，其中得到的分类识别结果包括司法材料的类型、所属领域分类、裁判文书分类等中的一项或多项。

其中，本发明系统能够基于本地智能终端设置，也能够通过saas云服务器等进行设置，本发明在此不做具体限定。

一种实施方式中，获取模块包括电子文档上传单元；

其中，通过电子文档上传单元，能够直接将司法材料的电子文档输入到系统中，其中电子文档的形式可以包括文本形式、表格形式或图片形式的电子文档，由电子文档上传单元获取电子文档后，根据电子文档进行文本提取，得到对应的文本数据，并根据得到的文本数据获取司法材料的文本特征信息。

一种场景中，针对文本形式的电子文档，系统能够直接获取电子文档中的文本内容，并根据得到的文本内容进行数据清洗、分词、去停用词等处理，得到司法材料的文本特征信息。

针对纸质版的司法材料，能够通过拍摄或扫描的方式来首先获取纸质材料的图像数据，并根据得到的图像数据进一步进行文本识别处理，提取对应的文本数据，并根据得到的文本数据获取司法材料的文本特征信息。上述实施方式能够适应纸质司法材料的内容输入，提高了系统适应的适应性。

一种实施方式中，文本识别单元包括：

其中，在得到司法材料对应文本数据后，还首先根据得到的文本数据进行数据清洗、分词、去停用词等处理，其中通过数据清洗能够有效去除文本数据中的噪声数据，提高文本质量；通过分词处理能够将文本内容切分成词或者词语进行重新组合成词序列；去停用词处理能够将大量重复但是不影响司法材料文书内容的词语(例如没有实质意义的词语或者标点符号等)进行去除；通过上述首先对文本数据进行预处理的方式得到文本特征信息，有助于提高文本特征信息的质量。

一种场景中，图像获取单元与摄像头或者扫描仪连接，通过摄像头或扫描仪通过拍摄或者扫描的方式获取纸质版司法材料的图像数据。

一种场景中，文本识别单元可以采用如百度AI引擎，或者专用的图像文本识别引擎来提取司法材料图像对应的文本数据，本申请对此不作具体限定。

针对扫描单元对纸质版的司法材料进行拍摄或者扫描获取司法材料图像数据的过程中，容易受到光照等因素的影响，从而导致得到的司法材料图像数据清晰度不高的情况，影响后续进一步根据图像数据进行文本提取的准确度。

一种实施方式中，文本识别单元包括图像预处理单元；

图像预处理单元用于根据得到的司法材料图像数据进行图像预处理，得到预处理后的司法材料图像，具体包括：

根据得到的司法材料图像，采用db2小波基对司法材料图像进行小波分解，得到司法材料图像的低频小波系数和高频小波系数；

针对得到的高频小波系数进行滤波处理，其中采用的滤波处理函数为：

式中，

表示滤波处理后的高频小波系数，w(j,k)表示高频小波系数，其中j表示当前分解层数，k表示高频小波系数的序号，WT1和WT2表示设定的比较参量，其中

med(w(j))表示第j分解尺度中各高频小波系数的中位数，WT2＝β1×WT1；β1表示通道调节因子，其中0.3<β1<0.6；α1表示设定的抑制调节因子，其中0.1<α1<0.5，α2表示设定的过渡调节因子，其中α2＝β2×α1，其中β2表示幅度调节因子，其中0.5<β1<0.8；α3表示设定的补偿调节因子，其中0.1<α3<0.2；

根据滤波处理后的高频小波系数进行重构，得到滤波处理后的高频分量子图像；

根据得到的低频小波系数进行重构，得到低频分量子图像；

根据低频分量子图进行特征提取，其中采用的特征提取函数为：

式中，Y(x,y)表示像素点(x,y)的二值特征，其中将符合Y(x,y)＝1的像素点标记为一类像素点，符合Y(x,y)＝0的像素点标记为二类像素点，其中h(x,y)表示低频分量子图中像素点的灰度值，hT1表示设定的第一灰度值对比参量，70<hT1<100，

表示像素点(a,b)为以像素点(x,y)中心的邻域范围内的像素点，d表示邻域范围的边长，

表示向上取整函数，hT2表示第二灰度值对比参量，其中50<hT2<60；

针对得到的低频分量子图像，将其从RGB颜色空间变换到HSV颜色空间，提取低频分量子图像的色调分量子图H、饱和度分量子图S和亮度分量子图V；

针对得到的亮度分量子图V进行亮度调节处理，具体包括：

采用尺寸大小为d×d的亮度调节窗口依次遍历子图中的各像素点，其中d表示亮度调节窗口的宽度，其中d＝3,5,7，其中采用的亮度调节窗口函数为：

式中，

表示经过亮度调节窗口遍历处理后，其中心像素点(x,y)的亮度分量值，

表示当前亮度调节窗口中一类像素点的数量，

表示像素点(a,b)为亮度调节窗口内的像素点，Y(a,b)表示像素点的二值特征，vR1表示设定的第一标准亮度值，其中，0.5<hT1<0.6，vR2表示设定的第二标准亮度值，其中0.4<hT1<0.5，μ1和μ2表示调节因子，其中μ1+μ2＝1，0.7<μ1<0.8，μ3和μ4表示调节因子，其中μ3+μ4＝1，0.6<μ3<0.7；

依次采用亮度调节窗口遍历亮度分量子图中各像素点，对各像素点进行亮度调节，当完成一次遍历后进行条件判断：1)当前循环次数到达设定的最大循环值NX；2)检测当前亮度分量子图中各像素点的亮度分量值，得到

其中

和

分别表示当前亮度子图中各像素点的亮度分量最大值和亮度分量最小值，VX表示设定的变化标准值，其中0.15<VX<0.2；

当检测到符合上述其中一个判断条件时，结束亮度分量子图的亮度调节过程，输出当前的亮度分量子图V’，否则，当检测到上述两个判断条件都不符合时，则记循环次数k＝k+1,并重新开始采用寸大小为d×d的亮度调节窗口依次遍历子图中的各像素点；

根据输出的亮度分量子图V’和色调分量子图H、饱和度分量子图S，重新变换到RGB颜色空间，得到亮度调节后的低频分量子图；

根据亮度调节后的低频分量子图和滤波处理后的高频分量子图像进行重构，得到预处理后的司法材料图像。

本发明上述实施方式，针对扫描或者拍摄的司法材料图像容易受到阴影或者亮度不均匀，从而影响司法材料图像清晰度的情况，特别在文本识别单元中设置图像预处理单元来对获取的司法材料图像进行预处理，其中提出了一种针对司法材料图像进行预处理的技术方案，该方案中，首先基于小波分解提取图像的高频分量和低频分量，针对图像细节信息集中的高频分量，提出了一种自适应的滤波处理函数，能够针对高频小波系数进行调节处理，其中在滤波的过程中，特别加入了缓冲通道的滤波部分，能够有助于在去除图像噪声干扰的时候，尽可能地保留图像中的细节信息(如边缘信息等)，提高图像质量；同时针对得到的低频分量，首先根据图像的文字部分特征来进行特征提取，提取图像中的文字信息部分来给像素点进行分类；并将低频分量子图转换到HSV颜色空间，基于得到的亮度分量V进行亮度调节，其中提出了一种采用亮度调节窗口遍历像素点的方案来对图像的局部亮度特征进行调节，其中得亮度调节的过程中，特别考虑到像素点的分类特征来进行区别调节，有助于提高图像中文本信息部分的亮度水平，提高图像中文字信息部分的清晰度，同时采用迭代重复的方式对图像进行遍历，有助于针对图像中的亮度不均匀的部分(如阴影、反光等)进行均衡处理，以使得调节图像的整体亮度水平，最后根据亮度调节后的低频分量和滤波处理后的高频分量进行重构的到预处理后的司法图像数据，有助于提高了司法材料图像中的整体清晰度，并提高了图像中文本信息部分的对比度，有助于提高后续根据司法材料图像进行文本提取和文本识别的准确度。

一种实施方式中，参见图2，所述司法材料识别模型基于卷积神经网络进行搭建，其中司法材料识别模型包括输入层、BERT层、循环神经网络层、卷积神经网络层和第一softmax层、第二softmax层和融合输出层；

根据本发明上述实施方式，系统采用基于循环神经网络搭建的司法材料识别模型，其中模型中首先通过Bert层来获取文本特征信息中每个词的向量表示，并根据得到的向量特征构建语义特征序列矩阵，能够准确反应文本特征信息中每个词语的特征表征能力；根据得到的语义特征序列矩阵，其中本发明提出的司法材料识别模型特别采用并行设计的循环神经网络层和卷积神经网络层来分别对得到的语义特征序列矩阵进行特征提取。其中循环神经网络层基于BiLSTM网络结构进行搭建，BiLSTM通过前向和后向的LSTM来获得语义特征序列矩阵的状态向量，并将得到的状态向量组合作为对应单词的上下文表示，根据得到的上下文表示，进一步通过attention层来自适应设置每个词的权重分配来表征词语的重要程度，最后通过加权求和的方式得到文本特征信息的全局语义特征表示，根据得到的全局语义特征表示采用第一softmax层进行分类，得到基于全局特征的分类识别结果。其中卷积神经网络层根据得到的语义特征序列矩阵进行局部特征提取，其中在卷积层中设置不同尺寸的卷积核来继续特征提取，能够适应文本信息中不同词组长度的特征提取需求，并通过最大池化操作筛选出文本特征的局部特征表示，根据得到的局部语义特征表示采用第二softmax层进行分类，得到基于局部特征的分类识别结果。最终采用融合输出层来将两个softmax层的分类结果进行融合，得到最终的分类识别预测结果。采用本发明提出的司法材料识别模型来对司法材料进行全局特征和局部特征的提取，并根据得到的全局特征和局部特征进行智能化的分类识别处理，得到最终的分类识别结果，能够有助于提高司法材料分类的准确性和效率。

一种场景中，融合输出层输出根据各个分类的预测概率，将最高概率对应的分类作为司法材料分类识别结果。

一种实施方式中，该系统还包括模型训练模块；

模型训练模块用于训练所述司法材料识别模型，具体包括：

一种场景中，根据大量的司法材料和对应的分类标识构建训练集和测试集，能够提高深度学习模型训练的效果。其中，训练集和测试集的数量为2：1；当采用训练集完成阶段性的模型训练后，采用测试集来对模型的性能进行验证，并根据验证结果对模型的权重参数进行微调；当根据测试集测试得到模型的精确度超过预设的标准时，则停止模型的训练并输出训练好的司法材料识别模型。

一种场景中，司法材料识别模型还需要采用更新的训练集和测试集进行定期的更新，以保证司法材料识别模型的准确度和适应性。

一种实施方式中，处理模块包括标识单元和分类管理单元；

根据得到的司法材料分类识别结果，对输入的司法材料进行分类标识，并将标识后的司法材料进行分类归档，有助于后续根据司法材料完成进一步的指派或存储管理，能够适应不同应用场景下司法材料处理的需求，提高了司法材料处理的效率。

需要说明的是，在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元/模块中，也可以是各个单元/模块单独物理存在，也可以是两个或两个以上单元/模块集成在一个单元/模块中。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件功能单元/模块的形式实现。

通过以上的实施方式的描述，所属领域的技术人员应当理解，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时，可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当分析，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.基于AI循环神经网络深度学习技术的司法材料处理系统，其特征在于，包括：获取模块、智能分析模块和处理模块；其中，

获取模块用于获取司法材料的文本特征信息；

2.根据权利要求1所述的基于AI循环神经网络深度学习技术的司法材料处理系统，其特征在于，获取模块包括电子文档上传单元；

3.根据权利要求2所述的基于AI循环神经网络深度学习技术的司法材料处理系统，其特征在于，获取模块包括图像获取单元和文本识别单元；其中，

4.根据权利要求3所述的基于AI循环神经网络深度学习技术的司法材料处理系统，其特征在于，文本识别单元包括：

5.根据权利要求1所述的基于AI循环神经网络深度学习技术的司法材料处理系统，其特征在于，所述司法材料识别模型基于卷积神经网络进行搭建，其中司法材料识别模型包括输入层、BERT层、循环神经网络层、卷积神经网络层和第一softmax层、第二softmax层和融合输出层；

6.根据权利要求5所述的基于AI循环神经网络深度学习技术的司法材料处理系统，其特征在于，还包括模型训练模块；

模型训练模块用于训练所述司法材料识别模型，具体包括：

7.根据权利要求1所述的基于AI循环神经网络深度学习技术的司法材料处理系统，其特征在于，处理模块包括标识单元和分类管理单元；