CN111078871A

CN111078871A - 一种基于人工智能的合同自动分类的方法及系统

Info

Publication number: CN111078871A
Application number: CN201911147060.5A
Authority: CN
Inventors: 范有文; 李如先; 谭江龙
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-04-28

Abstract

本发明公开了一种基于人工智能的合同自动分类的方法及系统，其中方法包括：通过卷积神经网络提取图片合同中每页的文本信息；根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类。本发明能够将每页图片合同进行自动归类，无需人工参与，准确度高，速度快。

Description

一种基于人工智能的合同自动分类的方法及系统

技术领域

本发明涉及信息化服务技术领域，更具体地说是一种基于人工智能的合同自动分类的方法及系统。

背景技术

在市场经济中，公司日常经营中合同扮演了越来越重要的角色，如何在日常经营中防范合同风险显得尤为重要。

目前有很多图片保存的贸易合同，在使用的时候，由于没有任何有关内容的标记，所以需要人工进行分类，归档成封页、首页、价款页、说明页、签字页等不同类别。但人工操作不仅容易出错，而且速度效率低下。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于人工智能的合同自动分类的方法及系统。

为实现上述目的，本发明采用以下技术方案：一种基于人工智能的合同自动分类的方法，所述方法包括：

通过卷积神经网络提取图片合同中每页的文本信息；

根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类。

其进一步技术方案为：所述通过卷积神经网络提取图片合同中每页的文本信息的步骤，具体包括以下步骤：

获取待识别的每页的图片合同；

根据预先训练好的卷积神经网络模型的输入层定义，对每页的图片合同进行预处理，得到处理后的每页的原始文字图像；

根据卷积神经网络模型的卷积层定义，对每页的原始文字图像进行文字的特征提取和特征组合，得到每页的原始文字图像对应的N*N的文字特征矩阵，其中，N为正整数；

针对每个文字特征矩阵，根据卷积神经网络模型的池化层定义，对文字特征矩阵进行特征降维处理，得到降维后的1*1的目标特征矩阵，并将1*1的目标特征矩阵中的目标特征值，作为一维目标序列点；

将每页的每个原始文字图像对应的一维目标序列点组成的合集，作为一维目标特征序列；

在预先训练好的循环神经网络模型中，对一维目标特征序列进行识别，输出一维目标特征序列对应的目标文字数据。

进一步技术方案为：所述根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类的步骤，具体包括以下步骤：

读取每页的文本信息；

抓取每页文本信息中反应其文本特点的关键词；

将每页抓取的关键词进行词义分析，确定该页所属的标签类别。

进一步技术方案为：所述标签类别包括：合同封面页、合同首页、合同价款页以及合同签字页。

进一步技术方案为：所述根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类的步骤之后，包括以下步骤：

根据分类结果将所属同一种标签类别的页面整合成表格并展示。

一种基于人工智能的合同自动分类的系统，包括提取单元以及分类单元；

所述提取单元，用于通过卷积神经网络提取图片合同中每页的文本信息；

所述分类单元，用于根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类。

进一步技术方案为：所述提取单元包括获取模块、预处理模块、特征提取模块、特征降维模块、序列生成模块以及文字识别模块；

所述获取模块，用于获取待识别的每页的图片合同；

所述预处理模块，根据预先训练好的卷积神经网络模型的输入层定义，对每页的图片合同进行预处理，得到处理后的每页的原始文字图像；

所述特征提取模块，用于根据卷积神经网络模型的卷积层定义，对每页的原始文字图像进行文字的特征提取和特征组合，得到每页的原始文字图像对应的N*N的文字特征矩阵，其中，N为正整数；

所述特征降维模块，用于针对每个文字特征矩阵，根据卷积神经网络模型的池化层定义，对文字特征矩阵进行特征降维处理，得到降维后的1*1的目标特征矩阵，并将1*1的目标特征矩阵中的目标特征值，作为一维目标序列点；

所述序列生成模块，用于将每页的每个原始文字图像对应的一维目标序列点组成的合集，作为一维目标特征序列；

所述文字识别模块，用于在预先训练好的循环神经网络模型中，对一维目标特征序列进行识别，输出一维目标特征序列对应的目标文字数据。

进一步技术方案为：所述分类单元包括读取模块、抓取模块以及词义分析模块；

所述读取模块，用于读取每页的文本信息；

所述抓取模块，用于抓取每页文本信息中反应其文本特点的关键词；

所述词义分析模块，用于将每页抓取的关键词进行词义分析，确定该页所属的标签类别。

进一步技术方案为：还包括整合单元；

所述整合单元，用于根据分类结果将所属同一种标签类别的页面整合成表格并展示。

本发明与现有技术相比的有益效果是：本发明提供的一种基于人工智能的合同自动分类的方法，通过卷积神经网络提取图片合同中每页的文本信息；根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类，能够将每页图片合同进行自动归类，无需人工参与，准确度高，速度快。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂，以下特举较佳实施例，详细说明如下。

附图说明

图1为本发明一种基于人工智能的合同自动分类的方具体实施例的流程图一；

图2为本发明一种基于人工智能的合同自动分类的方具体实施例的流程图二；

图3为本发明一种基于人工智能的合同自动分类的方具体实施例的流程图三；

图4为本发明一种基于人工智能的合同自动分类的系统体实施例的示意性框图一；

图5为本发明一种基于人工智能的合同自动分类的系统体实施例的示意性框图二；

图6为本发明一种基于人工智能的合同自动分类的系统体实施例的示意性框图三。

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本发明提供了一种基于人工智能的合同自动分类的方法，请参考图1，该方法包括以下步骤：

S10、通过卷积神经网络提取图片合同中每页的文本信息；

S20、根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类；

S30、根据分类结果将所属同一种标签类别的页面整合成表格并展示。

通过卷积神经网络提取图片合同中每页的文本信息；根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类，能够将每页图片合同进行自动归类，无需人工参与，准确度高，速度快。

进一步的，请参考图2，步骤S10具体包括以下步骤：

S101、获取待识别的每页的图片合同。

具体地，获取待识别的每页的图片合同的方式具体可以是手动导入或者自动定时从本地数据库中获取，还可以是其他获取方式，此处不做限制。优选地，本实施例采用的获取方式是自动定时获取。

S102、根据预先训练好的卷积神经网络模型的输入层定义，对每页的图片合同进行预处理，得到处理后的每页的原始文字图像。

具体地，由于拍摄的角度、距离，以及文字的书写等因素的影响，获取到的图片合同可能会存在质量不高，直接进行文字识别，容易导致文字识别的效率和准确率降低，因此为了实现对待识别的图片合同的快速有效的识别，本实施例通过预先训练好的卷积神经网络模型的输入层定义中的图像处理方法，对待识别的文字图像进行预处理，得到处理后的若干个原始文字图像，能够增强重要文字信息的可检测性和最大限度地简化数据，降低后续步骤对文字识别运算量，从而提高对文字识别的效率和准确率。

S103、根据卷积神经网络模型的卷积层定义，对每页的原始文字图像进行文字的特征提取和特征组合，得到每页的原始文字图像对应的N*N的文字特征矩阵，其中，N为正整数。

具体的，根据卷积神经网络模型的卷积层定义，对原始文字图像进行文字的特征提取是为了能够有效提取每个原始文字图像中的重要特征信息，剔除每个原始文字图像中的不必要特征信息，然后对提取到的特征进行组合，得到原始文字图像对应的N*N的文字特征矩阵，是为了对提取到的重要特征信息进行保护，避免重要特征信息的丢失，以及将提取到的特征以矩阵的形式进行保存，使得图像的中的重要特征数据化，能够提高计算效率，从而提高对文字识别的效率。

其中，根据卷积神经网络模型的卷积层定义，对原始文字图像进行文字的特征提取和特征组合具体可以是将每个原始文字图像进行卷积计算，计算得到的数值作为该原始文字图像的文字特征值，然后，将计算得到的文字特征值，按照卷积层定义中的预先设置的特征组合方式进行文字特征值组合，得到原始文字图像对应的N*N的文字特征矩阵。

S104、针对每个文字特征矩阵，根据卷积神经网络模型的池化层定义，对文字特征矩阵进行特征降维处理，得到降维后的1*1的目标特征矩阵，并将1*1的目标特征矩阵中的目标特征值，作为一维目标序列点。

具体地，将得到的文字特征矩阵输入到池化层，通过池化层的平均融合算子对文字特征矩阵中的文字特征值进行特征融合，得到融合特征，使得多个特征值融合为一个综合数据特征值。

其中，本实施例采用的平均融合(Average Fusion)算子用于压缩数据和参数的量，实现对文字特征矩阵进行特征降维处理，其具体实现过程为对多个特征值进行求取平均值，将平均值作为融合特征值，得到融合特征值组成的融合特征矩阵，继续通过平均融合算子进行矩阵降维，直到得到1*1维度的融合特征矩阵，并将该1*1的融合特征矩阵作为目标特征矩阵，将目标特征矩阵中的目标特征值，作为一维目标序列点，方便后续输入到循环神经网络模型进行识别。

S105、将每页的每个原始文字图像对应的一维目标序列点组成的合集，作为一维目标特征序列。

具体地，将每个原始文字图像对应的一维目标序列点组成的合集，作为一维目标特征序列具体可以是按照每个一维目标序列点的输出顺序，将每个原始文字图像对应的一维目标序列点进行组合，得到一个有序的一维目标序列点的合集，这个合集能够看作一个有序的一维目标特征序列，方便后续输入到循环神经网络模型进行识别。

S106、在预先训练好的循环神经网络模型中，对一维目标特征序列进行识别，输出一维目标特征序列对应的目标文字数据。

具体地，由于循环神经网络模型对一维的特征向量、一维的特征序列或者一维的特征点具备有较好的识别效率，能够对一维的特征向量、一维的特征序列或者一维的特征点中的特征进行准确解析，实现对特征的快速识别，因此本实施例通过在预先训练好的循环神经网络模型中，对在步骤S5中获取到的一维目标特征序列进行识别，具体可以是通过预先训练好的循环神经网络模型中的前向传播算法对一维目标特征序列进行解析，然后对解析得到的数据采用循环神经网络模型中的反向传播算法进行验证，能够准确识别出一维目标特征序列对应的目标文字数据，保证文字识别的准确度。

在本实施例中，通过根据预先训练好的卷积神经网络模型的输入层定义，对获取到的待识别的文字图像进行预处理，得到处理后的原始文字图像，然后，根据卷积神经网络模型的卷积层定义，对每个原始文字图像进行文字的特征提取和特征组合，得到每个原始文字图像对应的N*N的文字特征矩阵，进而针对每个文字特征矩阵，根据卷积神经网络模型的池化层定义，对文字特征矩阵进行特征降维处理，得到降维后的1*1的目标特征矩阵，并将1*1的目标特征矩阵中的目标特征值，作为一维目标序列点，能够将文字特征矩阵中的冗余信息去除，保证每个原始文字图像中提取到的特征的高精度，从而提高文字识别的准确率，然后，在预先训练好的循环神经网络模型中，对一维目标特征序列进行识别，输出该一维目标特征序列对应的目标文字数据，由于识别的一维目标特征序列中的每个一维目标序列点维度较小，能够减小识别过程中的运算量和复杂度，从而有效提高文字识别效率。

进一步的，请参考图,3，步骤S20具体包括以下步骤：

S201、读取每页的文本信息；

S202、抓取每页文本信息中反应其文本特点的关键词；

S203、将每页抓取的关键词进行词义分析，确定该页所属的标签类别。

具体的，步骤S203中，通过对每页的关键词进行词义分析，可以确定该页面是所有哪一标签类别，标签类别包括：合同封面页、合同首页、合同价款页以及合同签字页。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上述的一种基于人工智能的合同自动分类的方法，本发明还提供了一种基于人工智能的合同自动分类的系统，请参考图4，该系统包括提取单元1、分类单元2以及整合单元3；

提取单元1，用于通过卷积神经网络提取图片合同中每页的文本信息；

分类单元2，用于根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类；

整合单元3，用于根据分类结果将所属同一种标签类别的页面整合成表格并展示。

进一步的，请参考图5，提取单元1包括获取模块11、预处理模块12、特征提取模块13、特征降维模块14、序列生成模块15以及文字识别模块16；

获取模块11，用于获取待识别的每页的图片合同；

预处理模块12，根据预先训练好的卷积神经网络模型的输入层定义，对每页的图片合同进行预处理，得到处理后的每页的原始文字图像；

特征提取模块13，用于根据卷积神经网络模型的卷积层定义，对每页的原始文字图像进行文字的特征提取和特征组合，得到每页的原始文字图像对应的N*N的文字特征矩阵，其中，N为正整数；

特征降维模块14，用于针对每个文字特征矩阵，根据卷积神经网络模型的池化层定义，对文字特征矩阵进行特征降维处理，得到降维后的1*1的目标特征矩阵，并将1*1的目标特征矩阵中的目标特征值，作为一维目标序列点；

序列生成模块15，用于将每页的每个原始文字图像对应的一维目标序列点组成的合集，作为一维目标特征序列；

文字识别模块16，用于在预先训练好的循环神经网络模型中，对一维目标特征序列进行识别，输出一维目标特征序列对应的目标文字数据。

进一步的，请参考图6，分类单元2包括读取模块21、抓取模块22以及词义分析模块23；

读取模块21，用于读取每页的文本信息；

抓取模块22，用于抓取每页文本信息中反应其文本特点的关键词；

词义分析模块23，用于将每页抓取的关键词进行词义分析，确定该页所属的标签类别。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明中各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，系统或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述仅以实施例来进一步说明本发明的技术内容，以便于读者更容易理解，但不代表本发明的实施方式仅限于此，任何依本发明所做的技术延伸或再创造，均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims

1.一种基于人工智能的合同自动分类的方法，其特征在于，所述方法包括：

通过卷积神经网络提取图片合同中每页的文本信息；

2.根据权利要求1所述的一种基于人工智能的合同自动分类的方法，其特征在于，所述通过卷积神经网络提取图片合同中每页的文本信息的步骤，具体包括以下步骤：

获取待识别的每页的图片合同；

3.根据权利要求2所述的一种基于人工智能的合同自动分类的方法，其特征在于，所述根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类的步骤，具体包括以下步骤：

读取每页的文本信息；

抓取每页文本信息中反应其文本特点的关键词；

4.根据权利要求3所述的一种基于人工智能的合同自动分类的方法，其特征在于，所述标签类别包括：合同封面页、合同首页、合同价款页以及合同签字页。

5.根据权利要求1所述的一种基于人工智能的合同自动分类的方法，其特征在于，所述根据循环神经网络的自然语言处理模型对每页的文本信息按照预先设置的标签类别进行分类的步骤之后，包括以下步骤：

6.一种基于人工智能的合同自动分类的系统，其特征在于，包括提取单元以及分类单元；

7.根据权利要求6所述的一种基于人工智能的合同自动分类的系统，其特征在于，所述提取单元包括获取模块、预处理模块、特征提取模块、特征降维模块、序列生成模块以及文字识别模块；

所述获取模块，用于获取待识别的每页的图片合同；

8.根据权利要求7所述的一种基于人工智能的合同自动分类的系统，其特征在于，所述分类单元包括读取模块、抓取模块以及词义分析模块；

所述读取模块，用于读取每页的文本信息；

9.根据权利要求6所述的一种基于人工智能的合同自动分类的系统，其特征在于，还包括整合单元；