CN116384387A

CN116384387A - 一种自动化合同审查的方法及装置

Info

Publication number: CN116384387A
Application number: CN202310009298.1A
Authority: CN
Inventors: 吴云朝
Original assignee: Shenzhen Qingdun Information Technology Co ltd
Current assignee: Shenzhen Qingdun Information Technology Co ltd
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-07-04

Abstract

本发明适用合同自动审查技术领域，提供了一种自动化合同审查的方法及装置，方法包括：学习训练和合同审查；学习训练积累关键词和规则词，后进行合同审查，合同审查包括：根据与合同类别相对应的法律法规、从合同文本中识别出与法律法规中的单个法条相对应的合同条款、以及与法条中的每一项的内容相对应的构成要素；若在步骤二中未识别到合同条款或构成要素则执行步骤四，反之则跳过执行步骤四；根据关键词风险知识库匹配在合同文本中所存在的构成要素，若构成要素在合同文本中缺失或有偏差则进行对应的合同条款构成要素风险记录；根据关键词规则知识库匹配在合同文本中是否存在规则词，若为否则提示存在对应的规则词缺失风险；从而提高了合同审查的准确率。

Description

一种自动化合同审查的方法及装置

技术领域

本发明属于合同自动审查技术领域，尤其涉及一种自动化合同审查的方法及装置。

背景技术

合同审查就是按照法律法规以及当事人的约定对合同的内容、格式进行审核，要审查合同如何成立或者是否成立，如何生效，或者是否生效，有无效力待定或者无效的情形，合同权利义务如何终止或者是否终止，相应的合同约定或者条款会产生什么样的法律后果呢，会产生什么样的民事法律关系，什么样的行政法律关系，什么样的刑事法律关系，与我方的期待有多大距离，审查过程中，要时刻考虑法律后果概念，使法律后果概念贯穿前面所提出的问题；因为任何一个环节出现问题或者发生特定的情况都会导致特殊的法律后果发生。

随着社会的发展，人们的法律意识越来越强，合同审查的需求越来越大，而大多数人对合同法的知识了解甚少，请专业人士审查费时费力；因此，自动化的合同审查会成为未来审查合同的一种趋势。

自动化的合同审查旨在使用深度学习的方式和知识库抽取出合同中涉及到的条款和要素，然后通过风险知识库去判断有没有该风险。

目前查询到的类似的专利如如《一种基于人工智能的合同风险识别方法及装置》(申请/专利号：CN202011624263.1)，该方法是通过图像识别来进行合同比对，和本发明差距较大。此外还有一个专利《一种基于SegaBert预训练模型的合同抽取方法》(申请/专利号：CN202110865024.3)，该发明介绍了如何用SegaBert模型去抽取合同中的要素信息，该发明和本发明差别也比较大，首先使用的模型不通，模型的使用方法不通，另外本发明还结合了粗、细两种颗粒度的模型和知识库的集成以及一些别的优化方法，此外还发明了如何使用抽取到的信息来进行风险审查。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种自动化合同审查的方法及装置，旨在解决由于现有技术无法提供一种有效的自动化合同审查的方法，导致合同审查准确率低、用户体验不佳的问题。

一方面，本发明提供了一种自动化合同审查的方法，所述方法包括：学习训练和合同审查；

步骤一：获取多个合同文本并按照合同属性归分成多个合同类别，每个所述合同类别均包括多个所述合同文本；

步骤二：根据与所述合同类别相对应的法律法规、从所述合同文本中识别出与所述法律法规中的单个法条相对应的合同条款、以及与所述法条中的每一项的内容相对应的构成要素；

步骤三：若在步骤二中未识别到合同条款或构成要素则执行步骤四，反之则跳过执行步骤四；

步骤四：根据关键词风险知识库匹配在所述合同文本中所存在的构成要素，若所述构成要素在所述合同文本中缺失或有偏差则进行对应的合同条款构成要素风险记录；

步骤五：根据关键词规则知识库匹配在所述合同文本中是否存在规则词，若为否则提示存在对应的规则词缺失风险；

其中，所述学习训练包括：步骤一和步骤二，所述合同审查包括：步骤二、步骤三和步骤四以及步骤五或步骤四和步骤五。

进一步地，设立句识别训练模型和字识别训练模型，使用所述句识别训练模型识别出所述合同条款，使用所述字识别训练模型识别出所述构成要素或和所述合同条款。

进一步地，在所述步骤二中还包括：使用所述句识别训练模型识别出所述合同条款，使用所述字识别训练模型识别出所述构成要素和所述合同条款。

进一步优选地，若同一所述合同条款均被所述句识别训练模型和所述字识别训练模型识别出则优选选取句识别训练模型所识别出的合同条款。

进一步地，所述关键词风险知识库中存储有多个构成要素的关键词；其中，所述关键词风险知识库中的关键词有所述学习训练时产生的构成要素添加而成。

进一步地，所述关键词规则知识库中存储有多个所述规则词；其中，所述关键词规则知识库中的规则词有所述学习训练时产生的构成要素筛选添加而成。

进一步优选地，所述方法还包括：爬取公开的网站获取多个所述合同文本。

另一方面，本发明还提供了一种自动化合同审查的装置，所述装置包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的自动化合同审查的方法。

另一方面，本发明还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的自动化合同审查的方法。

另一方面，本发明还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使所述处理器执行上述的自动化合同审查的方法。

本发明的有益效果在于：先进行学习训练进行关键词和规则词积累，而后进行合同审查，从步骤二开始——步骤二：根据与合同类别相对应的法律法规、从合同文本中识别出与法律法规中的单个法条相对应的合同条款、以及与法条中的每一项的内容相对应的构成要素；步骤三：若在步骤二中未识别到合同条款或构成要素则执行步骤四，反之则跳过执行步骤四；步骤四：根据关键词风险知识库匹配在合同文本中所存在的构成要素，若构成要素在合同文本中缺失或有偏差则进行对应的合同条款构成要素风险记录；步骤五：根据关键词规则知识库匹配在合同文本中是否存在规则词，若为否则提示存在对应的规则词缺失风险；从而丰富了关键词和规则词，提高了合同审查的准确率，进而提高了用户体验。

附图说明

图1是本发明实施例一提供的自动化合同审查的方法的实现流程图；

图2是本发明实施例一提供的自动化合同审查的方法的句识别训练模型的结构图；

图3是本发明实施例一提供的自动化合同审查的方法的字识别训练模型的结构图；

图4是本发明实施例二提供的自动化合同审查的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1至图3示出了本发明实施例一提供的自动化合同审查的方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

方法包括：学习训练和合同审查；

步骤S101：获取多个合同文本并按照合同属性归分成多个合同类别，每个合同类别均包括多个合同文本；

在本发明的实施例中，方法还包括：爬取公开的网站获取多个合同文本；由于合同的敏感性，难以获得真实合同，但是合同模板在网上比较常见，因此可以爬取各种类型的合同，每类约为500篇。

步骤S102：根据与合同类别相对应的法律法规、从合同文本中识别出与法律法规中的单个法条相对应的合同条款、以及与法条中的每一项的内容相对应的构成要素；

在本发明的实施例中，每类合同因其适用场景和法律领域不同，从而要素和条款都不相同，因此针对每类合同都要构建不同的要素和条款体系，条款为1级标签(合同条款)，每个条款下有二级标签要素(构成要素)。

步骤S103：若在步骤S102中未识别到合同条款或构成要素则执行步骤S104，反之则跳过执行步骤S104；

在本发明的实施例中，抽取到每个要素和条款的值后，如没有抽取到则经过步骤S105的关键词规则知识库进行关键词检测判断，之后通过步骤S104定义好的关键词风险知识库去判断该要素和条款有没有相关风险。例如抽取到借款利率为50％，风险库中定义超过36％就提示风险。

步骤S104：根据关键词风险知识库匹配在合同文本中所存在的构成要素，若构成要素在合同文本中缺失或有偏差则进行对应的合同条款构成要素风险记录；

在本发明的实施例中，每类合同根据定义的要素和条款定义出风险，例如：某个要素没有抽取到，便是缺失型风险。对于一些数值型要素可以定义条件判断的风险，例如利率过高等。

步骤S105：根据关键词规则知识库匹配在合同文本中是否存在规则词，若为否则提示存在对应的规则词缺失风险；

在本发明的实施例中，深度学习模型势必在一些特定的数据上表现不好(比如和训练集差距较大的语料)这种情况优化起来困难，但是利用知识库便可以快速优化一些badcase(测试遇到的模型识别不了的要素)，知识库的建立相当于对某些难以识别的条款和要素构建一些关键词表，当模型没有识别到该要素或者条款时，可以通过知识库中的关键词对整篇合同进行检索，如出现关键词则不提示风险。

其中，学习训练包括：步骤S101和步骤S102，合同审查包括：步骤S102、步骤S103和步骤S104以及步骤S105或步骤S104和步骤S105。

在本发明的实施例中，先进行学习训练进行关键词和规则词积累，而后进行合同审查，从步骤S102开始——步骤S102：根据与合同类别相对应的法律法规、从合同文本中识别出与法律法规中的单个法条相对应的合同条款、以及与法条中的每一项的内容相对应的构成要素；步骤S103：若在步骤S102中未识别到合同条款或构成要素则执行步骤S104，反之则跳过执行步骤S104；步骤S104：根据关键词风险知识库匹配在合同文本中所存在的构成要素，若构成要素在合同文本中缺失或有偏差则进行对应的合同条款构成要素风险记录；步骤S105：根据关键词规则知识库匹配在合同文本中是否存在规则词，若为否则提示存在对应的规则词缺失风险；从而丰富了关键词和规则词，提高了合同审查的准确率，进而提高了用户体验。

在本发明的实施例中，设立句识别训练模型和字识别训练模型，使用句识别训练模型识别出合同条款，使用字识别训练模型识别出构成要素或和合同条款；

进一步地，在步骤S102中还包括：使用句识别训练模型识别出合同条款，使用字识别训练模型识别出构成要素和合同条款。

在本发明的实施例中，将合同文本分别传入字级别模型和句子级别模型，字级别模型得到每个要素和条款的值，句子级别得到每个条款抽取到的概率。

其中，句识别训练模型：句识别训练模型目的是为了识别合同中的条款，因为条款普遍都是句子级别的，用字级别模型有些条款容易识别不了边界。

句子级别模型也是采用的Roberta-wwm作为基础的预训练模型，具体使用的是序列标注的多分类的下游模型构造具体如图2所示：

输入构造：我们将句子按照换行符、句号、分号、逗号等标点符号分割，用[CLS]标记去拼接每个句子，拼接的原因是因为[CLS]可以表达该句话的语义。

如图2所示，将拼接好的合同文本按照字拆分为，[CLS]1、[CLS]2、[CLS]3、[CLS]i表示模型经过学习后第i个[CLS]的上下文语境嵌入。输入线性层，该线性层的神经元的数量是定义的条款个数。T[CLS]1、[CLS]2、[CLS]3、[CLS]i经过该线性层后得到每个句子被预测为定义好的条款的概率。

损失函数采用BCE(Binary cross entropy)。就是将最后分类层的每个输出节点使用sigmoid激活函数激活，然后对每个输出节点和对应的标签计算交叉熵损失函数。

其中，字识别训练模型：字级别模型使用阅读理解模型架构，该模型的目标是，针对每个要素构造Query(问题)进行回答，对每个字符都预测start_logits和end_logits(开始结束位置)的概率，其中第一个[CLS]位置预测其unk_logits(该合同没有该要素)的概率。然后将找到start_logits与end_logits概率最大的合法组合，合法指满足一定约束规范：1.开始位置在结束位置的前面2.开始位置和结束位置中间的字符小于384个(因为条款和要素的长度基是本都是小于384个字符)。然后将start_logits和end_logits的平均值与unk_logits比较大小，如果start_logits和end_logits的平均值大，则该要素的在合同中的起始位置就是该start_logits所在的位置，结束位置就是end_logits所在的位置，反之则表示该合同中没有该要素。

使用的模型结构如图3所示，该模型以Roberta-wwm(A Robustly Optimized BERTPretraining Approach-Whole Word Masking)为基础预训练模型，Roberta和wwm都是相对于bert(Bidirectional Encoder Representations from Transformers)的改进模型：其中roberta相较于bert有如下4个改进：

静态Mask变动态Mask(遮蔽)Bert在整个预训练过程，选择进行mask的15％的Tokens是不变的，也就是说从一开始随机选择了这15％的Tokens，之后的N个epoch里都不再改变了。这就叫做静态Masking。

而RoBERTa一开始把预训练的数据复制10份，每一份都随机选择15％的Tokens进行Masking，也就是说，同样的一句话有10种不同的mask方式。然后每份数据都训练N/10个epoch。这就相当于在这N个epoch的训练中，每个序列的被mask的tokens是会变化的。这就叫做动态Masking。

这样做的目的是：动态mask相当于间接的增加了训练数据，有助于提高模型性能。

移去NSP任务，调整输入格式输入的时候不能跨越文档，去除了预测是否下一句的任务。因为经过实验发现输入时不跨越文档效果最好，预测是否下一句任务对模型并没有帮助。

更大的mini-batch用更大的batch size配合更大学习率能提升模型优化速率和模型性能更多的训练数据，更长的训练时间更多的训练数据增加了数据的多样性(词汇量、句法结构、语法结构等等)WWM相对于BERT的改进在：BERT训练时的MASK以字为单位，而WWM中的MASK以词为单位，更加符合中文的语言特性。

Query(问题的构造)：针对每个要素和条款，我们都需要构造Query以告诉模型应该识别什么标签，常规的Query构造方法是将标签名字作为Query，但是我们考虑到每个条款底下的要素存在互斥的关系，且位置靠的比较近，为了让模型学习到这种关系，我们的Query构造方式是将每个要素的Query用该要素所属的条款名称和要素名称用冒号拼接。

如图3所示，我将Query按照字拆分为

将合同文本按照字拆分为/>

其中的[CLS]为BERT设计的一个辅助做分类任务的特殊标记符号，[SEP]是BERT设计的一个分隔符，用来连接两端文本。/>

表示字的输入嵌入。/>

表示模型经过学习后第i个字的上下文语境嵌入，T[CLS]表示模型经过学习后[CLS]标记符的语境向量，根据BERT的模型设计，该向量的维度为768维，输入线性层，该线性层的神经元的数量是1。线性层的输出在经过sigomid激活函数后得到负面的概率值，若大于预先设定的阈值则为负面，反之为非负面。本发明阈值采用0.5。

损失函数分为两块，第一块做法是将除第一个[CLS]位置的unk_logits和其余511个位置的start_logits进行拼接然后计算交叉熵损失，第二块做法是将除第一个[CLS]位置的unk_logits和其余511个位置的unk_logits进行拼接然后计算交叉熵损失，随后两个交叉熵损失相加。

在本发明的实施例中，若同一合同条款均被句识别训练模型和字识别训练模型识别出则优选选取句识别训练模型所识别出的合同条款；其中，结果集成，由于句子级别模型和字级别模型都会抽取相关条款，当同一条款被两个模型识别到结果时，优先选取句子级别模型的结果。

在本发明的实施例中，关键词风险知识库中存储有多个构成要素的关键词；其中，关键词风险知识库中的关键词有学习训练时产生的构成要素添加而成；全自主学习，无需人工介入。

在本发明的实施例中，关键词规则知识库中存储有多个规则词；其中，关键词规则知识库中的规则词有学习训练时产生的构成要素筛选添加而成，可理解为规则词是与关键词的词义相反。

实施例二：

图4示出了本发明实施例二提供的一种自动化合同审查的装置，如图4所示，装置10包括：

一个或多个处理器110以及存储器120，图4中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器110用于完成装置10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的自动化合同审查的方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行装置10的各种功能应用以及数据处理，即实现上述方法实施例中的自动化合同审查的方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据装置10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中自动化合同审查的方法，例如，执行以上描述的图1中的方法步骤S101至步骤S105。

实施例三：

本发明实施例三提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S101至步骤S105。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

实施例四：

本发明实施例四提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使所述处理器执行上述方法实施例的自动化合同审查的方法。例如，执行以上描述的图1中的方法步骤S101至步骤S105。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机电子设备(可以是个人计算机，服务器，或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够′、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地不旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有学生输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供自动化合同审查的方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种自动化合同审查的方法，其特征在于，所述方法包括：学习训练和合同审查；

2.如权利要求1所述的方法，其特征在于，设立句识别训练模型和字识别训练模型，使用所述句识别训练模型识别出所述合同条款，使用所述字识别训练模型识别出所述构成要素或和所述合同条款。

3.如权利要求2所述的方法，其特征在于，在所述步骤二中还包括：使用所述句识别训练模型识别出所述合同条款，使用所述字识别训练模型识别出所述构成要素和所述合同条款。

4.如权利要求3所述的方法，其特征在于，若同一所述合同条款均被所述句识别训练模型和所述字识别训练模型识别出则优选选取句识别训练模型所识别出的合同条款。

5.如权利要求1所述的方法，其特征在于，所述关键词风险知识库中存储有多个构成要素的关键词；其中，所述关键词风险知识库中的关键词有所述学习训练时产生的构成要素添加而成。

6.如权利要求1所述的方法，其特征在于，所述关键词规则知识库中存储有多个所述规则词；其中，所述关键词规则知识库中的规则词有所述学习训练时产生的构成要素筛选添加而成。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：爬取公开的网站获取多个所述合同文本。

8.一种自动化合同审查的装置，其特征在于，所述装置包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的自动化合同审查的方法。

9.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述自动化合同审查的方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被处理器执行时，使所述处理器执行权利要求1-7任一项所述的自动化合同审查的方法。