CN111832300A

CN111832300A - 基于深度学习的合同审核方法和装置

Info

Publication number: CN111832300A
Application number: CN202010728345.4A
Authority: CN
Inventors: 孔令兴; 苏畅; 任立刚; 李扬
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-10-27

Abstract

本申请提供一种基于深度学习的合同审核方法和装置，该方法包括：根据n‑gram算法对待审核合同中的文本进行分词，并对每个分词进行处理，得到目标分词；然后基于Skip‑gram模型对各个目标分词进行训练，得到每个目标分词对应的词向量；将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，由于深度学习模型是根据训练样本进行训练得到的，且训练样本包括至少一份合同的合同文本、法律信息和审核标准，因此，利用该深度学习模型可以深入的审查和理解法律文件，精准指出合同中的缺点及潜在存在法律风险的内容。

Description

基于深度学习的合同审核方法和装置

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种基于深度学习的合同审核方法和装置。

背景技术

法务审核合同是站在企业角度，对待签署的合同文书提出修改意见的过程。即，法务审核合同是按照相关法律规定以及企业与交易方之间的约定，对合同的内容、格式进行审查与修改，以发现和排除因合同错误导致的法律风险的过程。

目前，常用的合同审核方法是采用机器学习模块根据专家确定的训练集怼文档试别参数进行训练，形成能够试别各类文档错误的模型参数；然后再由文档审查模块根绝产生的各类模型参数对相应的新文档进行审查，从而识别出文档中存在的各类错误。

但是，现有的合同审核方法无法提升模型训练精度，且要求合同语句之间调理清晰、逻辑严谨、不存在法律及技术术语、不存在关键词语的歧义或冲突等，还需要对合同履行过程中可能发生的争议进行充分的预见并设置相应条款，这就要求训练模型能够充分理解高层次、高抽象的语句之间的逻辑，对规则与规则之间的联系能够建立更加复杂的语言模型，然而现有方法中的训练模型训练精度低，无法精确的识别出各类合同中的错误和潜在的法律风险。

发明内容

本发明实施例提供一种基于深度学习的合同审核方法和装置，以解决现有技术中训练模型训练精度低，无法精确的识别出各类合同中的错误和潜在的法律风险的问题。

本发明实施例的第一方面提供一种基于深度学习的合同审核方法，包括：

根据n-gram算法对待审核合同中的文本进行分词，并对每个分词进行处理，得到目标分词；

基于Skip-gram模型对各个目标分词进行训练，得到每个目标分词对应的词向量；

将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，所述深度学习模型是根据训练样本进行训练得到的，所述训练样本包括至少一份合同的合同文本、法律信息和审核标准。

可选的，所述将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，包括：

基于Transformer模型，对每个目标分词对应的词向量进行逐级抽象表示，得到每个分词对应的高级语句的抽象表示；

将每个分词对应的高级语句抽象表示输入softmax分类器，得到所述待审核合同的审核结果，所述审核结果包括：合同中存在法律问题的内容、缺失内容或者不常用内容。

可选的，所述对每个分词进行处理，包括：

根据预先确定的停用词列表，屏蔽合同审核无关的分词。

可选的，所述对每个分词进行处理，包括：

根据预先确定的专业词表，对各个分词进行差异化学习和分析，所述专业词表中包括不同专业的专业词汇。

可选的，所述根据n-gram算法对待审核合同中的文本进行分词之前，所述方法还包括：

提取待审核合同中的文本信息。

本发明实施例的第二方面提供一种深度学习的合同审核装置，包括：

分词模块，用于根据n-gram算法对待审核合同中的文本进行分词，并对每个分词进行处理，得到目标分词；

词向量转换模块，用于基于Skip-gram模型对各个目标分词进行训练，得到每个目标分词对应的词向量；

审核模块，用于将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，所述深度学习模型是根据训练样本进行训练得到的，所述训练样本包括至少一份合同的合同文本、法律信息和审核标准。

可选的，所述审核模块具体用于：

可选的，所述分词模块具体用于：

根据预先确定的停用词列表，屏蔽合同审核无关的分词。

本发明实施例的第三方面提供一种计算机设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行本发明实施例第一方面提供的基于深度学习的合同审核方法。

本发明实施例的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现本发明实施例第一方面提供的基于深度学习的合同审核方法。

本发明实施例提供一种基于深度学习的合同审核方法和装置，该方法首先根据n-gram算法对待审核合同中的文本进行分词，并对每个分词进行处理，得到目标分词；然后基于Skip-gram模型对各个目标分词进行训练，得到每个目标分词对应的词向量；将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，由于深度学习模型是根据训练样本进行训练得到的，且训练样本包括至少一份合同的合同文本、法律信息和审核标准，因此，利用该深度学习模型可以深入的审查和理解法律文件，精准指出合同中的缺点及潜在存在法律风险的内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一示例性实施例示出的基于深度学习的合同审核方法的应用场景图；

图2是本发明一示例性实施例示出的基于深度学习的合同审核方法的流程示意图；

图3是本发明另一示例性实施例示出的基于深度学习的合同审核方法的流程示意图；

图4是本发明一示例性实施例示出的基于深度学习的合同审核装置的结构示意图；

图5是本发明一示例性实施例示出的计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，法务审核合同是站在企业角度，对待签署的合同文书提出修改意见的过程。即，法务审核合同是按照相关法律规定以及企业与交易方之间的约定，对合同的内容、格式进行审查与修改，以发现和排除因合同错误导致的法律风险的过程。常用的合同审核方法是采用机器学习模块根据专家确定的训练集怼文档试别参数进行训练，形成能够试别各类文档错误的模型参数；然后再由文档审查模块根绝产生的各类模型参数对相应的新文档进行审查，从而识别出文档中存在的各类错误。

针对此缺陷，本发明的技术方案的技术构思在于：利用深度学习模型深入的审查和理解法律文件，先采用n-gram算法对待审核合同中的文本进行汉语分词，再利用Word2vector中的Skip-gram模型训练得到每个分词对应的词向量，利用transformer模型对输入的词向量进行逐级抽象表示，将得到的高级语句的抽象表示输入softmax分类器中，得到相应的风险分类判断该深度学习模型可以深入的审查和理解法律文件，精准指出合同中的缺点及潜在存在法律风险的内容，包括一些不常用的、缺失的和有可能问题条款，利用transformer模型对合同文档进行风险点进行分类识别，分类的精度高，同时在利用n-gram算法进行中文分词的同时，采用专业词表对不同专业不同领域的合同词汇进行了差异化学习和分析，提高了分词准确率，并最终提高了合同审核的准确性。

图1是本发明一示例性实施例示出的基于深度学习的合同审核方法的应用场景图。

如图1所示，本实施例提供的应用场景的基本架构主要包括服务器101和显示终端102；其中，所述服务器用于根据用户输入的训练样本进行训练得到深度学习模型，将待审核合同的相关内容输入治深度学习模型，得到审核结果，并将审核结果发送至显示终端进行显示。

图2是本发明一示例性实施例示出的基于深度学习的合同审核方法的流程示意图，本实施例提供的方法的执行主体可以是图1所示实施例中的服务器。

如图2所示，本实施例提供的方法可以包括以下步骤。

S201，根据n-gram算法对待审核合同中的文本进行分词，并对每个分词进行处理，得到目标分词。

本步骤中，先提取待审核合同中的文本，然后采用n-gram算法对待审核合同中的文本进行汉语分词。

具体的，假设随机变量S为一个汉字序列，W是S上所有可能的切分路径。对于分词，实际上就是求解使条件概率P(W∣S)最大的切分路径W^*，即W^*＝/arg/maxW+P(W|S)；根据贝叶斯公式，可知：

W^*＝/arg/maxW+/fracP(W)P(S|W)P(S)

由于P(S)为归一化因子，P(S∣W)恒为1，因此只需要求解P(W)，P(W)使用n-gram语言模型建模，Bi-gram为例，P(W)定义如下：

至此，各切分路径的好坏程度(条件概率P(W∣S))可以求解。简单的，可以根据DAG枚举全路径，暴力求解最优路径；也可以使用动态规划的方法求解。

示例性的，对于“我们是朋友”这一句话，经上述算法进行汉语分词后，可以得到“我们”、“是”、“朋友”这三个分词。

S202，基于Skip-gram模型对各个目标分词进行训练，得到每个目标分词对应的词向量。

具体的，Skip-gram模型是Word2vector中的一个词向量训练模型，Skip-gram就是一种无监督学习技术，常用于查找给定单词的最相关词语。Skip-gram用于预测与给定中心词相对应的上下文词。它和连续词袋模型(CBOW)算法相反。在Skip-gram中，中心词是输入词(input word)，上下文词是输出词(output word)。将每个分词通过Skip-gram进行训练，便可以得到每个分词对应的词向量。

S203，将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，所述深度学习模型是根据训练样本进行训练得到的，所述训练样本包括至少一份合同的合同文本、法律信息和审核标准。

其中，深度学习模型包括Transformer模型和softmax分类器。

具体的，相关人员预先设定合同审核的法律原则和审核标准，审核标准比如可以包括：合同中不允许出现含有“一切责任由乙方承担”等字眼、不能够包含违背法律的条款、不能缺失“双方违约赔付方式”等相关条款等等，具体审核标准可根据实际需求进行设定，此处不做具体限定。其中的法律原则可以根据合同所述的专业进行设定，比如，双方签订劳动合同，则法律原则包括有关劳动法的相关规定；若合同涉及多个专业，则法律原则包含各个专业所涉及的法律规定。采集大量的合同，将合同的主体内容，确定了法律原则和审核标准后，将法律原则、审核标准和合同的主题内容输入到深度学习模型，由深度学习模型学习这些法律原则和审核标准，并提供详细的审核报告。训练好深度学习模型后，将待审核合同的文本转换成词向量后输入至深度学习模型，得到待审核合同的审核结果。

本实施例中，通过根据n-gram算法对待审核合同中的文本进行分词，并对每个分词进行处理，得到目标分词；然后基于Skip-gram模型对各个目标分词进行训练，得到每个目标分词对应的词向量；将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，由于深度学习模型是根据训练样本进行训练得到的，且训练样本包括至少一份合同的合同文本、法律信息和审核标准，因此，利用该深度学习模型可以深入的审查和理解法律文件，精准指出合同中的缺点及潜在存在法律风险的内容。

图3是本发明另一示例性实施例示出的基于深度学习的合同审核方法的流程示意图，本实施例提供的方法再图2所示实施例的基础上，进一步对基于深度学习的合同审核方法的详细步骤进行描述。

如图3所示，本实施例提供的方法可以包括以下步骤。

S301，根据n-gram算法对待审核合同中的文本进行分词。

W^*＝/arg/maxW+/fracP(W)P(S|W)P(S)

S302，根据预先确定的停用词列表，屏蔽合同审核无关的分词。

具体的，对合同中的文本进行分词之后，会存在很多与合同审核无关的分词，比如“的”、“是”、“了”等分词与合同审核无关，也不会影响合同的审核结果。因此，可以预先建立停用词列表，列表中设置需要屏蔽的词，比如上述与合同审核无关的分词，然后采用停用词列表对一些和风险点评估无关的分词进行屏蔽。

本步骤中，通过屏蔽一些分词，可以提高合同的审核效率。

S303，根据预先确定的专业词表，对各个分词进行差异化学习和分析，得到目标分词，所述专业词表中包括不同专业的专业词汇。

具体的，由于各个合同涉及的专业不同，可以采用专业词表对不同专业不同领域的合同词汇进行差异化学习和分析。将一些专业词汇放入专业词表中可以提高分词的准确率。

S304，基于Skip-gram模型对各个目标分词进行训练，得到每个目标分词对应的词向量。

S305，基于Transformer模型，对每个目标分词对应的词向量进行逐级抽象表示，得到每个分词对应的高级语句的抽象表示。

具体的，Transformer模型是一个Encoder-Decoder的结构，编码器由6个编码模块组成，同样解码器是由若干个解码模块组成，其中各个模块分别包含attention的生成与前项传播等功能。与所有的生成模型相同的是，编码器的输出会作为解码器的输入。得到Transformer模型后，将每个目标分词对应的词向量输入到Transformer模型中，Transformer模型对每个目标分词对应的词向量进行逐级抽象表示，得到每个分词对应的高级语句的抽象表示。

S306，将每个分词对应的高级语句抽象表示输入softmax分类器，得到所述待审核合同的审核结果，所述审核结果包括：合同中存在法律问题的内容、缺失内容或者不常用内容。

具体的，softmax分类器也是预先经过学习训练的，学习样本包含Transformer模型输出的各种各样的分词对应的高级语句的抽象表示，和每个高级语句的抽象表示对应的合同风险类别。其中，审核结果包括：合同中存在法律问题的内容、缺失内容或者不常用内容。比如，该合同因违反xxx法律规定，导致xxx的风险；或者，该合同因缺失xxx内容，可能会造成xxx的风险等。

本实施例中，利用深度学习模型深入的审查和理解法律文件，精准指出合同中的缺点及潜在的法律风险，包括一些不常用的、缺失的和有可能问题条款，利用Transformer模型对合同文档进行风险点进行分类识别，分类的精度高，同时在利用n-gram算法进行中文分词的同时，采用专业词表对不同专业不同领域的合同词汇进行了差异化学习和分析，提高了分词准确率，并最终提高了合同审核的准确性。

图4是本发明一示例性实施例示出的基于深度学习的合同审核装置的结构示意图。

如图4所示，本实施例提供的装置包括：分词模块401，词向量转换模块402，审核模块403；其中，分词模块，用于根据n-gram算法对待审核合同中的文本进行分词，并对每个分词进行处理，得到目标分词；词向量转换模块，用于基于Skip-gram模型对各个目标分词进行训练，得到每个目标分词对应的词向量；审核模块，用于将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，所述深度学习模型是根据训练样本进行训练得到的，所述训练样本包括至少一份合同的合同文本、法律信息和审核标准。

进一步的，所述审核模块具体用于：基于Transformer模型，对每个目标分词对应的词向量进行逐级抽象表示，得到每个分词对应的高级语句的抽象表示；将每个分词对应的高级语句抽象表示输入softmax分类器，得到所述待审核合同的审核结果，所述审核结果包括：合同中存在法律问题的内容、缺失内容或者不常用内容。

进一步的，所述分词模块具体用于：根据预先确定的停用词列表，屏蔽合同审核无关的分词。

进一步的，所述分词模块具体用于：根据预先确定的专业词表，对各个分词进行差异化学习和分析，所述专业词表中包括不同专业的专业词汇。

需要说明的是，本实施例提供的装置的各模块的具体实现可参考上述有关方法实施例中的描述，此处不再赘述。

图5为本发明实施例提供的计算机设备的硬件结构示意图。如图5所示，本实施例提供的计算机设备50包括：至少一个处理器501和存储器502。其中，处理器501、存储器502通过总线503连接。

在具体实现过程中，至少一个处理器501执行所述存储器502存储的计算机执行指令，使得至少一个处理器501执行上述方法实施例中的基于深度学习的合同审核方法。

处理器501的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图5所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请的另一实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述方法实施例中的基于深度学习的合同审核方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度学习的合同审核方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将每个目标分词对应的词向量作为输入量输入深度学习模型，得到所述待审核合同的审核结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述对每个分词进行处理，包括：

根据预先确定的停用词列表，屏蔽合同审核无关的分词。

4.根据权利要求3所述的方法，其特征在于，所述对每个分词进行处理，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据n-gram算法对待审核合同中的文本进行分词之前，所述方法还包括：

提取待审核合同中的文本信息。

6.一种基于深度学习的合同审核装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述审核模块具体用于：

8.根据权利要求7所述的装置，其特征在于，所述分词模块具体用于：

根据预先确定的停用词列表，屏蔽合同审核无关的分词。

9.一种计算机设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至5任一项所述的基于深度学习的合同审核方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至5任一项所述的基于深度学习的合同审核方法。