CN114661914A

CN114661914A - 一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质

Info

Publication number: CN114661914A
Application number: CN202210188546.9A
Authority: CN
Inventors: 张晓芳; 欧睿; 饶攀军; 郑元; 张雷; 陈科; 王浩畅; 周郴莲; 郑冠彧; 赵铁军
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-24
Anticipated expiration: 2042-02-28
Also published as: CN114661914B

Abstract

本发明公开了一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质，属于合同审查技术领域，解决合同审查的工作效率、准确率以及合理性都很低的问题。本发明的方法包括：对待审合同进行分类；根据所述待审合同的分类，选取要素抽取模型，所述要素抽取模型是基于深度学习建立得到；利用所述要素抽取模型，对所述待审合同的要素和条款进行抽取，获取待审要素和待审条款，所述待审要素包括要素内容和要素类型，所述待审条款包括条款内容和条款类型；根据所述待审要素和待审条款，检索合同知识图谱，获取对应的检索条款；基于所述对应的检索条款，对所述待审条款进行审核。本发明适用于对合同或公文的审查。

Description

一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质

技术领域

本申请涉及合同审查技术领域，尤其涉及一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质。

背景技术

近年来，随着社会的发展和合同需求的不断增加，各场合需要审理合同数逐年上升，人工审查合同跟进度远远不及收到的合同数量，使得合同审查陷入“数多人少”的困境。另外，合同是民事主体之间设立、变更、终止民事法律关系的协议，依法成立的合同，受法律保护。如何科学有效地提高合同的审查速度和准确率成为一个亟待解决的问题。

合同审查智能化是必经的阶段，高效的合同审查技术有利于对合同进行规范化处理和保证其准确度。合同文本使用概率极高，但是确缺少对合同的分类及审查技术，很多时候合同无法及时的保证其合法性及有效性，而且很多合同格式内容也存在问题，导致电子合同文本的使用效率极低，处理速度慢。现在虽然有很多合同系统，但是将其与自然语言处理技术结合并应用于企业的合同管理工作几乎没有，而且还存在一些问题：(1)不能智能及时生成合同和对合同进行审查，无法对生成合同并对其规范化管理，大大降低合同审查工作效率。(2)合同网上审查过程中，审查者不能在在审查合同完成内容的前提下，修改合同数据，及时判断合同的合理性。(3)对于不同类型的合同，合同数据审查时因人而异，具有一定的主观性，造成合同审查结果存在偏差。

发明内容

本发明目的是为了解决现有合同审查的工作效率、准确率以及合理性都很低的问题，提供了一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质。

本发明是通过以下技术方案实现的，本发明一方面，提供一种基于深度学习和知识图谱的合同审查方法，所述方法包括：

步骤1、对待审合同进行分类，所述分类具体包括：

步骤1.1、根据所述待审合同的标题，对所述待审合同进行分类，若获取到所述待审合同的分类，执行步骤2；

否则，执行步骤1.2；

步骤1.2、根据所述待审合同的文本，对所述待审合同进行分类，获取所述待审合同的分类，执行步骤2；

步骤2、根据所述待审合同的分类，选取要素抽取模型，所述要素抽取模型是基于深度学习建立得到；

步骤3、利用所述要素抽取模型，对所述待审合同的要素和条款进行抽取，获取待审要素和待审条款，所述待审要素包括要素内容和要素类型，所述待审条款包括条款内容和条款类型；

步骤4、根据所述待审要素和待审条款，检索合同知识图谱，获取对应的检索条款；

步骤5、基于所述对应的检索条款，对所述待审条款进行审核。

进一步地，步骤1.1中所述的，根据所述待审合同的标题，对所述待审合同进行分类，具体包括：

采用词向量表示待审合同的标题文本；

根据所述词向量，利用BiLSTM模型获取所述待审合同的标题文本特征；

根据所述待审合同的标题文本特征，利用Attention注意力机制，获取所述待审合同的标题文本特征的重要程度；

将所述待审合同的标题文本特征的重要程度进行池化后，利用分类器对所述待审合同进行分类。

进一步地，步骤1.2中所述的，对所述待审合同进行分类，具体采用HAN模型对所述待审合同进行分类，所述HAN模型由词序列编码器、词级attention层、句子序列编码器和句子级attention层组成。

进一步地，步骤2中所述的要素抽取模型是基于深度学习建立得到，具体包括：

所述要素抽取模型包括输入特征层、BiLSTM中间层和CRF输出层；

所述输入特征层将输入合同的文本按字符进行分割，将每个字使用拼接的特征向量进行表示，获取文本序列；

所述BiLSTM中间层利用LSTM神经网络层对所述文本序列进行建模，所述LSTM神经网络层包含前向和后向两个方向；

所述CRF输出层利用CRF层作为所述要素抽取模型的输出层，生成对应的“BIO”格式的标签序列。

进一步地，所述步骤4中，所述合同知识图谱的是通过下述方法建立的，所述方法具体包括：

步骤4.1、构建合同知识图谱的本体；

步骤4.2、根据所述合同知识图谱的本体，利用BILSTM-CRF结构的模型，获取合同文本中的实体以及实体之间的关系，根据所述合同文本中的实体以及实体之间的关系，获取合同知识图谱的实体三元组；

步骤4.3、对所述合同文本中的实体以及实体之间的关系进行异构数据的融合；

步骤4.4、根据所述融合后的合同文本中的实体以及实体之间的关系，获取合同知识图谱的三元组，基于图结构的存储方式对所述合同知识图谱的三元组进行存储；

步骤4.5、根据所述合同知识图谱的三元组，构建合同知识图谱。

进一步地，步骤4.1中所述的，构建合同知识图谱的本体，具体包括：

定义合同的分类、要素、属性、关系和约束，根据所述合同的分类、要素、属性、关系和约束构建合同知识图谱的本体。

进一步地，所述步骤4.4之后，还包括：基于不完备知识库的关联规则挖掘算法，对所述合同知识图谱的三元组进行补充；然后执行步骤4.5。

另一方面，本发明提供一种基于深度学习和知识图谱的合同审查装置，所述装置包括合同分类模块、要素抽取模型选取模块、要素条款抽取模块、检索条款获取模块和审核模块；

所述合同分类模块，用于对待审合同进行分类，所述合同分类模块包括标题分类模块和文本分类模块：

所述标题分类模块，用于根据所述待审合同的标题，对所述待审合同进行分类，若获取到所述待审合同的分类，执行所述要素抽取模型选取模块；

否则，执行所述文本分类模块；

所述文本分类模块，用于根据所述待审合同的文本，对所述待审合同进行分类，获取所述待审合同的分类，执行所述要素抽取模型选取模块；

所述要素抽取模型选取模块，用于根据所述待审合同的分类，选取要素抽取模型，所述要素抽取模型是基于深度学习建立得到；

所述要素条款抽取模块，用于利用所述要素抽取模型，对所述待审合同的要素和条款进行抽取，获取待审要素和待审条款，所述待审要素包括要素内容和要素类型，所述待审条款包括条款内容和条款类型；

所述检索条款获取模块，用于根据所述待审要素和待审条款，检索合同知识图谱，获取对应的检索条款；

所述审核模块，用于基于所述对应的检索条款，对所述待审条款进行审核。第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于深度学习和知识图谱的合同审查方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的一种基于深度学习和知识图谱的合同审查方法的步骤。

本发明的有益效果：

1.本发明运用文本信息抽取技术进行合同或公文要素提取及审查，如中文分词和词性标注、文本分类、命名实体识别、要素提取等关键技术，通过提高要素提取的准确性，并采用机器学习及深度学习方法对要素提取中的结果进行改善，提高合同审查的准确性；

3.本发明构建合同的基础知识图谱，用于为待审合同提供参考依据，并进行如知识融合、知识推理等来实现知识图谱的补充，提高该参考依据的合理性和可靠性。

4.本发明将人工智能技术如信息抽取及知识图谱技术应用在合同审查中，对合同审查的工作效率有很大的提升；

5.本发明通过对合同的分类，合同审查的合法性及有效性，同时也提高了合同审查的工作效率。

本发明适用于对合同或公文的审查。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于深度学习和知识图谱的合同审查方法的流程示意图；

图2为基于Attention机制的BiLSTM模型；

图3为HAN模型结构图；

图4为合同要素抽取流程图；

图5为基于Bi-LSTM-CRF的合同抽取深度学习模型；

图6为合同知识图谱构建方法的流程图；

图7为合同知识图谱构建方法的结构示意图；

图8为对买卖合同审查的流程图；

图9为以样品买卖合同为基础构建的知识图谱。

具体实施方式

实施方式一、如图1所示，一种基于深度学习和知识图谱的合同审查方法，所述方法包括：

步骤1、对待审合同进行分类，所述分类具体包括：

否则，执行步骤1.2；

需要说明的是，会用到会用到文本分类的情况至少包括两种情况：情况1，不同合同类型的文本，其要素和条款的定义、上下文语义环境均有一定的差异。若跳过文本分类直接对该合同进行要素抽取，则很难达到“审查”的目的，且抽取效果不尽如人意。因此需要先对合同进行文本分类，然后在确认合同类型后，调用对应的要素抽取模型抽取该合同类型所包含的要素和条款，之后再与合同知识图谱进行知识融合，补全和完善合同知识图谱，最后存储已抽取的该类型合同知识并完成合同知识图谱的构建；情况2：当合同的标题并不能明确反映合同的类型时，需要文本分类辅助。

需要说明的是，在对合同进行抽取前，先对其进行分类，可以更好地实现合同要素的抽取任务。对合同分类，本实施方式主要是从标题分类和合同文本分类这两个维度实现的。

需要说明的是，开始使用的是五种常见类型(技术、建设工程、油田工程、买卖合同、租赁合同)的合同文本，后期陆续加数据，用于识别合同文本类型。

由合同要素抽取获得要素、条款等实体信息，根据要素类别、条款类别以及由业务需求定义的关系构造要素之间、条款之间和要素与条款之间的非线性映射关系，这里的业务需求同样存在于合同要素抽取中，因为各类型合同所抽取的要素类别、条款类别的定义须根据业务需求来定义。

需要说明的是，检索合同知识图谱，可以对条款或要素进行分词，进而获取该条款或要素的关键词和所属类别，从知识图谱中检索出对应的条款或要素。

本实施方式中，所述合同知识图谱是以图结构的形式存储合同实体，包括要素属性、条款、风险及它们之间的关系。以关键字作为搜索条件，遍历知识图谱，并提供可视化的数据展示。对输入合同中的问题条款向知识图谱中进行匹配，返回相似合同条款进行推荐。

实施方式二，本实施方式是对实施方式一所述的一种基于深度学习和知识图谱的合同审查方法的进一步限定，本实施方式中，对步骤1.1中所述的，所述根据所述待审合同的标题，对所述待审合同进行分类做了进一步限定，具体包括：

采用词向量表示待审合同的标题文本；

需要说明的是，对某数据进行向量化编码，相似度即体现出该数据在当前合同文本中的重要程度。

本实施方式中，通过标题对文本进行分类，包括四个部分：

①采用词向量表示合同标题文本；

②利用BiLSTM模型获取合同标题文本特征；

③引入Attention注意力机制表示不同合同文本标题特征的重要性，主要是对某数据进行向量化编码，相似度即体现出该数据在当前合同文本中的重要程度；

④经过池化后，最后利用分类器进行合同标题分类。

由于合同文本的标题，可以较直观的对合同文本进行分类，同时有利于处理大批量的合同数据；

在标题分类中，采用的是基于Attention机制的BiLSTM模型，如图2所示。

实施方式三，本实施方式是对实施方式一所述的一种基于深度学习和知识图谱的合同审查方法的进一步限定，本实施方式中，对步骤1.2中所述的，对所述待审合同进行分类做了进一步限定，具体采用HAN模型对所述待审合同进行分类，所述HAN模型由词序列编码器、词级attention层、句子序列编码器和句子级attention层组成。

需要说明的是，合同标题虽然可以较好地完成大部分的合同分类任务，但是对于一些标题无法确定合同类型的数据，需要合同文本来辅助其分类。

其中，无法确定合同类型的情况，例如：1.不同合同类型的文本，其要素和条款的定义、上下文语义环境均有一定的差异。若跳过文本分类直接对该合同进行要素抽取，则很难达到“审查”的目的，且抽取效果不尽如人意。因此需要先对合同进行文本分类，然后在确认合同类型后，调用对应的要素抽取模型抽取该合同类型所包含的要素和条款，之后再与合同知识图谱进行知识融合，补全和完善合同知识图谱，最后存储已抽取的该类型合同知识并完成合同知识图谱的构建；2.当合同的标题并不能明确反映合同的类型时，需要文本分类辅助。

所以，本实施方式中，采用的是HAN的模型结构如图3所示，该HAN的模型由词序列编码器、词级attention层、句子序列编码器和句子级attention层组成。

在词编码器部分，使用双向GRU网络对词嵌入后的句子(字符序列)进行编码，得到编码向量h_it。

x_it＝Wewit,t∈[1,T]

h→_it＝(GRU)→(x_it),t∈[1,T]

h←_it＝(GRU)←(x_it),t∈[T,1]

在词级attention部分，首先使用一个单层的MLP对编码向量h_it得到一个隐层向量u_it，然后用这个隐层向量经过softmax得到权重α_it，最终一个句子的表示就是权重α_it与编码向量h_it的和，也就是s_i，它的维度与编码向量一致。另外，在进行softmax时，使用的上下文向量u_w随机初始化，并且在训练过程中不断改变。

u_it＝tan h(w_wh_it+b_w)

句子编码器和句子级attention与上面提到的两层本质一样，只不过将单词换成了句子，具体计算公式下所示：

u_i＝tan h(w_sh_i+b_s)

根据上述公式，获得合同文本的向量表示v，最后再使用softmax全连接层实现合同文本分类。

实施方式四，如图4所示，本实施方式是对实施方式一所述的一种基于深度学习和知识图谱的合同审查方法的进一步限定，本实施方式中，对步骤2中所述的要素抽取模型是基于深度学习建立得到做了进一步限定，具体包括：

本实施方式将合同文本分解为若干个部分，进行要素抽取，合同要素抽取中用到的是BiLSTM-CRF深度学习模型进行合同要素抽取工作，模型整体结构如图5所示。该模型为基于字符的序列标注模型，主要可分为三部分：输入特征层、Bi-LSTM中间层、CRF输出层。首先，将文本分割成一个一个字，每个字使用拼接的特征向量表示，作为模型的输入；中间层使用包含前向和后向两个方向的LSTM神经网络层对输入的文本序列建模；最后，采用CRF层作为模型的输出层生成对应的“BIO”格式的标签序列，其中，利用Bi-LSTM神经网络层采用双向结构，可以提升要素抽取的精确度；

最后生成对应的“BIO”格式的标签序列，可根据该标签序列映射为要素和条款。

实施方式五，如图6、图7所示，本实施方式是对实施方式一所述的一种基于深度学习和知识图谱的合同审查方法的进一步限定，本实施方式中，对所述步骤4中，所述合同知识图谱的是通过下述方法建立的，所述方法具体包括：

步骤4.1、构建合同知识图谱的本体；

知识图谱主要有两种构建方式：自顶向下(Top-Down)和自底向上(Bottom-Up)。在垂直领域中通常采用了自顶向下的知识图谱构建方法，将合同文本审核系统的知识图谱构建流程归纳为4个步骤，如图5所示，包括合同本体的构建、知识抽取、知识融合和知识存储。

需要说明的是，步骤4.1为合同本体的构建，具体包括：定义合同的分类、要素、属性、关系和约束，根据所述合同的分类、要素、属性、关系和约束构建合同知识图谱的本体。知识图谱构建过程中，本体提供了上层的数据模式，是实体存在的形式化描述，是知识图谱的重要组成部分。领域本体构建流程包含以下6个步骤：确定领域及任务、考察可复用本体、罗列要素、确定分类体系、定义属性和关系，以及定义约束。上述步骤在实践过程中并非严格的线性关系，有时需要回退到更早的阶段。具体步骤如下：

(1)确定领域及任务：以合同领域为例，阐述本体和知识图谱的关系。构建合同领域的知识图谱，首先对合同进行分类，这个“分类”就是“本体”。然后，将合同文本分配到每个类别中，当前合同包含很多信息，即该合同具有很多属性值。最后，这些数据构成了合同知识图谱。这里需要解释“本体”的含义，本体即为概念的集合，也可称为概念的框架，一般不会改变，比如“人”、“事”、“组织”，在面向对象编程思想中，将它称为类。显然，在合同知识图谱中，“本体”可被称为“合同类别”，也就是根据文本分类定义的合同文本类别。该“分类”为文本分类中所识别的合同类别。由此可见，本体强调概念关系，知识图谱强调实体关系和实体属性值。综上所述，本体是概念的集合；实体是本体、实例及关系的整合；知识图谱通过语义关联把各种实体关联起来。

(2)考察可复用本体：在合同领域范围内，没有找到可以复现的知识体系。因此，依据民法典内容定义本体。

(3)罗列要素：遵从民法典内容，根据合同的订立、合同的效力、合同的履行、合同的变更和转让等规定，罗列期望的要素列表，主要包括合同类型，合同标的物，合同签订方，合同条款，合同价格等。

(4)确定分类体系：确定了相关要素之后，需要将其中表示概念的要素组织成层级结构的分类体系。根据民法典中定义类别可分为15大类合同，例如：买卖合同，赠与合同，借款合同，租赁合同等。在确定分类体系时必须保证上层类别所表示的概念完全包含下层类别所表示概念。例如：“样品买卖合同”是“买卖合同”的下层类别，所有的样品买卖合同均是买卖合同。且要保证各个类别均不相交，例如：买卖合同不能跟借款合同有交集。

(5)定义属性和关系：属性是描述概念的内在特征，例如民法典十二条合同内容中标的物的单价、数量、质量标准等。关系则是刻画不同概念的关系，例如民法典第四章合同的履行中，当事人与合同之间的履行义务关系等。

(6)定义约束：不同的属性和关系具有不同的定义域和值域，例如合同签订的时间应该为日期格式，标的物的单价应该是浮点数等；

需要说明的是，步骤4.2为知识抽取，具体为从结构化、半结构化和非结构化等不同来源、不同结构的数据中抽取信息，利用BILSTM-CRF结构的模型抽取合同文本中的实体以及实体之间的关系。该实体以及实体间关系即为步骤4.1中所定义的要素和关系；同时，并通过要素抽取、关系抽取技术对这些信息进行处理，得到构建知识图谱需要的实体三元组。

当前已经确定的数据来源：合同文本。其中包括三种类型的数据，如下：

1.半结构化和非结构化数据：合同原文本。

2.结构化数据：合同原文本中包含的表格数据，如当事人信息、买卖标的物等。

未确定的数据来源：在预训练语言模型中(如BERT)和词向量(如Word2Vec)，会用其他来源的数据训练模型，比如法律领域和新闻领域，以提升知识抽取的精度和广度。

进一步地，在步骤4.2中，还包括对合同文本中的不符规格要素进行标注以及对缺失要素进行注释，需要对当前已抽取的要素进行合理性验证和偏差校正，告诉模型什么是错的，提高模型泛化能力；帮我们修订更严谨的标注规范；规整合同数据，进而保证合同知识图谱中数据的准确性。具体为：

标注问题和注释缺失可以对数据标注规范起到指导的作用。进一步具体来说，数据标注人员根据要素抽取结果对慧点提供的合同数据库中已标注的数据进行检查。若标注过程出现失误，则由标注人员进行标注修正；若合同数据本身出现缺失或错误，则在与慧点公司协商确认后，由慧点公司提供相应数量的新合同，以更新合同数据库。综上，通过标注问题和注释缺失两种操作，可以实现对要素抽取结果以及合同数据质量的正向反馈，进一步提升要素抽取的精度。知识图谱类似于“数据库”，包含实体以及实体之间的关系，可提供数据以及理论支撑。

其中，发现问题条款以及该条款所属类别或要素以及该要素所属类别可以利用已有的规则模板。

综上，步骤4.2的合同知识抽取，具体包括：对所述合同数据库进行信息抽取，对所述合同数据库中的合同文本的实体以及实体(要素和关系)之间关系进行抽取。初步获取知识三元组，根据所属合同知识图谱的三元组，初步构建合同知识图谱。

需要说明的是，步骤4.3为知识融合，对异构数据执行实体对齐(亦称为实体匹配)、实体链接两个步骤，解决数据冲突问题，包括实体属性值不一致、实体属性缺失等。进一步，借助知识推理技术，丰富和拓展现有知识，为合同决策提供有价值的信息。

其中，异构数据包括：

1.专属实体：合同类型不同，其中部分实体类型是该类型独有的。买卖合同中的标的物、租赁合同中的租赁项目、技术合同中的技术开发和技术服务、建设合同中工程项目、油田合同中的油田工程。

2.长、短实体：合同实体按实体的长度划分(以词语和语句为标准)可分为长实体和短实体，通常长实体指条款类实体，如违约条款、解除条款；短实体指要素类实体，如当事人甲乙方信息、合同基本信息。

3.时序型实体：合同中的合同开始时间、合同结束时间、签订时间、验收时间、交付时间、生效日期均属于时序型数据。

4.关系型实体：违约条款中包括违约方、违约情形、被违约方和违约责任，其中违约方和被违约方具有“违约”的关系；交付条款中包括交付时间、交付地点、运输方式、交付内容、验收条款、风险转移条款，其中交付方和验收方(甲方和乙方)具有“交付”的关系；争议解决中包括争议解决条款、争议解决方式(诉讼或仲裁)和争议解决地，其中争议双方存在“争议”和“解决”的关系。

综上，合同知识图谱构建中存在4种类型的异构数据。

该阶段需要将从多个数据源(已有的合同以及爬取或购买的合同文本数据)抽取的三元组结构的知识，包括实体以及实体之间的关系进行融合，构建数据之间的关联关系，从而保证知识图谱中的数据一致性和准确性。

在知识融合阶段需要对实体和实体的属性进行对齐。在实体对齐阶段首先考虑通过实体的唯一标识进行实体对齐，例如合同标题对应合同文本的类型等，若实体不具有唯一标识的信息则需要使用基于相似性的打分函数来实现。

实现内容：判断同一合同知识图谱内的两个实体是否指向同一对象，例如“大庆石油学院”、“东北石油”两个实体均指向“东北石油大学”这一物理对象，此时将二者对齐(或合并)为实体“东北石油大学”。

实现方法：基于表示学习的方法。

具体实现：由于在同一合同知识图谱中做实体对齐，即两个待对齐实体处于同一向量空间中，因此利用GNN模型对两个实体名、两个实体的实体描述进行向量化编码，然后对二者进行向量相似度打分，最后对在统一向量空间中相近的实体视为相同实体，成为一个对齐。

同理，属性的对齐也是通过基于本体与词汇集的相似度评分算法来实现，通过构建的本体来标识两个相同的属性概念从而实现实体属性的对齐。主要包括两步：

候选实体生成：根据已抽取的要素，找到知识图谱中所有可能的实体，组成候选实体集。

实体消歧：首先引入entity embedding，然后通过attention机制捕获已抽取要素所在的局部上下文的表征，该部分为Local model；最后考虑实体间的篇章主题一致性(coherence)，联合消歧，该部分即为Global Model。

综上，步骤4.3的合同知识融合，具体包括：对所述合同文本中的实体以及实体之间的关系进行融合。对存在异构情况的三元组数据进行知识融合，提升合同知识图谱的“审查”能力；

需要说明的是，步骤4.4为知识存储。本步骤实现三元组数据的持久化存储，基于已构建的合同审查知识图谱推荐系统的实现。知识的存储分为两种：基于表结构的存储和基于图结构的存储。

项目采用基于图结构的存储方式，用节点表示实体，用边表示实体之间的关系。节点可以定义属性，用于描述实体的特征。基于图结构存储的优点是不仅可以为节点定义属性，还可以为表定义属性。因此这种存储方式可以细致地刻画实体之间的关系。

目前最典型的开源图数据库是Neo4j。Neo4J是基于Java实现的它是一个具备完全事务特性的高性能数据库，具有成熟数据库的所有特性。Neo4j是一个本地数据库，这意味着不需要启动数据库服务器，应用程序不用通过网络访问数据库服务，而是直接在本地对其进行操作，因此访问速度快，并具有高性能，轻量级等优势。

知识推理主要对合同知识图谱进行补全，即对三元组知识缺失的实体以及实体间的关系进行推理和补充，因此知识推理能丰富和扩展合同知识图谱的内容。

技术：基于不完备知识库的关联规则挖掘算法(AMIE自动化规则推理)

具体实现：AMIE通过依次学习预测每种关系的规则，对于每种关系，从规则体为空的规则开始，通过添加三种挖掘算子扩展规则体部分，保留支持度高于阈值的候选规则。

这三种算子分别为：

1.悬挂边：指边的一端是一个未出现过的变量，而另一端(变量或常量)是在规则中出现过的；

2.实例边：实例边与悬挂边类似，边的一端也是在规则中出现过的常量或变量，但另一端是未出现过的常量，也就是知识图谱中的实体；

3.闭合边：指连接两个已经存在规则中的元素(常量或变量)的边。

综上，步骤4.4的知识存储对合同知识图谱的三元组知识进行存储，我们应用图数据库Neo4j存储合同知识图谱，便于以后为合同审查提供知识数据，也就是条款或者要素。

其次，知识图谱中的知识需要用一个数据库存储，因此“知识存储”步骤应运而生。此外，图数据库所提供的SPARQL查询操作(类似于数据库的SQL增删改查)可以为合同审查提供数据支撑。

实施方式六，本实施方式是对实施方式五所述的一种基于深度学习和知识图谱的合同审查方法的进一步限定，本实施方式中，对所述步骤4.4之后的操作做了进一步限定，还包括：基于不完备知识库的关联规则挖掘算法，对所述合同知识图谱的三元组进行补充；然后执行步骤4.5。

本实施方式中，具体地，构建一种以预训练与知识建模技术联合的合同文本知识图谱，首先以预训练模型为基础，识别合同文本中的实体及其关系；然后利用知识图谱进行关系的可视化表示，构建知识网络；最后利用这个网络进行知识推理，发现更多的潜在的合同文本关系能进一步丰富知识图谱的语义信息，实现知识图谱的更新和扩展。“知识推理”技术方案需要进一步调研。其中采用protege来构建合同本体，即刻画了一个合同文本领域的基本框架，主要是在概念层面；对合同文本上下文的知识进行表示学习，即将图谱表示成大量的三元组，通过这个三元组去刻画实体和关系的向量表示；利用D2R技术(如D2RServer，D2RQ Engine以及D2RQ Mapping语言)进行本体与知识的映射来构建知识图谱，即除了概念外，更全面的补充了实体、实体间的关系和属性值，已完成数据的结构化，同时也赋予结构化数据在合同审查系统的搜索、推荐场景的可计算能力。

本实施方式可以进一步补全合同知识图谱中知识缺失的部分实体或实体间的关系，完善合同知识图谱。

实施方式七、如图8所示，为本实施方式的一个具体案例，是针对买卖合同的审查，其具体流程为：首先对待审合同进行分类，获取该待审合同的分类为买卖类合同；进而调用买卖类的要素抽取模型，并对该待审合同进行买卖类合同的要素抽取，获取到买卖类要素内容、买卖类要素类型、买卖类条款内容和买卖类条款类型；将该抽取的数据输入以“样品买卖合同”为基础构建的合同知识图谱中，进行检索，如图9所示，为以“样品买卖合同”为基础构建的知识图谱——买卖合同：合同编号、签订方、签订时间、标的物、其他等，获取到对应的检索条款(从图9中可以看到，各个实体间存在着各种各样的关联关系；而这些实体往往又是合同文本标签化内容之一；通过知识图谱，能够很直观的反映这些实体间的联系。)；最后根据该检索条款，对待审合同的条款进行比对，最终获取待审合同的审查结果。

Claims

1.一种基于深度学习和知识图谱的合同审查方法，其特征在于，所述方法包括：

步骤1、对待审合同进行分类，所述分类具体包括：

否则，执行步骤1.2；

2.根据权利要求1所述的一种基于深度学习和知识图谱的合同审查方法，其特征在于，步骤1.1中所述的，根据所述待审合同的标题，对所述待审合同进行分类，具体包括：

采用词向量表示待审合同的标题文本；

3.根据权利要求1所述的一种基于深度学习和知识图谱的合同审查方法，其特征在于，步骤1.2中所述的，对所述待审合同进行分类，具体采用HAN模型对所述待审合同进行分类，所述HAN模型由词序列编码器、词级attention层、句子序列编码器和句子级attention层组成。

4.根据权利要求1所述的一种基于深度学习和知识图谱的合同审查方法，其特征在于，步骤2中所述的要素抽取模型是基于深度学习建立得到，具体包括：

5.根据权利要求1所述的一种基于深度学习和知识图谱的合同审查方法，其特征在于，所述步骤4中，所述合同知识图谱的是通过下述方法建立的，所述方法具体包括：

步骤4.1、构建合同知识图谱的本体；

6.根据权利要求5所述的一种基于深度学习和知识图谱的合同审查方法，其特征在于，步骤4.1中所述的，构建合同知识图谱的本体，具体包括：

7.根据权利要求5所述的一种基于深度学习和知识图谱的合同审查方法，其特征在于，所述步骤4.4之后，还包括：基于不完备知识库的关联规则挖掘算法，对所述合同知识图谱的三元组进行补充；然后执行步骤4.5。

8.一种基于深度学习和知识图谱的合同审查装置，其特征在于，所述装置包括合同分类模块、要素抽取模型选取模块、要素条款抽取模块、检索条款获取模块和审核模块；

否则，执行所述文本分类模块；

所述审核模块，用于基于所述对应的检索条款，对所述待审条款进行审核。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，当所述处理器运行所述存储器存储的计算机程序时执行权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。