CN111523301B

CN111523301B - 合同文档合规性检查方法及装置

Info

Publication number: CN111523301B
Application number: CN202010503430.0A
Authority: CN
Inventors: 闫永泽; 刘设伟; 陈利琴
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-05-05
Anticipated expiration: 2040-06-05
Also published as: CN111523301A

Abstract

本发明提供了一种合同文档合规性检查方法及装置，该方法包括：对合同文档中每个句子进行分词，获得每个句子中每个词的词向量；将每个句子所包含的词的词向量进行合并，构成每个句子的第一句向量，所述第一句向量为与上下文无关的句向量；将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，所述第二句向量为包含上下文信息的句向量，所述上下文信息融合模型用于基于每个句子的第一句向量，获得每个句子的第二句向量；基于每个句子的第二句向量，判断每个句子的合规性。本发明可以用以对合同文档的合规性进行检查，准确度高。

Description

合同文档合规性检查方法及装置

技术领域

本发明涉及文本数据处理技术领域，尤其涉及一种合同文档合规性检查方法及装置。

背景技术

互联网保险行业是一个瞬息万变，而又面临强监管的行业。一方面，互联网保险公司需要不断推陈出新，开发符合市场需求的保险产品；另一方面，保险行业又受到严格的监管，任何产品的上市都需要符合监管的要求。保险公司法律合规审查需要应对大量的合同文档，保证所有的合同文档符合监管法律法规的要求。而现有的合同文档检查方法中，对每个句子检查时一般只考虑当前的句子本身，导致最后得到的检查结果并不准确。

发明内容

本发明实施例提出一种合同文档合规性检查方法，用以对合同文档的合规性进行检查，准确度高，该方法包括：

对合同文档中每个句子进行分词，获得每个句子中每个词的词向量；

将每个句子所包含的词的词向量进行合并，构成每个句子的第一句向量，所述第一句向量为与上下文无关的句向量；

将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，所述第二句向量为包含上下文信息的句向量，所述上下文信息融合模型用于基于每个句子的第一句向量，获得每个句子的第二句向量；

基于每个句子的第二句向量，判断每个句子的合规性。

本发明实施例提出一种合同文档合规性检查装置，用以对合同文档的合规性进行检查，准确度高，该装置包括：

分词模块，用于对合同文档中每个句子进行分词，获得每个句子中每个词的词向量；

第一句向量获得模块，用于将每个句子所包含的词的词向量进行合并，构成每个句子的第一句向量，所述第一句向量为与上下文无关的句向量；

第二句向量获得模块，用于将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，所述第二句向量为包含上下文信息的句向量，所述上下文信息融合模型用于基于每个句子的第一句向量，获得每个句子的第二句向量；

合规性判断模块，用于基于每个句子的第二句向量，判断每个句子的合规性。

本发明实施例还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述合同文档合规性检查方法。

本发明实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述合同文档合规性检查方法的计算机程序。

在本发明实施例中，对合同文档中每个句子进行分词，获得每个句子中每个词的词向量；将每个句子所包含的词的词向量进行合并，构成每个句子的第一句向量，所述第一句向量为与上下文无关的句向量；将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，所述第二句向量为包含上下文信息的句向量，所述上下文信息融合模型用于基于每个句子的第一句向量，获得每个句子的第二句向量；基于每个句子的第二句向量，判断每个句子的合规性。在上述过程中，在进行合同文档的合规性检查时，考虑了每个句子的包含上下文信息的句向量，即考虑了当前句子所处的特定的语境，使得在每个句子的合规性判断结果更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中电子雷管的位数据读取方法的流程图；

图2为本发明实施例合同文档合规性检查方法的详细流程图；

图3为本发明实施例中合同文档合规性检查装置的示意图；

图4为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

图1为本发明实施例中电子雷管的位数据读取方法的流程图，如图1所示，该方法包括：

步骤101，对合同文档中每个句子进行分词，获得每个句子中每个词的词向量；

步骤102，将每个句子所包含的词的词向量进行合并，构成每个句子的第一句向量，所述第一句向量为与上下文无关的句向量；

步骤103，将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，所述第二句向量为包含上下文信息的句向量，所述上下文信息融合模型用于基于每个句子的第一句向量，获得每个句子的第二句向量；

步骤104，基于每个句子的第二句向量，判断每个句子的合规性。

在本发明实施例提出的方法中，在进行合同文档的合规性检查时，考虑了每个句子的第二句向量，即考虑了当前句子所处的特定的语境，使得在每个句子的合规性判断结果更准确。

具体实施时，由于保险产品合同受到各种法律法规的约束，而业务部门负责撰写合同文档的人通常并不是法律专业出身，特别是保险产品文档一旦发生合规性问题，公司会承担巨大的损失，所以负责合同审查的人员承受着巨大的工作压力。本发明实施例提出的方法属于人工智能技术的一部分，即避免了人工合同文档检查，提升了工作效率、减少检查时间。本发明中的合同文档主要是法律合同，合规性检查主要是指符合监管法律法规的检查，当然，可以理解的是，本发明实施例提出的方法也可以用在其他文档的其他类型的检查中，例如符合某一具体规范的检查，而不只限定在符合监管法律法规上，相关变化例均应落入本发明的保护范围中。法律合规部门可以通过接口获取待审核的合同文档，然后采用本发明进行检查。

在一实施例中，所述方法还包括：

对合同文档进行预处理，提取合同文档中的每一个句子。

在上述实施例中，获取的待审核的合同文档可能是个压缩包，也可能存在格式错误等，需要先对合同文本进行解压缩、格式转换等预处理，获得满足要求的合同文本，例如获得标准格式的word文档，之后即可提取合同文档中的每一个句子。

具体实施时，可以对文档利用pydoc进行解析，解析获得每个句子的内容，然后分词时采用词嵌入方法对每个句子进行分词，获得每个句子中每个词的词向量，之后将每个句子所包含的词的词向量进行合并，构成每个句子的与上下文无关的句向量，即第一句向量。上述获得与上下文无关的句向量的效率高，且结果准确。词嵌入方法是指将单独的词在预定义的向量空间中表示为实值向量。其中每个单词映射到一个向量上。词嵌入方法包括人工神经网络、对词语同现矩阵降维、概率模型以及单词所在上下文的显式表示等，具体方法不再赘述。

具体实施时，获得每个句子的第二句向量的方法有多种，下面给出其中一个实施例。

在一实施例中，将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，包括：

将每个句子的第一句向量及对应的上下文的句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，所述上下文的句子为预设窗口内相邻的句子。

在上述实施例中，定义了一个上下文信息融合模型，通过将将每个句子的第一句向量及对应的上下文的句子的第一句向量输入至上下文信息融合模型，获得每个句子的第二句向量。例如，预设窗口为9时，对于每个句子来说，就是取当前句子之前的4个句子和当前句子之后的4个句子作为当前句的上下文的句子；如果当前句在当前章节中位于(或者接近)开始或结尾位置，无法取得所需的足够的句子，则采用同样长度的零矢量替代。通过上述方法获得了每个句子的第二句向量，且获得方法简便易用，只需要设计一个上下文信息融合模型即可。

具体实施时，上下文信息融合模型可以有多种，下面给出其中一个实施例。

在一实施例中，所述上下文信息融合模型包括基于循环神经网络的信息融合模型和基于注意力机制的模型。

所述基于循环神经网络的信息融合模型采用如下公式实现：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_t tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t tanh(c_t)

其中，

为前向隐藏层输出，

为后向隐藏层输出，i_t为输入门；σ为激活函数；c_t为单元状态；x_t为输入值；f_t为遗忘门；W_xi、W_hi、W_ci、b_i、W_xf、W_hf、W_cf、b_f、W_xc、W_hc、b_c、W_xo、W_ho、W_co、b_o为网络参数；

所述基于注意力机制的模型采用如下公式实现：

其中，Q,K,V分别为查询矩阵、查询域、查询域对应的值。

在上述实施例中，在基于循环神经网络(RNN)的信息融合模型中，句向量之间的依赖信息是根据句向量的内容以及句向量送入信息融合模型的顺序决定的。在实践中，主要采用双向LSTM模型实现，基于循环神经网络的信息融合模型采用的上述公式即为双向LSTM模型的公式。

在基于注意力(Attention)机制的模型中，所有句向量是同时送入基于注意力机制的模型的，基于注意力机制的模型没有句向量的相对位置信息，所以除了将句向量送入基于注意力机制的模型，还需要把相对位置信息送入基于注意力机制的模型。

上述两种上下文信息融合模型原理简单易实现，且多次试验表明最后获得每个句子的第二句向量的准确度高，当然，可以理解的是，还可以采用其他上下文信息融合模型，相关变化例均应落入本发明的保护范围。

具体实施时，基于每个句子的第二句向量，判断每个句子的合规性的方法有多种，下面给出其中一个实施例。

在一实施例中，基于每个句子的第二句向量，判断每个句子的合规性，包括：

对每个句子，基于预先设置的合规性分类规则对该句子的第二句向量进行分类，获得该句子在每个合规性判断类别下的概率；

确定概率最大的合规性判断类别为该句子的合规性判断结果。

在上述实施例中，预先设置的合规性分类规则可以是将合规性判断结果分为几类，每类分别为什么，这些都是可以预先设置的，可以根据实际情况来定，这里不做限制。例如，合规性判断结果可以为3类，具体为符合监管法律法规、较符合监管法律法规、不符合监管法律法规，基于预先设置的合规性分类规则对该句子的第二句向量进行分类时，上述每类合规性判断结果都对应一个概率，即每个合规性判断类别下的概率，例如，在一次合规性判断中，符合监管法律法规的概率为70％、较符合监管法律法规的概率为20％、不符合监管法律法规的概率为10％，此时，可以确定概率最大的合规性判断类别，即符合监管法律法规为该句子的合规性判断结果。

在一实施例中，采用分类器对每个句子的第二句向量进行分类。例如，在采用双向LSTM模型获得句向量后，双向LSTM模型后接softmax层作为分类器，对每个句子的第二句向量进行分类。

在一实施例中，所述方法还包括：

标识每个句子在合同文档中的序号；

基于所述序号和每个句子的合规性判断结果，在合同文档中对每个句子进行标识。

在上述实施例中，可以基于BERT模型对每个句子进行编码，获得每个句子的序号，后续判断完每个句子的合规性后，就可以基于所述序号，方便地在原始的合同文档中对每个句子的合规性进行标识，从而返回给法律合规部门供参考，增加了本方法的易用性。

基于上述实施例，本发明提出如下一个实施例来说明合同文档合规性检查方法的详细流程，图2为本发明实施例合同文档合规性检查方法的详细流程图，如图2所示，包括：

步骤201，对合同文档进行预处理，提取合同文档中的每一个句子；

步骤202，对合同文档中每个句子进行分词，获得每个句子中每个词的词向量；

步骤203，将每个句子所包含的词的词向量进行合并，构成每个句子的第一句向量；

步骤204，将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量；

步骤205，对每个句子，基于预先设置的合规性分类规则对该句子的第二句向量进行分类，获得该句子在每个合规性判断类别下的概率；

步骤206，确定概率最大的合规性判断类别为该句子的合规性判断结果；

步骤207，标识每个句子在合同文档中的序号；

步骤208，基于所述序号和每个句子的合规性判断结果，在合同文档中对每个句子进行标识。

当然，可以理解的是，上述详细流程还可以有其他变化例，相关变化例均应落入本发明的保护范围。

综上所述，在本发明实施例提出的方法中，将在进行合同文档的合规性检查时，考虑了每个句子的包含上下文信息的句向量，即考虑了当前句子所处的特定的语境，使得在每个句子的合规性判断结果更准确。另外，本发明可以快速进行合同文档的合规性检查，并进行标识，减少合同审查人员的工作量，提升合同合规性检查的效率。而且随着更多的合同合规性审查案例的积累，本发明实现的系统的智能性会逐步提升。

本发明实施例还提出一种合同文档合规性检查装置，其原理与合同文档合规性检查方法类似，这里不再赘述，图3为本发明实施例中合同文档合规性检查装置的示意图，该装置包括：

分词模块301，用于对合同文档中每个句子进行分词，获得每个句子中每个词的词向量；

第一句向量获得模块302，用于将每个句子所包含的词的词向量进行合并，构成每个句子的第一句向量，所述第一句向量为与上下文无关的句向量；

第二句向量获得模块303，用于将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，所述第二句向量为包含上下文信息的句向量，所述上下文信息融合模型用于基于每个句子的第一句向量，获得每个句子的第二句向量；

合规性判断模块304，用于基于每个句子的第二句向量，判断每个句子的合规性。

在一实施例中，所述装置还包括预处理模块305，用于：

对合同文档进行预处理，提取合同文档中的每一个句子。

在一实施例中，第二句向量获得模块303具体用于：

在一实施例中，合规性判断模块具体用于：

采用分类器对每个句子的第二句向量进行分类。

在一实施例中，所述装置还包括标识模块306，用于：

标识每个句子在合同文档中的序号；

综上所述，在本发明实施例提出的装置中，将在进行合同文档的合规性检查时，考虑了每个句子的包含上下文信息的句向量，即考虑了当前句子所处的特定的语境，使得在每个句子的合规性判断结果更准确。另外，本发明可以快速进行合同文档的合规性检查，并进行标识，减少合同审查人员的工作量，提升合同合规性检查的效率。而且随着更多的合同合规性审查案例的积累，本发明实现的系统的智能性会逐步提升。

本申请的实施例还提供一种计算机设备，图4为本发明实施例中计算机设备的示意图，该计算机设备能够实现上述实施例中的合同文档合规性检查方法中全部步骤，所述电子设备具体包括如下内容：

处理器(processor)401、存储器(memory)402、通信接口(CommunicationsInterface)403和总线404；

其中，所述处理器401、存储器402、通信接口403通过所述总线404完成相互间的通信；所述通信接口403用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输；

所述处理器401用于调用所述存储器402中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的合同文档合规性检查方法中的全部步骤。

本申请的实施例还提供一种计算机可读存储介质，能够实现上述实施例中的合同文档合规性检查方法中全部步骤，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的合同文档合规性检查方法的全部步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种合同文档合规性检查方法，其特征在于，包括：

基于每个句子的第二句向量，判断每个句子的合规性；

基于每个句子的第二句向量，判断每个句子的合规性，包括：

2.如权利要求1所述的合同文档合规性检查方法，其特征在于，还包括：

对合同文档进行预处理，提取合同文档中的每一个句子。

3.如权利要求1所述的合同文档合规性检查方法，其特征在于，将每个句子的第一句向量输入至上下文信息融合模型，接收上下文信息融合模型输出的每个句子的第二句向量，包括：

4.如权利要求1所述的合同文档合规性检查方法，其特征在于，所述上下文信息融合模型包括基于循环神经网络的信息融合模型和基于注意力机制的模型。

5.如权利要求1所述的合同文档合规性检查方法，其特征在于，采用分类器对每个句子的第二句向量进行分类。

6.如权利要求1所述的合同文档合规性检查方法，其特征在于，还包括：

标识每个句子在合同文档中的序号；

7.一种合同文档合规性检查装置，其特征在于，包括：

合规性判断模块，用于基于每个句子的第二句向量，判断每个句子的合规性；

合规性判断模块具体用于：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至6任一项所述方法的计算机程序。