CN113935335A - 一种合同文本合规性智能检查方法 - Google Patents

一种合同文本合规性智能检查方法 Download PDF

Info

Publication number
CN113935335A
CN113935335A CN202111540264.2A CN202111540264A CN113935335A CN 113935335 A CN113935335 A CN 113935335A CN 202111540264 A CN202111540264 A CN 202111540264A CN 113935335 A CN113935335 A CN 113935335A
Authority
CN
China
Prior art keywords
contract text
text
contract
vector
compliance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111540264.2A
Other languages
English (en)
Other versions
CN113935335B (zh
Inventor
胡为民
郑喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dib Enterprise Risk Management Technology Co ltd
Original Assignee
Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dib Enterprise Risk Management Technology Co ltd filed Critical Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority to CN202111540264.2A priority Critical patent/CN113935335B/zh
Publication of CN113935335A publication Critical patent/CN113935335A/zh
Application granted granted Critical
Publication of CN113935335B publication Critical patent/CN113935335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种合同文本合规性智能检查方法,包括步骤:对合同文本和检查清单进行预处理,分别得到合同文本语义表征向量和检查清单语义表征向量;对检查清单进行分类,以及标签标注;将合同文本语义表征向量和检查清单语义表征向量降维映射,得到合同文本低维特征向量和检查清单低维特征向量;为合同文本低维特征向量添加字符编码,得到新的合同文本低维特征向量,进而提取合同文本语义信息,得到合同文本语义特征向量;根据合同文本语义特征向量和检查清单低维特征向量,计算合同文本与检查清单之间的相关性,进而得到合同文本的合规概率,若概率大于阈值,则合规,否则不合规;该方法提高了各企业和有关部门对合同合规性审计的准确性。

Description

一种合同文本合规性智能检查方法
技术领域
本发明属于自然语言处理领域,尤其涉及一种合同文本合规性智能检查方法。
背景技术
合同是指当事人或当事双方之间设立、变更、终止民事关系的协议,合同合规性检测是指内部审计机构依据一定的审计程序,运用现代审计技术和方法,对合同的合规性进行客观评价,防范和控制合同的风险,维护当事人的合法权益。自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其在语义分析等方面有广泛的应用,为采用自然语言处理技术实现合同正文文本合规性智能检查提供了可行的技术路径,但存在一些技术难点:(1)合同正文文本类型复杂,内容多样化且长度不一,需要进行统一的数据编码,才能够使用机器学习模型进行计算。(2)合规性检查项复杂多样,需要对合同正文文本进行深度语义分析,准确提取合同篇章上下文语义特征。
发明内容
本发明的目的在于克服上述现有技术的不足,提供了一种能够提取合同正文文本和检查清单全局语义信息,并计算各检查项中的合规性概率的合同正文智能检查方法,具体为一种合同文本合规性智能检查方法。
本发明提供了一种合同文本合规性智能检查方法,该方法包括如下步骤:
S1:预处理,对合同文本进行预处理,构建合同文本语义表征向量;对检查清单进行预处理,构建检查清单语义表征向量;
S2:检查清单标注,根据多份合同文本对应的检查清单,构建海量合同文本数据集,对海量合同文本数据集中检查清单的各检查项进行分类,并且进行标注,得到合同正文检查项标签;根据合同文本语义表征向量和检查清单语义表征向量之间的相关性,构建多标签文本分类模型;
S3:在多标签文本分类模型中进行降维映射,将合同文本语义表征向量映射为合同文本低维特征向量,将检查清单语义表征向量映射为检查清单低维特征向量;
S4:在多标签文本分类模型中为合同文本低维特征向量添加字符位置编码,根据合同文本低维特征向量中的字符位置进行编码,得到新的合同文本低维特征向量;
S5:在多标签文本分类模型中提取合同文本语义信息,根据合同正文检查项标签对多标签文本分类模型进行有监督训练,在训练后的多标签文本分类模型中输入新的合同文本低维特征向量至多层全连接网络进行线性变换,得到多个全连接层特征向量,并根据多个全连接层特征向量计算自注意力相关性,得到合同文本语义特征向量;
S6:在多标签文本分类模型中计算合同文本与检查清单之间的相关性,将合同文本语义特征向量经过全连接网络进行线性变换,得到合同文本变换向量;将检查清单低维特征向量经过单全连接网络进行线性变换,得到检查清单变换向量;根据合同文本变换向量和检查清单变换向量进行计算,得到合同文本与检查清单之间的相关性;
S7:在多标签文本分类模型中计算合同文本合规性概率,根据合同文本与检查清单之间的相关性,得到合同文本合规概率,若概率大于阈值,则合同文本合规,否则合同文本不合规。
优选的,S1中,构建合同文本语义表征向量和检查清单语义表征向量的具体步骤为:
通过独热编码对合同文本进行预处理,采用GB2312编码,将合同文本的字符在GB2312编码中对应的序号索引数值设为1,其余数值为0,构建合同文本语义表征向量,记为
Figure 78884DEST_PATH_IMAGE001
,所述合同文本语义表征向量的尺寸为(t,6763),其中t为合同文本包含的字符数量;
通过独热编码对检查清单进行预处理,采用GB2312编码,将检查清单的检查项在GB2312编码中对应的序号索引数值设为1,其余数值为0,构建检查清单语义表征向量,记为
Figure 238075DEST_PATH_IMAGE002
,所述检查清单语义表征向量的尺寸为(ll),其中t为合同文本包含的字符数量,l为检查清单中检查项的总个数。
优选的,S2中,得到合同正文检查项标签的具体步骤为:
对于S1中的检查清单包含多个检查项,多个检查项存在合规、不合规两种分类,采用独热编码,将合规的检查项编码为1,不合规的编码为0,对编码后的检查项进行标签标注,得到合同正文检查项标签,合同正文检查项标签为向量,记为Y,向量的尺寸为(l,1)其中,l为检查清单中检查项的总个数。
优选的,S3中,进行降维映射的具体步骤为:
将合同文本语义表征向量
Figure 771825DEST_PATH_IMAGE001
进行一维宽卷积运算,映射为合同文本低维特征向量
Figure 91947DEST_PATH_IMAGE003
,合同文本低维特征向量
Figure 584109DEST_PATH_IMAGE003
的尺寸为(t,512),将检查清单语义表征向量
Figure 356893DEST_PATH_IMAGE002
进行一维宽卷积运算,映射为检查清单低维特征向量
Figure 694333DEST_PATH_IMAGE004
,检查清单低维特征向量
Figure 134542DEST_PATH_IMAGE004
的尺寸为(l,512),其中t为合同文本包含的字符数量,l为检查清单中检查项的总个数。
优选的,S4中,得到新的合同文本低维特征向量的具体步骤为:
对于合同文本低维特征向量中的字符位置进行PE编码,公式为:
Figure 532025DEST_PATH_IMAGE005
Figure 792105DEST_PATH_IMAGE006
其中pos为字符位置的索引,i为合同文本低维特征向量
Figure 936166DEST_PATH_IMAGE003
的索引,2i表示偶数索引,2i+1为奇数索引;
将合同文本低维特征向量的字符位置PE编码与合同文本低维特征向量
Figure 965302DEST_PATH_IMAGE003
相加,得到新的合同文本低维特征向量,公式为:
Figure 268107DEST_PATH_IMAGE007
其中,PE包括
Figure 281063DEST_PATH_IMAGE008
Figure 960306DEST_PATH_IMAGE009
优选的,S5中,得到合同文本语义特征向量的具体步骤为:
S5.1:根据合同正文检查项标签对多标签文本分类模型进行有监督训练,在训练后的多标签文本分类模型中输入新的合同文本低维特征向量至三层全连接网络进行线性变换,得到三个全连接层特征向量,分别记为
Figure 109527DEST_PATH_IMAGE010
Figure 848813DEST_PATH_IMAGE011
Figure 83485DEST_PATH_IMAGE012
,三个全连接层特征向量的尺寸均为(t,64);
S5.2:基于三个全连接层特征向量
Figure 300840DEST_PATH_IMAGE010
Figure 570147DEST_PATH_IMAGE011
Figure 949176DEST_PATH_IMAGE012
,采用循环自注意力方法计算自注意力相关性,得到合同文本语义特征向量,合同文本语义特征向量记为
Figure 939653DEST_PATH_IMAGE013
循环自注意力方法的计算公式为:
Figure 960699DEST_PATH_IMAGE014
其中,T表示转置。
优选的,S6中,得到合同文本与检查清单之间的相关性的具体步骤为:
S6.1:将合同文本语义特征向量
Figure 881251DEST_PATH_IMAGE013
分别经过两层全连接网络进行线性变换,得到两个合同文本变换向量,分别记为
Figure 24656DEST_PATH_IMAGE015
Figure 499500DEST_PATH_IMAGE016
,两个合同文本变换向量的尺寸均为(t,64);
S6.2:将检查清单低维特征向量
Figure 58657DEST_PATH_IMAGE004
经过单全连接网络,得到检查清单变换向量,检查清单变换向量记为
Figure 302556DEST_PATH_IMAGE017
,检查清单变换向量的尺寸为(l,64);
S6.3:根据两个合同文本变换向量
Figure 291897DEST_PATH_IMAGE015
Figure 254036DEST_PATH_IMAGE016
,以及检查清单变换向量
Figure 351305DEST_PATH_IMAGE017
,进行交叉注意力计算,公式为:
Figure 939458DEST_PATH_IMAGE018
其中R表示合同文本和检查清单之间的相关性,R的尺寸为(l,64),T表示转置。
优选的,S7中,合同文本合规性概率计算的具体步骤为:
根据合同文本和检查清单之间的相关性R,采用激活函数计算合同文本合规概率,合同文本合规概率记为P,公式为:
Figure 690245DEST_PATH_IMAGE019
若合同文本合规概率P大于阈值,则合同文本合规,否则,合同文本不合规。
有益效果:通过该方法实现了合同文本和检查清单的数据编码,提取合同文本和检查清单的全局语义信息,并计算合同文本在各合规性检查项的合规概率,自动化地对合同文本的合规性进行检查,提高了各企业以及有关部门对合同合法合规性审计的准确性和效率,减少了审计部门的人工审计成本,具有较高的使用价值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中的整体流程示意图。
图2为本发明实施中的网络架构图。
图3为本发明实施中S3至S7的流程示意图。
具体实施方式
下面将结合本发明的实施例中的附图,对本发明的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图2、图3所示,本实施例提供了一种合同文本合规性智能检查方法,该方法包括如下步骤:
S1:预处理,对合同文本进行预处理,相当于图2中合同文本数据编码,构建合同文本语义表征向量;对检查清单进行预处理,相当于图2中合规性表数据编码,构建检查清单语义表征向量;其中检查清单内容包括合同的主体条款、合同的变更、解除和违约等;
具体为,通过独热编码(one-hot)对合同文本进行预处理,采用GB2312编码,将GB2312编码的长度6763个字符作为独热编码(one-hot)的编码维度,将合同文本的字符在GB2312编码中对应的序号索引数值设为1,其余数值为0,构建合同文本语义表征向量,记为
Figure 405260DEST_PATH_IMAGE001
,所述合同文本语义表征向量的尺寸为(t,6763),其中t为合同文本包含的字符数量;
通过独热编码(one-hot)对检查清单进行预处理,采用GB2312编码,将检查清单的检查项在GB2312编码中对应的序号索引数值设为1,其余数值为0,构建检查清单语义表征向量,记为
Figure 837378DEST_PATH_IMAGE002
,所述检查清单语义表征向量的尺寸为(ll),其中t为合同文本包含的字符数量,l为检查清单中检查项的总个数。
S2:检查清单标注,根据多份合同文本对应的检查清单,构建海量合同文本数据集,对海量合同文本数据集中检查清单的各检查项进行分类,并且进行标注,得到合同正文检查项标签;根据合同文本语义表征向量和检查清单语义表征向量之间的相关性,构建多标签文本分类模型;
具体为,对于S1中的检查清单包含多个检查项,多个检查项存在合规、不合规两种分类,采用独热编码(one-hot),将合规的检查项编码为1,不合规的编码为0,对编码后的检查项进行标签标注,得到合同正文检查项标签,合同正文检查项标签为向量,记为Y,向量的尺寸为(l,1)其中,l为检查清单中检查项的总个数。
多标签文本分类数据集包括海量合同文本数据,标注了长度为l的检测标注,其中每一个标注对应检测清单每一检查项,若合规则标注1,不合规为0。该标注用于多标签文本分类模型损失函数的计算,对计算所得的损失值,采用梯度下降法训练,调整模型参数,构建多标签文本分类模型。
具体为,基于注意力机制,通过训练合同文本语义表征向量
Figure 324379DEST_PATH_IMAGE001
和检查清单语义表征向量
Figure 918171DEST_PATH_IMAGE002
之间的相关性构建多标签文本分类模型。如图2所示,该模型包括嵌入映射模块、顺序位置编码模块、循环自注意力模块和交叉注意力模块四部分。其中,嵌入映射模块由一维宽卷积构成,用于将高维的语义表征向量映射至低维的特征向量;顺序位置编码用于将合同文本中的字符索引编码至其对应的特征向量中;循环自注意力模块用于提取合同文本的上下文信息;交叉注意力模块用于计算合同文本与检查清单之间的相关性。
激活函数采用sigmoid函数,损失函数采用交叉熵损失,交叉熵损失函数公式如下:
Figure 323745DEST_PATH_IMAGE020
其中l为检查清单检查项个数,i为检查项索引,
Figure 684188DEST_PATH_IMAGE021
为第i个检查项的真实标注(合规为1,不合规为0),
Figure 757186DEST_PATH_IMAGE022
为sigmoid函数对第i个检查项的输出,即预测合规的概率。采用梯度下降法训练,调整多标签文本分类模型的参数,训练结束后固定多标签文本分类模型的参数,完成多标签文本分类模型的构建。
多标签分类模型以合同文本语义表征向量
Figure 521880DEST_PATH_IMAGE001
和检查清单语义表征向量
Figure 680329DEST_PATH_IMAGE002
为输入,通过计算二者之间的相关性,输出合同文本对于检查清单各检查项的合规概率,若合同文本合规概率大于阈值,阈值默认为0.8,则合同文本合规,否则,合同文本不合规,输出合规性检查结果即完成合规性检查。
在模型中具体为如下步骤:
S3:在多标签文本分类模型中进行降维映射,相当于图2中嵌入映射模块,将合同文本语义表征向量映射为合同文本低维特征向量,将检查清单语义表征向量映射为检查清单低维特征向量;
具体为,将合同文本语义表征向量
Figure 191600DEST_PATH_IMAGE001
进行一维宽卷积运算,映射为合同文本低维特征向量
Figure 119105DEST_PATH_IMAGE003
,合同文本低维特征向量
Figure 54700DEST_PATH_IMAGE003
的尺寸为(t,512),将检查清单语义表征向量
Figure 762762DEST_PATH_IMAGE002
进行一维宽卷积运算,映射为检查清单低维特征向量
Figure 74794DEST_PATH_IMAGE004
,检查清单低维特征向量
Figure 249948DEST_PATH_IMAGE004
的尺寸为(l,512),其中t为合同文本包含的字符数量,l为检查清单中检查项的总个数。
S4:在多标签文本分类模型中为合同文本低维特征向量添加字符位置编码,相当于图2中顺序位置编码,根据合同文本低维特征向量中的字符位置进行编码,得到新的合同文本低维特征向量;
具体为,对于合同文本低维特征向量中的字符位置进行PE编码,公式为:
Figure 356444DEST_PATH_IMAGE005
Figure 223906DEST_PATH_IMAGE006
其中pos为字符位置的索引,i为合同文本低维特征向量
Figure 339630DEST_PATH_IMAGE003
的索引,2i表示偶数索引,2i+1为奇数索引;
将合同文本低维特征向量的字符位置PE编码与合同文本低维特征向量
Figure 976148DEST_PATH_IMAGE003
相加,得到新的合同文本低维特征向量,公式为:
Figure 784704DEST_PATH_IMAGE007
其中,PE包括
Figure 139462DEST_PATH_IMAGE008
Figure 793297DEST_PATH_IMAGE009
S5:在多标签文本分类模型中提取合同文本语义信息,根据合同正文检查项标签对多标签文本分类模型进行有监督训练,在训练后的多标签文本分类模型中输入新的合同文本低维特征向量至多层全连接网络进行线性变换,得到多个全连接层特征向量,并根据多个全连接层特征向量计算自注意力相关性,相当于图2中自注意力模块,得到合同文本语义特征向量;
具体为,
S5.1:根据合同正文检查项标签对多标签文本分类模型进行有监督训练,在训练后的多标签文本分类模型中输入新的合同文本低维特征向量至三层全连接网络进行线性变换,得到三个全连接层特征向量,分别记为
Figure 284321DEST_PATH_IMAGE010
Figure 467041DEST_PATH_IMAGE011
Figure 323743DEST_PATH_IMAGE012
,三个全连接层特征向量的尺寸均为(t,64);
S5.2:基于三个全连接层特征向量
Figure 515690DEST_PATH_IMAGE010
Figure 595642DEST_PATH_IMAGE011
Figure 480421DEST_PATH_IMAGE012
,采用循环自注意力方法(Self-attention)计算自注意力相关性,提取上下语义信息,得到合同文本语义特征向量,合同文本语义特征向量记为
Figure 544192DEST_PATH_IMAGE013
循环自注意力方法(Self-attention)的计算公式为:
Figure 274251DEST_PATH_IMAGE023
其中,T表示转置。
S6:在多标签文本分类模型中计算合同文本与检查清单之间的相关性,将合同文本语义特征向量经过全连接网络进行线性变换,得到合同文本变换向量;将检查清单低维特征向量经过单全连接网络进行线性变换,得到检查清单变换向量;根据合同文本变换向量和检查清单变换向量进行计算,得到合同文本与检查清单之间的相关性;
具体为,
S6.1:将合同文本语义特征向量
Figure 739867DEST_PATH_IMAGE013
分别经过两层全连接网络进行线性变换,得到两个合同文本变换向量,分别记为
Figure 529968DEST_PATH_IMAGE015
Figure 815456DEST_PATH_IMAGE016
,两个合同文本变换向量的尺寸均为(t,64);
S6.2:将检查清单低维特征向量
Figure 614785DEST_PATH_IMAGE004
经过单全连接网络,得到检查清单变换向量,检查清单变换向量记为
Figure 934908DEST_PATH_IMAGE017
,检查清单变换向量的尺寸为(l,64);
S6.3:根据两个合同文本变换向量
Figure 898840DEST_PATH_IMAGE015
Figure 671624DEST_PATH_IMAGE016
,以及检查清单变换向量
Figure 9065DEST_PATH_IMAGE017
,进行交叉注意力计算,相当于图2中交叉注意力模块,公式为:
Figure 918115DEST_PATH_IMAGE024
其中R表示合同文本和检查清单之间的相关性,R的尺寸为(l,64),T表示转置。
S7:在多标签文本分类模型中计算合同文本合规性概率,根据合同文本与检查清单之间的相关性,得到合同文本合规概率,若概率大于阈值,则合同文本合规,否则合同文本不合规;
具体为,根据合同文本和检查清单之间的相关性R,采用激活函数(sigmoid)计算合同文本合规概率,合同文本合规概率记为P,公式为:
Figure 315598DEST_PATH_IMAGE019
若合同文本合规概率P大于阈值,阈值默认为0.8,则合同文本合规,否则,合同文本不合规,相当于图2中输出合规性检查结果。
本实施例提供的这种合同文本合规性智能检查方法具有如下有益效果:
通过该方法实现了合同文本和检查清单的数据编码,提取合同文本和检查清单的全局语义信息,并计算合同文本在各合规性检查项的合规概率,自动化地对合同文本的合规性进行检查,提高了各企业以及有关部门对合同合法合规性审计的准确性和效率,减少了审计部门的人工审计成本,具有较高的使用价值。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种合同文本合规性智能检查方法,其特征在于,包括步骤:
S1:预处理,对合同文本进行预处理,构建合同文本语义表征向量;对检查清单进行预处理,构建检查清单语义表征向量;
S2:检查清单标注,根据多份合同文本对应的检查清单,构建海量合同文本数据集,对海量合同文本数据集中检查清单的各检查项进行分类,并且进行标注,得到合同正文检查项标签;根据合同文本语义表征向量和检查清单语义表征向量之间的相关性,构建多标签文本分类模型;
S3:在多标签文本分类模型中进行降维映射,将合同文本语义表征向量映射为合同文本低维特征向量,将检查清单语义表征向量映射为检查清单低维特征向量;
S4:在多标签文本分类模型中为合同文本低维特征向量添加字符位置编码,根据合同文本低维特征向量中的字符位置进行编码,得到新的合同文本低维特征向量;
S5:在多标签文本分类模型中提取合同文本语义信息,根据合同正文检查项标签对多标签文本分类模型进行有监督训练,在训练后的多标签文本分类模型中输入新的合同文本低维特征向量至多层全连接网络进行线性变换,得到多个全连接层特征向量,并根据多个全连接层特征向量计算自注意力相关性,得到合同文本语义特征向量;
S6:在多标签文本分类模型中计算合同文本与检查清单之间的相关性,将合同文本语义特征向量经过全连接网络进行线性变换,得到合同文本变换向量;将检查清单低维特征向量经过单全连接网络进行线性变换,得到检查清单变换向量;根据合同文本变换向量和检查清单变换向量进行计算,得到合同文本与检查清单之间的相关性;
S7:在多标签文本分类模型中计算合同文本合规性概率,根据合同文本与检查清单之间的相关性,得到合同文本合规概率,若概率大于阈值,则合同文本合规,否则合同文本不合规。
2.根据权利要求1所述的一种合同文本合规性智能检查方法,其特征在于,S1中,构建合同文本语义表征向量和检查清单语义表征向量的具体步骤为:
通过独热编码对合同文本进行预处理,采用GB2312编码,将合同文本的字符在GB2312编码中对应的序号索引数值设为1,其余数值为0,构建合同文本语义表征向量,记为
Figure 608563DEST_PATH_IMAGE001
,所述合同文本语义表征向量的尺寸为(t,6763),其中t为合同文本包含的字符数量;
通过独热编码对检查清单进行预处理,采用GB2312编码,将检查清单的检查项在GB2312编码中对应的序号索引数值设为1,其余数值为0,构建检查清单语义表征向量,记为
Figure 868248DEST_PATH_IMAGE002
,所述检查清单语义表征向量的尺寸为(ll),其中t为合同文本包含的字符数量,l为检查清单中检查项的总个数。
3.根据权利要求2所述的一种合同文本合规性智能检查方法,其特征在于,S2中,得到所述合同正文检查项标签的具体步骤为:
对于S1中的检查清单包含多个检查项,多个检查项存在合规、不合规两种分类,采用独热编码,将合规的检查项编码为1,不合规的编码为0,对编码后的检查项进行标签标注,得到合同正文检查项标签,所述合同正文检查项标签为向量,记为Y,所述向量的尺寸为(l,1),其中l为检查清单中检查项的总个数。
4.根据权利要求3所述的一种合同文本合规性智能检查方法,其特征在于,S3中,进行降维映射的具体步骤为:
将合同文本语义表征向量
Figure 179143DEST_PATH_IMAGE001
进行一维宽卷积运算,映射为合同文本低维特征向量
Figure 839932DEST_PATH_IMAGE003
,所述合同文本低维特征向量
Figure 982200DEST_PATH_IMAGE003
的尺寸为(t,512),将检查清单语义表征向量
Figure 335821DEST_PATH_IMAGE002
进行一维宽卷积运算,映射为检查清单低维特征向量
Figure 868434DEST_PATH_IMAGE004
,所述检查清单低维特征向量
Figure 598492DEST_PATH_IMAGE004
的尺寸为(l,512),其中t为合同文本包含的字符数量。
5.根据权利要求4所述的一种合同文本合规性智能检查方法,其特征在于,S4中,得到所述新的合同文本低维特征向量的具体步骤为:
对于合同文本低维特征向量中的字符位置进行PE编码,公式为:
Figure 595267DEST_PATH_IMAGE005
Figure 119789DEST_PATH_IMAGE006
其中pos为字符位置的索引,i为合同文本低维特征向量
Figure 139698DEST_PATH_IMAGE003
的索引,2i表示偶数索引,2i+1为奇数索引;
将合同文本低维特征向量的字符位置PE编码与合同文本低维特征向量
Figure 204606DEST_PATH_IMAGE003
相加,得到新的合同文本低维特征向量,公式为:
Figure 993570DEST_PATH_IMAGE007
其中,PE包括
Figure 954573DEST_PATH_IMAGE008
Figure 527024DEST_PATH_IMAGE009
6.根据权利要求5所述的一种合同文本合规性智能检查方法,其特征在于,S5中,得到所述合同文本语义特征向量的具体步骤为:
S5.1:根据合同正文检查项标签对多标签文本分类模型进行有监督训练,在训练后的多标签文本分类模型中输入新的合同文本低维特征向量至三层全连接网络进行线性变换,得到三个全连接层特征向量,分别记为
Figure 333306DEST_PATH_IMAGE010
Figure 242356DEST_PATH_IMAGE011
Figure 108681DEST_PATH_IMAGE012
,三个全连接层特征向量的尺寸均为(t,64);
S5.2:基于三个全连接层特征向量
Figure 165499DEST_PATH_IMAGE010
Figure 775472DEST_PATH_IMAGE011
Figure 539029DEST_PATH_IMAGE012
,采用循环自注意力方法计算自注意力相关性,得到合同文本语义特征向量,所述合同文本语义特征向量记为
Figure 841834DEST_PATH_IMAGE013
循环自注意力方法的计算公式为:
Figure 120369DEST_PATH_IMAGE014
其中,T表示转置。
7.根据权利要求6所述的一种合同文本合规性智能检查方法,其特征在于,S6中,得到所述合同文本与检查清单之间的相关性的具体步骤为:
S6.1:将所述合同文本语义特征向量
Figure 268453DEST_PATH_IMAGE013
分别经过两层全连接网络进行线性变换,得到两个合同文本变换向量,分别记为
Figure 152095DEST_PATH_IMAGE015
Figure 422540DEST_PATH_IMAGE016
,两个合同文本变换向量的尺寸均为(t,64);
S6.2:将所述检查清单低维特征向量
Figure 394563DEST_PATH_IMAGE004
经过单全连接网络,得到检查清单变换向量,所述检查清单变换向量记为
Figure 80759DEST_PATH_IMAGE017
,检查清单变换向量的尺寸为(l,64);
S6.3:根据两个合同文本变换向量
Figure 84487DEST_PATH_IMAGE015
Figure 525833DEST_PATH_IMAGE016
,以及检查清单变换向量
Figure 982222DEST_PATH_IMAGE017
,进行交叉注意力计算,公式为:
Figure 472109DEST_PATH_IMAGE019
其中R表示合同文本和检查清单之间的相关性,R的尺寸为(l,64),T表示转置。
8.根据权利要求7所述的一种合同文本合规性智能检查方法,其特征在于,S7中,合同文本合规性概率计算的具体步骤为:
根据合同文本和检查清单之间的相关性R,采用激活函数计算合同文本合规概率,所述合同文本合规概率记为P,公式为:
Figure 64764DEST_PATH_IMAGE020
若合同文本合规概率P大于阈值,则合同文本合规,否则,合同文本不合规。
CN202111540264.2A 2021-12-16 2021-12-16 一种合同文本合规性智能检查方法 Active CN113935335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111540264.2A CN113935335B (zh) 2021-12-16 2021-12-16 一种合同文本合规性智能检查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111540264.2A CN113935335B (zh) 2021-12-16 2021-12-16 一种合同文本合规性智能检查方法

Publications (2)

Publication Number Publication Date
CN113935335A true CN113935335A (zh) 2022-01-14
CN113935335B CN113935335B (zh) 2022-03-22

Family

ID=79289148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111540264.2A Active CN113935335B (zh) 2021-12-16 2021-12-16 一种合同文本合规性智能检查方法

Country Status (1)

Country Link
CN (1) CN113935335B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457478A (zh) * 2019-08-09 2019-11-15 泰康保险集团股份有限公司 文本合规性检查方法及装置、电子设备和计算机可读介质
CN110705952A (zh) * 2019-08-15 2020-01-17 平安信托有限责任公司 一种合同审核方法及装置
CN111523301A (zh) * 2020-06-05 2020-08-11 泰康保险集团股份有限公司 合同文档合规性检查方法及装置
CN111930952A (zh) * 2020-09-21 2020-11-13 杭州识度科技有限公司 一种长文本级联分类方法、系统、设备及存储介质
CN112686049A (zh) * 2020-12-23 2021-04-20 平安普惠企业管理有限公司 文本审核方法、装置、设备及存储介质
WO2021086377A1 (en) * 2019-10-31 2021-05-06 Sion Power Corporation System and method for operating a rechargeable electrochemical cell or battery
CN113360603A (zh) * 2021-06-22 2021-09-07 杭州东方通信软件技术有限公司 一种合同相似性及合规性检测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457478A (zh) * 2019-08-09 2019-11-15 泰康保险集团股份有限公司 文本合规性检查方法及装置、电子设备和计算机可读介质
CN110705952A (zh) * 2019-08-15 2020-01-17 平安信托有限责任公司 一种合同审核方法及装置
WO2021086377A1 (en) * 2019-10-31 2021-05-06 Sion Power Corporation System and method for operating a rechargeable electrochemical cell or battery
CN111523301A (zh) * 2020-06-05 2020-08-11 泰康保险集团股份有限公司 合同文档合规性检查方法及装置
CN111930952A (zh) * 2020-09-21 2020-11-13 杭州识度科技有限公司 一种长文本级联分类方法、系统、设备及存储介质
CN112686049A (zh) * 2020-12-23 2021-04-20 平安普惠企业管理有限公司 文本审核方法、装置、设备及存储介质
CN113360603A (zh) * 2021-06-22 2021-09-07 杭州东方通信软件技术有限公司 一种合同相似性及合规性检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
佴小勇: "海外项目合同的审计条款与关联机制探析", 《法制与社会》 *

Also Published As

Publication number Publication date
CN113935335B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN109766524B (zh) 一种并购重组类公告信息抽取方法及系统
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN109635280A (zh) 一种基于标注的事件抽取方法
CN110888927B (zh) 简历信息抽取方法及系统
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
Kulkarni et al. Deep learning for NLP
Zhang et al. Aspect-based sentiment analysis for user reviews
CN110335653A (zh) 基于openEHR病历格式的非标准病历解析方法
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN114637827A (zh) 一种基于图神经网络的碳交易文本事件抽取方法
CN112328859B (zh) 一种基于知识感知注意力网络的虚假新闻检测方法
Chen et al. A deep learning method for judicial decision support
CN114140673A (zh) 一种违规图像识别方法、系统及设备
CN110852089A (zh) 基于智能分词与深度学习的运维项目管理方法
CN116340513A (zh) 一种基于标签与文本交互的多标签情感分类方法和系统
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN113935335B (zh) 一种合同文本合规性智能检查方法
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN114298052B (zh) 一种基于概率图的实体联合标注关系抽取方法和系统
Xia et al. Graph based family relationship recognition from a single image
CN112926336A (zh) 基于正文评论交互式注意力的微博案件方面级观点识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant