CN110826321A - 合同文件风险校验方法、装置、计算机设备以及存储介质 - Google Patents
合同文件风险校验方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN110826321A CN110826321A CN201910889052.1A CN201910889052A CN110826321A CN 110826321 A CN110826321 A CN 110826321A CN 201910889052 A CN201910889052 A CN 201910889052A CN 110826321 A CN110826321 A CN 110826321A
- Authority
- CN
- China
- Prior art keywords
- risk
- sentences
- preset
- target
- contract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000003062 neural network model Methods 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 238000000926 separation method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013467 fragmentation Methods 0.000 claims description 4
- 238000006062 fragmentation reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 42
- 238000012216 screening Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 241001122767 Theaceae Species 0.000 description 4
- 238000003287 bathing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000005034 decoration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 235000021538 Chard Nutrition 0.000 description 2
- 241001465382 Physalis alkekengi Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Abstract
本发明实施例公开了一种合同文件风险校验方法、装置、计算机设备以及存储介质,所述方法包括:获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;对所确定的满足目标预设维度的多个目标短语句进行合并;使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。本发明基于数据处理提供一种合同文件风险校验方法,实现对合同文本的风险性校验,避免企业对具有风险的合同的使用。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种合同文件风险校验方法、装置、计算机设备以及存储介质。
背景技术
现有技术中,对于在线合同审核一般情况下都是通过人工的方式静态的进行审核,对于合同文本中存在的风险以及针对风险的提示并没有一个完整、合理的提示方式,如果当合同文本的数量达到一个量级时,通过人工在线审核的方式并不能达到高效率地批量审核的目的,并且通常会花费大量的人力和物力,随着技术的不断革新,业务合同数量的不断增长,人工在线的合同审核方式已经不能满足当下的业务需求与发展。
发明内容
有鉴于此,本发明实施例提供一种合同文件风险校验方法、装置、计算机设备以及存储介质,能够实现对合同文本的风险性校验,避免企业对具有风险的合同的使用。
一方面,本发明实施例提供了一种合同文件风险校验方法,该方法包括:
获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;
根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;
对所确定的满足目标预设维度的多个目标短语句进行合并;
使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。
另一方面,本发明实施例提供了一种合同文件风险校验装置,所述装置包括:
获取拆分单元,用于获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;
分类确定单元,用于根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;
合并单元,用于对所确定的满足目标预设维度的多个目标短语句进行合并;
风险校验单元,用于使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。
又一方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的合同文件风险校验方法。
再一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如上所述的合同文件风险校验方法。
本发明实施例提供一种合同文件风险校验方法、装置、计算机设备以及存储介质,其中方法包括:获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;对所确定的满足目标预设维度的多个目标短语句进行合并;使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。本发明基于数据处理提供一种合同文件风险校验方法,通过对整篇合同文本按照自然段进行拆分,对拆分后的合同文本进行分类,并从分类中的各短语句中筛选出符合条件的语句进地合并、整合,最后对整合后的语句进行风险校验,并根据校验结果得到风险语句再进一步地给出风险提示,实现对合同文本的准确校验,避免企业对具有风险的合同的使用。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种合同文件风险校验方法的应用场景示意图;
图2是本发明实施例提供的一种合同文件风险校验方法的示意流程图;
图3是本发明实施例提供的一种合同文件风险校验方法的另一示意流程图;
图4是本发明实施例提供的一种合同文件风险校验方法的另一示意流程图;
图5是本发明实施例提供的一种合同文件风险校验装置的示意性框图;
图6是本发明实施例提供的一种合同文件风险校验装置的另一示意性框图;
图7是本发明实施例提供的一种合同文件风险校验装置的另一示意性框图;
图8是本发明实施例提供的一种合同文件风险校验装置的另一示意性框图;
图9是本发明实施例提供的一种计算机设备的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的一种合同文件风险校验方法的应用场景示意图,所述应用场景包括:
(1)服务器,服务器用于提供数据传输的后端服务。服务器为一种计算机设备,可以为单台服务器或者服务器集群,也可以为云服务器,或者为专门的网页服务器,接收外部终端的访问,通过有线网络或者无线网络与终端连接。
(2)终端,图1所示终端包括终端1、终端2和终端3,所述终端通过访问服务器,从服务器上获取合同文件,在终端上将所获取合同文件进行风险校验,最后将风险校验的结果显示在当前显示页面中。所述终端可以为智能手机、智能手表、笔记本电脑、平板电脑或者台式电脑等电子设备,终端通过有线网络或者无线网络访问服务器。
请参阅图2,图2为本发明实施例提供的一种合同文件风险校验方法的示意流程图。如图2所示,该方法包括以下步骤S101~S104。
S101,获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句。
在本发明实施例中,所述合同文件可以但不限于智能合约的合同文本,所述使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句的步骤,具体为:根据所述合同文本中的段落分隔符号对合同文本进行分段落拆分,得到多个短语句,其中,所述段落分隔符号包括:句号或者换行符,所述短语句至少包含一个语句。在本实施例中,不同的业务部门可以根据自身的业务需求来订立相应的合同文本,业务部门所订立的合同文本可以预设合同文本模板库中。在交易时订立合同文本,获取交易时所订立的合同文本,并使用预设拆分规则对合同文本进行拆分,其中,所述预设拆分规则可以根据业务部门自身的业务实际情况进行确定,本申请选择根据每一自然段和每一自然段之间的句号或者换行符作为标识的拆分规则对合同文本进行分段落拆分,并得到拆分后的多个短语句,该多个短语句即为拆分后得到的合同文本中的多个自然段。
需要说明的是,在其它实施例中,也可采用其它规则对所述合同文本进行拆分,在本发明中不作限定。在对合同文本进行分段落拆分时,还可以使用换页符号作为合同文本的分段落标记进行拆分,具体如何对合同文本进行段落拆分在本发明中不作限定,只需完成对合同文本的拆分即可。
该实施例以合同文本中的段落分隔符作为文本分段标记进行拆分,能够快速的得到分段结果,并且使用合同文本中的自然段落中的段落分隔符作为文本分段符,在一定程度上保证合同文本数据的完整性。
S102,根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句。
在本发明实施例中,所述预设训练模型为用于短语句分类的神经网络模型,神经网络模型包括输入层、卷积层、激励层、池化层、全连接层以及输出层。具体实施中首先将待处理数据(所述多个短语句)输入到神经网络模型的输入层,输入层对待处理数据进行预处理后输出初始特征矩阵。
所述神经网络模型为:
Ot=g(V·St),
St=f(U·Xt+St-1);
其中,Xt是循环神经网络输入层的值,St、St-1是循环神经网络隐藏层的值,Ot是循环神经网络输出层的值,U是输入层到隐藏层的第一权重矩阵,V是隐藏层到输出层的第二权重矩阵,g()为非线性的激活函数,f()为softmax函数。
需要说明的是,在步骤S102之前,需要预先训练用于语句分类的神经网络模型,训练过程如下:将历史语句向量数据输入预先构建的用于语义标注的筛选模型中,得到针对每一历史语句向量对应的词性概率,若每一历史语句向量对应的语义概率大于或等于预先设置的第一概率,将对应的历史语句向量标注为标题语义的历史语句向量;若每一语句向量对应的语义概率大于或等于预先设置的第二概率,将对应的历史语句向量标注为基本信息语义的语句向量,若每一历史语句向量对应的语义概率大于或等于预先设置的第三概率,将对应的历史语句向量标注为条款语义的语句向量;更具体的,在本实施例中根据朴素贝叶斯算法对历史语句向量进行模型训练所构建的筛选模型;所述筛选模型用于判断输入的语句向量是标题语义的语句向量、基本信息语义的语句向量或是条款语义的语句向量。
其中,在构建用于语义标注的筛选模型时,需要将训练集中所包括的多个语句向量作为筛选模型的输入,并将每一词向量对应的语义作为筛选模型的输出,进行训练得到筛选模型。采用的朴素贝叶斯算法的模型如下:
其中, 表示训练集中ck类文档的数目,N表示训练集中语句向量总数;Tjk表示语句项tj在类别ck中出现的次数,V是所有类别的语句项集合。通过上述筛选模型作为语句向量语义性的分类器,就能判断输入的语句向量是标题语义的语句向量、基本信息语义的语句向量或是条款语义的语句向量。例如,将每一语句向量输入至朴素贝叶斯算法的模型中,当该数据出现在目标语义的向量类别的概率大于或等于50%(即第一概率设置为50%)则可将该数据视为标题语义的语句向量;当语句向量对应的语义概率在条件语义的语句向量类别的概率大于或等于50%(即第二概率设置为50%),将语句向量标注为基本信息语义的语句向量;当语句向量对应的语义概率在时间语义的语句向量类别的概率大于或等于50%(即第三概率设置为50%),将语句向量标注为条款语义的语句向量。
将进行语义标注后的语句向量结果作为神经网络的输入,并将对应的语句向量分类结果作为循环神经网络的输出,进行训练得到神经网络模型,通过将历史语句向量进行语义标注后的多个短语句作为神经网络的输入,并将对应的语句向量分类结果作为循环神经网络的输出,就能训练得到第一权重矩阵、第二权重矩阵、及神经网络模型,通过这种方式得到作为后续语句向量分类的模型。在得到预先训练好的神经网络模型之后,将用户的语句向量训练结果输入至预先训练得到的神经网络模型中,根据预设的神经网络模型对用户的语句向量进行快速和智能化的分类。
从已分类的多个短语句中获取满足目标预设维度的多个目标短语句,其中,所述目标预设维度包括合同标题、合同当事人基本信息以及合同条款,本实施例中的目标预设维度可以通过当前显示页面中提供的选择栏进行选择,以合同文件为例,在当前显示页面中会提供选择栏供用户选择目标预设维度,在选择栏中预先设置三个栏目,分别包括“合同标题”栏目、“合同当事人基本信息”栏目、“合同条款”栏目,用户在选择栏的下拉栏目例表中选择其中的一栏作为目标预设维度,当用户选择目标预设维度后,在当前显示页面中就是显示出符合用户所选择的栏目的目标短语句,例如以合同条款为目标预设维度,当用户在选择栏的下拉栏目例表中选择“合同条款”的栏目作为目标预设维度后,便触发选择指令从已分类的多个短语句中获取到语句语义为合同条款的多个目标短语句,并在当前显示页面的预设显示框中显示所获取的多个目标短语句。
S103,对所确定的满足目标预设维度的多个目标短语句进行合并。
在本发明实施例中,使用strcat函数对多个目标短语句进行合并,按照多个目标短语句的先后顺序,先将各目标短语句转换成计算机可识别的代码程序,再使用strcat函数按照先后顺序将多个目标语句进行拼接。
进一步地,如图3所示,所述步骤S103包括如下步骤S201~S202:
S201,根据多个目标短语句的先后顺序,将各目标短语句转换成计算机可识别的代码程序。
具体的,将各目标短语句转换成计算机可识别的代码程序的具体过程为:对所述目标短语句包括的自然语言文字及标点符号进行编译,以得到所述计算机可识别的代码程序,其中,编译就是把高级语言变成计算机可识别的语言。编译程序把一个源程序翻译成目标程序的工作过程分为五个阶段:词法分析、语法分析、语义检查和中间代码生成、目标代码生成。目前,将自然语言编译成计算机可执行的语言是可执行的,由于本发明实施例中的目标短语句为描述语言,该目标短语句是上述按照预设的规则结构将自然语言文字辅以标点符号组合而成的,标点符号表示了目标短语句中不同自然语言文字之间的逻辑关系,那么,在执行本发明实施例时,是可以按照所述预设的规则结构对目标短语句中的描述语言进行编译,并得到对应的计算机可识别的代码程序。在编译的过程中,将结构化的自然语言文字生成对应的计算机代码指令,以及将标点符号生成对应的计算机代码运算符;根据所述计算机代码运算符,将所述计算机代码指令进行逻辑组合生成计算机可识别的代码程序数据。例如:目标短语句1“因本房屋所有权转移所发生的更名费由甲方承担”,目标短语句2“房屋售价不包含物品:能移动的物品,包括家用电器、床、沙发、茶几、桌子、椅子、集成灶”,目标短语句3“房屋售价包含物品:不能移动的物品,包括两个大衣柜、所有灯具所有卫生洁具、洗浴电热水器、厨房橱柜、鞋柜、有线电视机顶盒等不能拆除装饰”,将目标短语句1、2、3转换成计算机可识别的代码程序可以为:chard[20]="因本房屋所有权转移所发生的更名费由甲方承担",chars[41]="房屋售价不包含物品:能移动的物品,包括家用电器、床、沙发、茶几、桌子、椅子、集成灶",charh[65]="房屋售价包含物品:不能移动的物品,包括两个大衣柜、所有灯具所有卫生洁具、洗浴电热水器、厨房橱柜、鞋柜、有线电视机顶盒等不能拆除装饰"。
S202,使用strcat函数按照先后顺序将多个目标短语句对应的计算机可识别的代码程序进行拼接。
具体的,例如:对于目标短语句1、2、3转换成计算机可识别的代码程序可以为:chard[20]="因本房屋所有权转移所发生的更名费由甲方承担",chars[41]="房屋售价不包含物品:能移动的物品,包括家用电器、床、沙发、茶几、桌子、椅子、集成灶",charh[65]="房屋售价包含物品:不能移动的物品,包括两个大衣柜、所有灯具所有卫生洁具、洗浴电热水器、厨房橱柜、鞋柜、有线电视机顶盒等不能拆除装饰",再使用strcat函数按照先后顺序进行拼接的格式可以为strcat(d,s,h),最后得到拼接后的语句为"因本房屋所有权转移所发生的更名费由甲方承担房屋售价不包含物品:能移动的物品,包括家用电器、床、沙发、茶几、桌子、椅子、集成灶房屋售价包含物品:不能移动的物品,包括两个大衣柜、所有灯具所有卫生洁具、洗浴电热水器、厨房橱柜、鞋柜、有线电视机顶盒等不能拆除装饰"。
该实施例将多个目标短语句使用strcat函数进行合并拼接,当需要对短语句进行风险校验时,使用合并语句进行风险校验操作即可,从而避免多次使用不同的目标短语句进行校验的繁琐操作,并能够提高风险校验的操作效率。
S104,使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。
在本发明实施例中,所述预设校验规则可以根据具体的业务需求以及实际场景进行制定,本实施例使用如下规则进行风险校验,例如:使用关键词A在合并后的语句中查找是否存在符合的字符串,若在合并后的语句中查找到与关键词A相对应的字符串,则提示对应的合同中存在风险语句。在确定了合同文本的风险语句后,将对应的风险语句进行字体放大并显示在当前显示页面中,也可以将对应的风险语句进一步渲染成其他颜色(如黄色、红色、绿色等)的字体并可区别于当前合同文本中正常语句的字体颜色再显示在当前显示页面中。
进一步地,如图4所示,所述使用预设校验规则对合并后的多个目标语句进行风险校验,并确定所述合同文本的风险语句的步骤,包括以下步骤S301~S302:
S301,使用预设风险关键词在合并后的多个目标短语句中查找是否存在与所述预设风险关键词相匹配的字符串。
S302,若查找到存在与所述预设风险关键词相匹配的字符串,确定所述字符串对应的目标短语句,并将所确定的目标短语句作为所述合同文本的风险语句。
具体的,例如:在本实施例中预设风险关键词为关键词A,若通过关键词A在合并后的语句中查找到相对应的字符串,根据该字符串确定该字符串对应于合同文本中的目标短语句,并将所确定的目标短语句作为所述合同文本中的风险语句。
由以上可见,本发明实施例通过获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;对所确定的满足目标预设维度的多个目标短语句进行合并;使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。本发明基于数据处理提供一种合同文件风险校验方法,通过对整篇合同文本按照自然段进行拆分,对拆分后的合同文本进行分类,并从分类中的各短语句中筛选出符合条件的语句进地合并、整合,最后对整合后的语句进行风险校验,并根据校验结果得到风险语句再进一步地给出风险提示,实现对合同文本的准确校验,避免企业对具有风险的合同的使用。
请参阅图5,对应上述一种合同文件风险校验方法,本发明实施例还提出一种合同文件风险校验装置,该装置100包括:获取拆分单元101、分类确定单元102、合并单元103、风险校验单元104。
其中,获取拆分单元101,用于获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;
分类确定单元102,用于根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;
合并单元103,用于对所确定的满足目标预设维度的多个目标短语句进行合并;
风险校验单元104,用于使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。
由以上可见,本发明实施例通过获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;对所确定的满足目标预设维度的多个目标短语句进行合并;使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。本发明基于数据处理提供一种合同文件风险校验方法,通过对整篇合同文本按照自然段进行拆分,对拆分后的合同文本进行分类,并从分类中的各短语句中筛选出符合条件的语句进地合并、整合,最后对整合后的语句进行风险校验,并根据校验结果得到风险语句再进一步地给出风险提示,实现对合同文本的准确校验,避免企业对具有风险的合同的使用。
请参阅图6,所述获取拆分单元101,包括:
拆分子单元101a,用于根据所述合同文本中的段落分隔符号对合同文本进行分段落拆分,得到多个短语句,其中,所述段落分隔符号包括:句号或者换行符,所述短语句至少包含一个语句。
请参阅图7,所述合并单元103,包括;
转换单元103a,用于根据多个目标短语句的先后顺序,将各目标短语句转换成计算机可识别的代码程序。
拼接单元103b,用于使用strcat函数按照先后顺序将多个目标短语句对应的计算机可识别的代码程序进行拼接。
请参阅图8,所述风险校验单元104,包括:
查找单元104a,用于使用预设风险关键词在合并后的多个目标短语句中查找是否存在与所述预设风险关键词相匹配的字符串;
校验子单元104b,用于若查找到存在与所述预设风险关键词相匹配的字符串,确定所述字符串对应的目标短语句,并将所确定的目标短语句作为所述合同文本的风险语句。
上述合同文件风险校验装置与上述合同文件风险校验方法一一对应,其具体的原理和过程与上述实施例所述方法相同,不再赘述。
上述合同文件风险校验装置可以实现为一种计算机程序的形式,计算机程序可以在如图9所示的计算机设备上运行。
图9为本发明一种计算机设备的结构组成示意图。该设备可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑或者台式电脑。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参照图9,该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中,该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种合同文件风险校验方法。该计算机设备500的处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序被处理器执行时,可使得处理器502执行一种合同文件风险校验方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502执行所述计算机程序时实现如下操作:
获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;
根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;
对所确定的满足目标预设维度的多个目标短语句进行合并;
使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。
在一个实施例中,所述使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句,包括:
根据所述合同文本中的段落分隔符号对合同文本进行分段落拆分,得到多个短语句,其中,所述段落分隔符号包括:句号或者换行符,所述短语句至少包含一个语句。
在一个实施例中,所述预设训练模型为用于短语句分类的神经网络模型,
所述神经网络模型为:
Ot=g(V·St),
St=f(U·Xt+St-1);
其中,Xt是循环神经网络输入层的值,St、St-1是循环神经网络隐藏层的值,Ot是循环神经网络输出层的值,U是输入层到隐藏层的第一权重矩阵,V是隐藏层到输出层的第二权重矩阵,g()为非线性的激活函数,f()为softmax函数。
在一个实施例中,所述对所确定的满足目标预设维度的多个目标短语句进行合并,包括;
根据多个目标短语句的先后顺序,将各目标短语句转换成计算机可识别的代码程序;
使用strcat函数按照先后顺序将多个目标短语句对应的计算机可识别的代码程序进行拼接。
在一个实施例中,所述使用预设校验规则对合并后的多个目标语句进行风险校验,并确定所述合同文本的风险语句,包括:
使用预设风险关键词在合并后的多个目标短语句中查找是否存在与所述预设风险关键词相匹配的字符串;
若查找到存在与所述预设风险关键词相匹配的字符串,确定所述字符串对应的目标短语句,并将所确定的目标短语句作为所述合同文本的风险语句。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现以下步骤:
获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;
根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;
对所确定的满足目标预设维度的多个目标短语句进行合并;
使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。
在一个实施例中,所述使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句,包括:
根据所述合同文本中的段落分隔符号对合同文本进行分段落拆分,得到多个短语句,其中,所述段落分隔符号包括:句号或者换行符,所述短语句至少包含一个语句。
在一个实施例中,所述预设训练模型为用于短语句分类的神经网络模型,
所述神经网络模型为:
Ot=g(V·St),
St=f(U·Xt+St-1);
其中,Xt是循环神经网络输入层的值,St、St-1是循环神经网络隐藏层的值,Ot是循环神经网络输出层的值,U是输入层到隐藏层的第一权重矩阵,V是隐藏层到输出层的第二权重矩阵,g()为非线性的激活函数,f()为softmax函数。
在一个实施例中,所述对所确定的满足目标预设维度的多个目标短语句进行合并,包括;
根据多个目标短语句的先后顺序,将各目标短语句转换成计算机可识别的代码程序;
使用strcat函数按照先后顺序将多个目标短语句对应的计算机可识别的代码程序进行拼接。
在一个实施例中,所述使用预设校验规则对合并后的多个目标语句进行风险校验,并确定所述合同文本的风险语句,包括:
使用预设风险关键词在合并后的多个目标短语句中查找是否存在与所述预设风险关键词相匹配的字符串;
若查找到存在与所述预设风险关键词相匹配的字符串,确定所述字符串对应的目标短语句,并将所确定的目标短语句作为所述合同文本的风险语句。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例合同文件风险校验方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例合同文件风险校验装置中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种合同文件风险校验方法,其特征在于,所述方法包括:
获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;
根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;
对所确定的满足目标预设维度的多个目标短语句进行合并;
使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。
2.如权利要求1所述的方法,其特征在于,所述使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句,包括:
根据所述合同文本中的段落分隔符号对合同文本进行分段落拆分,得到多个短语句,其中,所述段落分隔符号包括:句号或者换行符,所述短语句至少包含一个语句。
3.如权利要求1所述的方法,其特征在于,所述预设训练模型为用于短语句分类的神经网络模型,所述神经网络模型为:
Ot=g(V·St),
St=f(U·Xt+St-1);
其中,Xt是循环神经网络输入层的值,St、St-1是循环神经网络隐藏层的值,Ot是循环神经网络输出层的值,U是输入层到隐藏层的第一权重矩阵,V是隐藏层到输出层的第二权重矩阵,g()为非线性的激活函数,f()为softmax函数。
4.如权利要求1所述的方法,其特征在于,所述对所确定的满足目标预设维度的多个目标短语句进行合并,包括;
根据多个目标短语句的先后顺序,将各目标短语句转换成计算机可识别的代码程序;
使用strcat函数按照先后顺序将多个目标短语句对应的计算机可识别的代码程序进行拼接。
5.如权利要求1所述的方法,其特征在于,所述使用预设校验规则对合并后的多个目标语句进行风险校验,并确定所述合同文本的风险语句,包括:
使用预设风险关键词在合并后的多个目标短语句中查找是否存在与所述预设风险关键词相匹配的字符串;
若查找到存在与所述预设风险关键词相匹配的字符串,确定所述字符串对应的目标短语句,并将所确定的目标短语句作为所述合同文本的风险语句。
6.一种合同文件风险校验装置,其特征在于,所述装置包括:
获取拆分单元,用于获取合同文件,使用预设拆分规则对所述合同文本进行拆分,以得到多个短语句;
分类确定单元,用于根据预设训练模型对所述多个短语句进行分类,并从已分类的多个短语句中确定出满足目标预设维度的多个目标短语句;
合并单元,用于对所确定的满足目标预设维度的多个目标短语句进行合并;
风险校验单元,用于使用预设校验规则对合并后的多个目标短语句进行风险校验,并确定所述合同文本的风险语句,将当前风险语句显示在当前显示页面中。
7.如权利要求6所述的装置,其特征在于,所述获取拆分单元,包括:
拆分子单元,用于根据所述合同文本中的段落分隔符号对合同文本进行分段落拆分,得到多个短语句,其中,所述段落分隔符号包括:句号或者换行符,所述短语句至少包含一个语句。
8.如权利要求6所述的装置,其特征在于,所述合并单元,包括;
转换单元,用于根据多个目标短语句的先后顺序,将各目标短语句转换成计算机可识别的代码程序;
拼接单元,用于使用strcat函数按照先后顺序将多个目标短语句对应的计算机可识别的代码程序进行拼接。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的合同文件风险校验方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求1-5任一项所述的合同文件风险校验方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910889052.1A CN110826321A (zh) | 2019-09-19 | 2019-09-19 | 合同文件风险校验方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910889052.1A CN110826321A (zh) | 2019-09-19 | 2019-09-19 | 合同文件风险校验方法、装置、计算机设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110826321A true CN110826321A (zh) | 2020-02-21 |
Family
ID=69548163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910889052.1A Pending CN110826321A (zh) | 2019-09-19 | 2019-09-19 | 合同文件风险校验方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826321A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632989A (zh) * | 2020-12-29 | 2021-04-09 | 中国农业银行股份有限公司 | 一种合同文本中风险信息的提示方法、装置及设备 |
CN113312902A (zh) * | 2021-06-23 | 2021-08-27 | 北京鼎泰智源科技有限公司 | 一种对合同文本的智能审核校验方法及装置 |
CN115062022A (zh) * | 2022-06-16 | 2022-09-16 | 北京汉端科技有限公司 | 航空器手册拆分方法、装置、电子设备和计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844554A (zh) * | 2016-12-30 | 2017-06-13 | 全民互联科技(天津)有限公司 | 一种合同分类自动识别方法及系统 |
CN109447105A (zh) * | 2018-09-10 | 2019-03-08 | 平安科技(深圳)有限公司 | 合同审核方法、装置、计算机设备和存储介质 |
CN110147981A (zh) * | 2019-04-12 | 2019-08-20 | 深圳壹账通智能科技有限公司 | 基于文本分析的合同风险审核方法、装置及终端设备 |
-
2019
- 2019-09-19 CN CN201910889052.1A patent/CN110826321A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844554A (zh) * | 2016-12-30 | 2017-06-13 | 全民互联科技(天津)有限公司 | 一种合同分类自动识别方法及系统 |
CN109447105A (zh) * | 2018-09-10 | 2019-03-08 | 平安科技(深圳)有限公司 | 合同审核方法、装置、计算机设备和存储介质 |
CN110147981A (zh) * | 2019-04-12 | 2019-08-20 | 深圳壹账通智能科技有限公司 | 基于文本分析的合同风险审核方法、装置及终端设备 |
Non-Patent Citations (1)
Title |
---|
王冲: "《现代信息检索技术基本原理教程》", 30 November 2013, 西安:西安电子科技大学出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632989A (zh) * | 2020-12-29 | 2021-04-09 | 中国农业银行股份有限公司 | 一种合同文本中风险信息的提示方法、装置及设备 |
CN112632989B (zh) * | 2020-12-29 | 2023-11-03 | 中国农业银行股份有限公司 | 一种合同文本中风险信息的提示方法、装置及设备 |
CN113312902A (zh) * | 2021-06-23 | 2021-08-27 | 北京鼎泰智源科技有限公司 | 一种对合同文本的智能审核校验方法及装置 |
CN115062022A (zh) * | 2022-06-16 | 2022-09-16 | 北京汉端科技有限公司 | 航空器手册拆分方法、装置、电子设备和计算机可读介质 |
CN115062022B (zh) * | 2022-06-16 | 2023-08-18 | 北京汉端科技有限公司 | 航空器手册拆分方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11232270B1 (en) | Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to numeric style features | |
US11048882B2 (en) | Automatic semantic rating and abstraction of literature | |
US20190188326A1 (en) | Domain specific natural language understanding of customer intent in self-help | |
CN111177569A (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
Chen et al. | Mining user requirements to facilitate mobile app quality upgrades with big data | |
CN102640145A (zh) | 可信查询系统和方法 | |
Zhang et al. | Combining sentiment analysis with a fuzzy kano model for product aspect preference recommendation | |
CN110826321A (zh) | 合同文件风险校验方法、装置、计算机设备以及存储介质 | |
WO2019133506A1 (en) | Intelligent routing services and systems | |
Yun et al. | Computationally analyzing social media text for topics: A primer for advertising researchers | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
Panchenko et al. | Unsupervised, knowledge-free, and interpretable word sense disambiguation | |
JP2012256282A (ja) | 感性分析システム及びプログラム | |
CN111414561A (zh) | 用于呈现信息的方法和装置 | |
CN101770291B (zh) | 输入系统语意分析数据散列存储和分析方法 | |
Hanafi et al. | Seer: Auto-generating information extraction rules from user-specified examples | |
Kulahcioglu et al. | Fonts like this but happier: A new way to discover fonts | |
CN116976920A (zh) | 商品导购方法及其装置、设备、介质 | |
JP5438603B2 (ja) | 感性辞書編集支援システム及びプログラム | |
Li et al. | Analysis of customer satisfaction from chinese reviews using opinion mining | |
Jurish | Diachronic collocations, genre, and DiaCollo | |
CN113139558A (zh) | 确定物品的多级分类标签的方法和装置 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
Helan et al. | Topic modeling methods for text data analysis: a review | |
CN113821718A (zh) | 一种物品信息推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |
|
RJ01 | Rejection of invention patent application after publication |