CN110705952A - 一种合同审核方法及装置 - Google Patents

一种合同审核方法及装置 Download PDF

Info

Publication number
CN110705952A
CN110705952A CN201910752381.1A CN201910752381A CN110705952A CN 110705952 A CN110705952 A CN 110705952A CN 201910752381 A CN201910752381 A CN 201910752381A CN 110705952 A CN110705952 A CN 110705952A
Authority
CN
China
Prior art keywords
contract
text
prediction model
standard
checked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910752381.1A
Other languages
English (en)
Inventor
郭于丹
肖丰阳
陈卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Trust Co Ltd
Original Assignee
Ping An Trust Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Trust Co Ltd filed Critical Ping An Trust Co Ltd
Priority to CN201910752381.1A priority Critical patent/CN110705952A/zh
Publication of CN110705952A publication Critical patent/CN110705952A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种合同审核方法及装置,本发明涉及人工智能技术领域,方法包括:获取待审查合同及标准合同;识别待审查合同及标准合同,得到待审查合同文本及标准合同文本;将待审查合同文本与标准合同文本进行比对,得到待审查合同文本与标准合同文本之间的差异字符并突出显示;向预设的风险预测模型中输入待审查合同文本;获取风险预测模型输出的待审查合同文本的基于风险项的标注结果;根据标注结果获取风险项的提示依据及修改建议,并将风险项的提示依据及修改建议共同标注在待审查合同的对应风险项位置。本发明实施例提供的技术方案能够解决现有技术中合同审核效率低的问题。

Description

一种合同审核方法及装置
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种合同审核方法及装置。
【背景技术】
目前,合同签订常常在网上直接进行,当一方将合同拟定并签字后发送给另一方再签字,如果涉及多方签字的合同,合同在通过网络多方辗转,签字,拍照再上传等,每一方都需要将合同的具体条款和最初拟定的合同进行审核,确定无误后再签字,并且很多公司没有专业的合同管理人员,往往由某些指定人员进行合同签字,这些人又难以全面掌握合同相关的法律,需要耗费大量的时间精力,因此,如何提高合同审查的效率是目前亟待解决的问题。
【发明内容】
有鉴于此,本发明实施例提供了一种合同审核方法及装置,用以解决现有技术中合同审核效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种合同审核方法,所述方法包括:
获取待审查合同及标准合同,其中,所述标准合同为用户上传的合同范本;利用自然语言处理技术识别所述待审查合同及所述标准合同,得到待审查合同文本及标准合同文本;将所述待审查合同文本与所述标准合同文本进行比对,得到所述待审查合同文本与所述标准合同文本之间的差异字符并突出显示;向预设的风险预测模型中输入所述待审查合同文本;获取所述风险预测模型输出的所述待审查合同文本的基于风险项的标注结果;根据所述标注结果获取所述风险项的提示依据及修改建议,并将所述风险项的提示依据及修改建议共同标注在所述待审查合同的对应风险项位置。
进一步地,在所述向预设的风险预测模型中输入所述待审查合同文本之前,所述方法还包括:获取多个业务类型的法审合同样本作为训练集,其中,所述法审合同样本包括已标注合同样本及未标注合同样本,所述已标注合同样本包括多个标注的风险项;将所述训练集中的已标注合同样本输入所述风险预测模型,进行监督对抗训练;将所述训练集中的未标注合同样本输入监督对抗训练后的所述风险预测模型,进行无监督虚拟对抗训练,并更新所述风险预测模型的参数;得到训练好的所述风险预测模型。
进一步地,所述将所述训练集中的未标注合同样本输入监督对抗训练后的所述风险预测模型,进行无监督虚拟对抗训练,并更新所述风险预测模型的参数之后,所述方法包括:获取所述风险预测模型训练过程中的训练损失数据;对所述风险预测模型进行验证,得到验证损失数据;当所述训练损失数据小于第一预设值或所述验证损失数据小于第二预设值时,得到训练好的所述风险预测模型。
进一步地,所述风险预测模型包括判别器和生成器;所述生成器的训练目标为
Figure BDA0002167608260000021
所述判别器的训练目标为
Figure BDA0002167608260000022
其中,z为随机数据,x为已标注合同样本的真实数据,G(z)表示所述生成器将所述随机数据z转换为标注后的数据;D(x)表示所述判别器对所述真实数据x的真假判别;D(G(z))表示所述判别器对所述标注后的数据G(z)的真假判别;Pdata(x)表示所述真实数据x的数据分布;Pz(z)表示所述随机数据z的数据分布。
进一步地,所述将所述待审查合同文本与所述标准合同文本进行比对,得到所述待审查合同文本与所述标准合同文本之间的差异字符并突出显示,包括:根据预设的分割规则将所述待审查合同文本与所述标准合同文本分割为多个子文本,其中,每个所述子文本与预设标签关联;获取所述用户预设的比对区域及比对对象,其中,所述比对区域与所述子文本的预设标签相对应,所述比对对象包括字符、空格、符号中的至少一种;依据预设的所述比对对象,将所述待审查合同文本中与所述预设标签相关的子文本与所述标准合同文本中与所述预设标签相关的子文本进行比对,得到差异字符;根据所述用户预设的标注颜色,标注所述差异字符。
进一步地,在所述利用自然语言处理技术识别所述待审查合同及标准合同,得到待审查合同文本及标准合同文本之前,所述方法还包括:通过霍夫变换方法找到所述待审查合同的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待审查合同进行旋转矫正;用矫正后的待审查合同替换原待审查合同。
为了实现上述目的,根据本发明的一个方面,提供了一种合同审核装置,所述装置包括:第一获取单元,用于获取待审查合同及标准合同,其中,所述标准合同为用户上传的合同范本;识别单元,用于利用自然语言处理技术识别所述待审查合同及所述标准合同,得到待审查合同文本及标准合同文本;比对单元,用于将所述待审查合同文本与所述标准合同文本进行比对,得到所述待审查合同文本与所述标准合同文本之间的差异字符并突出显示;第一输入单元,用于向预设的风险预测模型中输入所述待审查合同文本;第二获取单元,用于获取所述风险预测模型输出的所述待审查合同文本的基于风险项的标注结果;标注单元,用于根据所述标注结果获取所述风险项的提示依据及修改建议,并将所述风险项的提示依据及修改建议共同标注在所述待审查合同的对应风险项位置。
进一步地,所述装置还包括:第三获取单元,用于获取多个业务类型的法审合同样本作为训练集,其中,所述法审合同样本包括已标注合同样本及未标注合同样本,所述已标注合同样本包括多个标注的风险项;第二输入单元,用于将所述训练集中的已标注合同样本输入所述风险预测模型,进行监督对抗训练;训练单元,用于将所述训练集中的未标注合同样本输入监督对抗训练后的所述风险预测模型,进行无监督虚拟对抗训练,并更新所述风险预测模型的参数;第四获取单元,用于得到训练好的所述风险预测模型。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机非易失性存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在设备执行上述的合同审核方法。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的合同审核方法的步骤。
在本方案中,通过识别所述待审查合同及标准合同,并利用识别得到的所述待审查合同文本与所述标准合同文本进行比对,得到所述待审查合同文本与所述标准合同文本之间的差异字符;并将所述待审查合同文本输入预设的风险预测模型,获取所述风险预测模型输出的所述待审查合同文本的合同风险项的标注结果,从而实现一式多份合同之间的快速审核对比,提高合同审核效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种可选的合同审核方法的流程图;
图2是本发明实施例提供的一种可选的合同审核装置的示意图;
图3是本发明实施例提供的一种可选的计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一终端也可以被称为第二终端,类似地,第二终端也可以被称为第一终端。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种合同审核方法的流程图,如图1所示,该方法包括:
步骤S101,获取待审查合同及标准合同,其中,标准合同为用户上传的合同范本。
步骤S102,利用自然语言处理技术识别待审查合同及标准合同,得到待审查合同文本及标准合同文本。
步骤S103,将待审查合同文本与标准合同文本进行比对,得到待审查合同文本与标准合同文本之间的差异字符并突出显示。
步骤S104,向预设的风险预测模型中输入待审查合同文本。
步骤S105,获取风险预测模型输出的待审查合同文本的基于风险项的标注结果。
步骤S106,根据标注结果获取风险项的提示依据及修改建议,并将风险项的提示依据及修改建议共同标注在待审查合同的对应风险项位置。
在本方案中,通过识别待审查合同及标准合同,并利用识别得到的待审查合同文本与标准合同文本进行比对,得到待审查合同文本与标准合同文本之间的差异字符;并将待审查合同文本输入预设的风险预测模型,获取风险预测模型输出的待审查合同文本的合同风险项的标注结果,从而实现一式多份合同之间的快速审核对比,提高合同审核效率。
获取待审查合同及标准合同的方法,可以通过应用终端上的蓝牙、通讯网络的方式传输,用户也可以通过USB接口等自主上传,将两个需要审核的合同上传后可实现自动比对。
例如一式多份的合同,需要各方签署确认后再生效合同,这时候合同经过多次传输,其可能是word、pdf、扫描档、jpg等各种格式。那么在合同审核时,需要将他们全都转换为文本格式才能进行比对。
可选地,利用自然语言处理技术识别待审查合同及标准合同,得到待审查合同文本及标准合同文本,可以通过光学字符识别方法将标准合同转换为标准合同文本,还可以直接利用现有一些文档编辑软件如PDF直接进行转换,将PDF版的标准合同转换为word版。
可选地,在利用自然语言处理技术识别待审查合同及标准合同,得到待审查合同文本及标准合同文本之前,方法还包括:通过霍夫变换方法找到待审查合同的倾斜角度,并基于倾斜角度采用双线性插值对待审查合同进行旋转矫正;用矫正后的待审查合同替换原待审查合同。
具体地,通过霍夫变换方法提取待审查合同中的直线;统计直线上的字符点,确定线段,其中,以横坐标最小的字符点所在的坐标作为线段的起始坐标,以横坐标最大的字符点所在的坐标作为线段的终止坐标;判断线段上相邻两个字符点之间的距离是否大于预设阈值;当大于预设阈值时,将线段从相邻两个字符点处分割为两条线段;计算每条线段的倾斜角度,并将倾斜角度的平均值确认为待比对图档的倾斜角度;基于确认的倾斜角度,采用双线性插值对待审查合同进行旋转矫正。
例如当计算得到的倾斜角度的平均值为45度,则需要对待审查合同逆时针翻转45度。这样文本识别时能够提高识别的准确度。
可选地,将待审查合同文本与标准合同文本进行比对,得到待审查合同文本与标准合同文本之间的差异字符并突出显示,包括:
根据预设的分割规则将待审查合同文本与标准合同文本分割为多个子文本,其中,每个子文本与预设标签关联;获取用户预设的比对区域及比对对象,其中,比对区域与子文本的预设标签相对应,比对对象包括字符、空格、符号中的至少一种;依据预设的比对对象,将待审查合同文本中与预设标签相关的子文本与标准合同文本中与预设标签相关的子文本进行比对,得到差异字符;根据用户预设的标注颜色,标注差异字符。
具体地,用户可以在该方法的应用终端上设定比对对象,例如只比对字符,不比对空格和标点符号等。还可以设定全比对(即字符、空格、符号)都比对。用户还可以通过设定比对区域来实现部分比对。
在一种实施方式中,待审查合同文本的子文本用预设标签(第一自然段、第二自然段…第n自然段)标注后,在标准合同文本中也会用相同的预设标签进行标注。那么,在比对时就可以实现仅比对第一自然段、或者仅比对第二自然段。例如,某个合同的某一段内容是否和标准合同文本中的一样,就可以通过局部比对来实现。在另一种实施方式中,待审查合同文本的子文本用预设标签(第一部分、第二部分),在标准合同文本中可以将用户设定的区域用预设标签标注,在比对时可以实现待比对图档中的第一部分与标准文本中的第一部分进行比对。
可以理解地,标注颜色例如可以是红、橙、黄、绿、青、蓝、紫等等。根据设定的颜色标注后,可以方便用户查看比对出来的差异字符,从而进行相应的修改。
可选地,在向预设的风险预测模型中输入待审查合同文本之前,方法还包括:获取多个业务类型的法审合同样本作为训练集,其中,法审合同样本包括已标注合同样本及未标注合同样本,已标注合同样本包括多个标注的风险项;将训练集中的已标注合同样本输入风险预测模型,进行监督对抗训练;将训练集中的未标注合同样本输入监督对抗训练后的风险预测模型,进行无监督虚拟对抗训练,并更新风险预测模型的参数;得到训练好的风险预测模型。
例如:乙方(借款人):张某某,法定代表人(负责人):李某某。风险项:构成关联交易,应关注定价公允几关联交易审核流程。已标注合同样本中标注有多个风险项。
在训练过程中,利用已标注合同样本不断优化判别器,不管生成器,判别器的训练目标为
Figure BDA0002167608260000091
Figure BDA0002167608260000092
其中,z为随机数据,x为已标注合同样本的真实数据,G(z)表示生成器将随机数据z转换为标注后的数据;D(x)表示判别器对真实数据x的真假判别;D(G(z))表示判别器对标注后的数据G(z)的真假判别;Pdata(x)表示真实数据x的数据分布;Pz(z)表示随机数据z的数据分布。
再训练生成器,训练生成器时,只输入未标注合同样本,生成器的训练目标为
Figure BDA0002167608260000101
其中,z为随机数据,x为已标注合同样本的真实数据,G(z)表示生成器将随机数据z转换为标注后的数据;D(x)表示判别器对真实数据x的真假判别;D(G(z))表示判别器对标注后的数据G(z)的真假判别;Pdata(x)表示真实数据x的数据分布;Pz(z)表示随机数据z的数据分布。
通过多次迭代训练后,使得生成器生成的标注风险项能够完全与已标注合同样本中标注的风险项一样。
可选地,将训练集中的未标注合同样本输入监督对抗训练后的风险预测模型,进行无监督虚拟对抗训练,并更新风险预测模型的参数之后,方法包括:获取风险预测模型训练过程中的训练损失数据;对风险预测模型进行验证,得到验证损失数据;当训练损失数据小于第一预设值或验证损失数据小于第二预设值时,得到训练好的风险预测模型。
其中,验证时,可以将训练集中的部分合同样本用于验证,比如训练集中的20%的合同样本。
在本方案中,通过训练风险预测模型,使得将待审查合同文本输入风险预测模型后,能够获取模型输出的待审查合同文本的合同风险项的标注结果,给予审核人员法律上的风险项提示,从而实现一式多份合同之间的快速审核对比,提高合同审核效率。
在得到待审查合同文本的风险项的标注结果后,根据标注结果获取风险项的提示依据及修改建议,并将风险项的提示依据及修改建议共同标注在待审查合同的对应风险项位置。
具体地,可以将风险项与提示依据及修改建议进行关联后创建调用表,当标注结果为风险项a时,即去调用表中调用与该风险项a关联的提示依据及修改建议。再将提示依据和修改建议标注在待审核合同文本的风险项位置。
本发明实施例提供了一种合同审核装置,该装置用于执行上述合同审核方法,如图2所示,该装置包括:第一获取单元10、识别单元20、比对单元30、第一输入单元40、第二获取单元50、标注单元60。
第一获取单元10,用于获取待审查合同及标准合同,其中,标准合同为用户上传的合同范本;
识别单元20,用于利用自然语言处理技术识别待审查合同及标准合同,得到待审查合同文本及标准合同文本;
比对单元30,用于将待审查合同文本与标准合同文本进行比对,得到待审查合同文本与标准合同文本之间的差异字符并突出显示;
第一输入单元40,用于向预设的风险预测模型中输入待审查合同文本;
第二获取单元50,用于获取风险预测模型输出的待审查合同文本的基于风险项的标注结果;
标注单元60,用于根据标注结果获取每个风险项的提示依据及修改建议,并将每个风险项的提示依据及修改建议共同标注在待审查合同的对应风险项位置。
在本方案中,通过识别待审查合同及标准合同,并利用识别得到的待审查合同文本与标准合同文本进行比对,得到待审查合同文本与标准合同文本之间的差异字符;并将待审查合同文本输入预设的风险预测模型,获取风险预测模型输出的待审查合同文本的合同风险项的标注结果,从而实现一式多份合同之间的快速审核对比,提高合同审核效率。
获取待审查合同及标准合同的方法,可以通过应用终端上的蓝牙、通讯网络的方式传输,用户也可以通过USB接口等自主上传,将两个需要审核的合同上传后可实现自动比对。
例如一式多份的合同,需要各方签署确认后再生效合同,这时候合同经过多次传输,其可能是word、pdf、扫描档、jpg等各种格式。那么在合同审核时,需要将他们全都转换为文本格式才能进行比对。
可选地,利用自然语言处理技术识别待审查合同及标准合同,得到待审查合同文本及标准合同文本,可以通过光学字符识别方法将标准合同转换为标准合同文本,还可以直接利用现有一些文档编辑软件如PDF直接进行转换,将PDF版的标准合同转换为word版。
可选地,装置还包括:矫正单元、替换单元。
矫正单元,用于通过霍夫变换方法找到待审查合同的倾斜角度,并基于倾斜角度采用双线性插值对待审查合同进行旋转矫正;替换单元,用于用矫正后的待审查合同替换原待审查合同。
具体地,通过霍夫变换方法提取待审查合同中的直线;统计直线上的字符点,确定线段,其中,以横坐标最小的字符点所在的坐标作为线段的起始坐标,以横坐标最大的字符点所在的坐标作为线段的终止坐标;判断线段上相邻两个字符点之间的距离是否大于预设阈值;当大于预设阈值时,将线段从相邻两个字符点处分割为两条线段;计算每条线段的倾斜角度,并将倾斜角度的平均值确认为待比对图档的倾斜角度;基于确认的倾斜角度,采用双线性插值对待审查合同进行旋转矫正。
例如当计算得到的倾斜角度的平均值为45度,则需要对待审查合同逆时针翻转45度。这样文本识别时能够提高识别的准确度。
可选地,比对单元30包括分割子单元、获取子单元、比对子单元、标注子单元。
分割子单元,用于根据预设的分割规则将待审查合同文本与标准合同文本分割为多个子文本,其中,每个子文本与预设标签关联;获取子单元,用于获取用户预设的比对区域及比对对象,其中,比对区域与子文本的预设标签相对应,比对对象包括字符、空格、符号中的至少一种;比对子单元,用于依据预设的比对对象,将待审查合同文本中与预设标签相关的子文本与标准合同文本中与预设标签相关的子文本进行比对,得到差异字符;标注子单元,用于根据用户预设的标注颜色,标注差异字符。
具体地,用户可以在该方法的应用终端上设定比对对象,例如只比对字符,不比对空格和标点符号等。还可以设定全比对(即字符、空格、符号)都比对。用户还可以通过设定比对区域来实现部分比对。
在一种实施方式中,待审查合同文本的子文本用预设标签(第一自然段、第二自然段…第n自然段)标注后,在标准合同文本中也会用相同的预设标签进行标注。那么,在比对时就可以实现仅比对第一自然段、或者仅比对第二自然段。例如,某个合同的某一段内容是否和标准合同文本中的一样,就可以通过局部比对来实现。在另一种实施方式中,待审查合同文本的子文本用预设标签(第一部分、第二部分),在标准合同文本中可以将用户设定的区域用预设标签标注,在比对时可以实现待比对图档中的第一部分与标准文本中的第一部分进行比对。
可以理解地,标注颜色例如可以是红、橙、黄、绿、青、蓝、紫等等。根据设定的颜色标注后,可以方便用户查看比对出来的差异字符,从而进行相应的修改。
可选地,装置还包括第三获取单元、第二输入单元、训练单元、第四获取单元。
第三获取单元,用于获取多个业务类型的法审合同样本作为训练集,其中,法审合同样本包括已标注合同样本及未标注合同样本,已标注合同样本包括多个标注的风险项;第二输入单元,用于将训练集中的已标注合同样本输入风险预测模型,进行监督对抗训练;训练单元,用于将训练集中的未标注合同样本输入监督对抗训练后的风险预测模型,进行无监督虚拟对抗训练,并更新风险预测模型的参数;第四获取单元,用于得到训练好的风险预测模型。
例如:乙方(借款人):张某某,法定代表人(负责人):李某某。风险项:构成关联交易,应关注定价公允几关联交易审核流程。已标注合同样本中标注有多个风险项。
在训练过程中,利用已标注合同样本不断优化判别器,不管生成器,判别器的训练目标为
Figure BDA0002167608260000142
其中,z为随机数据,x为已标注合同样本的真实数据,G(z)表示生成器将随机数据z转换为标注后的数据;D(x)表示判别器对真实数据x的真假判别;D(G(z))表示判别器对标注后的数据G(z)的真假判别;Pdata(x)表示真实数据x的数据分布;Pz(z)表示随机数据z的数据分布。
再训练生成器,训练生成器时,只输入未标注合同样本,生成器的训练目标为
Figure BDA0002167608260000151
其中,z为随机数据,x为已标注合同样本的真实数据,G(z)表示生成器将随机数据z转换为标注后的数据;D(x)表示判别器对真实数据x的真假判别;D(G(z))表示判别器对标注后的数据G(z)的真假判别;Pdata(x)表示真实数据x的数据分布;Pz(z)表示随机数据z的数据分布。
通过多次迭代训练后,使得生成器生成的标注风险项能够完全与已标注合同样本中标注的风险项一样。
可选地,装置还包括第五获取单元、验证单元。
第五获取单元,用于获取风险预测模型训练过程中的训练损失数据;验证单元,用于对风险预测模型进行验证,得到验证损失数据;第四获取单元,还用于当训练损失数据小于第一预设值或验证损失数据小于第二预设值时,得到训练好的风险预测模型。
其中,验证时,可以将训练集中的部分合同样本用于验证,比如训练集中的20%的合同样本。
在本方案中,通过训练风险预测模型,使得将待审查合同文本输入风险预测模型后,能够获取模型输出的待审查合同文本的合同风险项的标注结果,给予审核人员法律上的风险项提示,从而实现一式多份合同之间的快速审核对比,提高合同审核效率。
在得到待审查合同文本的风险项的标注结果后,根据标注结果获取风险项的提示依据及修改建议,并将风险项的提示依据及修改建议共同标注在待审查合同的对应风险项位置。
具体地,可以将风险项与提示依据及修改建议进行关联后创建调用表,当标注结果为风险项a时,即去调用表中调用与该风险项a关联的提示依据及修改建议。再将提示依据和修改建议标注在待审核合同文本的风险项位置。
本发明实施例提供了一种计算机非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
获取待审查合同及标准合同,其中,标准合同为用户上传的合同范本;利用自然语言处理技术识别待审查合同及标准合同,得到待审查合同文本及标准合同文本;将待审查合同文本与标准合同文本进行比对,得到待审查合同文本与标准合同文本之间的差异字符并突出显示;向预设的风险预测模型中输入待审查合同文本;获取风险预测模型输出的待审查合同文本的基于风险项的标注结果;根据标注结果获取每个风险项的提示依据及修改建议,并将每个风险项的提示依据及修改建议共同标注在待审查合同的对应风险项位置。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:获取多个业务类型的法审合同样本作为训练集,其中,法审合同样本包括已标注合同样本及未标注合同样本,已标注合同样本包括多个标注的风险项;将训练集中的已标注合同样本输入风险预测模型,进行监督对抗训练;将训练集中的未标注合同样本输入监督对抗训练后的风险预测模型,进行无监督虚拟对抗训练,并更新风险预测模型的参数;得到训练好的风险预测模型。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:获取风险预测模型训练过程中的训练损失数据;对风险预测模型进行验证,得到验证损失数据;当训练损失数据小于第一预设值或验证损失数据小于第二预设值时,得到训练好的风险预测模型。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:根据预设的分割规则将待审查合同文本与标准合同文本分割为多个子文本,其中,每个子文本与预设标签关联;获取用户预设的比对区域及比对对象,其中,比对区域与子文本的预设标签相对应,比对对象包括字符、空格、符号中的至少一种;依据预设的比对对象,将待审查合同文本中与预设标签相关的子文本与标准合同文本中与预设标签相关的子文本进行比对,得到差异字符;根据用户预设的标注颜色,标注差异字符。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:通过霍夫变换方法找到待审查合同的倾斜角度,并基于倾斜角度采用双线性插值对待审查合同进行旋转矫正;用矫正后的待审查合同替换原待审查合同。
图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备100包括:处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时实现实施例中的合同审核方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器101执行时实现实施例中合同审核装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器101、存储器102。本领域技术人员可以理解,图3仅仅是计算机设备100的示例,并不构成对计算机设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器101可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以是计算机设备100的内部存储单元,例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备,例如计算机设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种合同审核方法,其特征在于,所述方法包括:
获取待审查合同及标准合同,其中,所述标准合同为用户上传的合同范本;
利用自然语言处理技术识别所述待审查合同及所述标准合同,得到待审查合同文本及标准合同文本;
将所述待审查合同文本与所述标准合同文本进行比对,得到所述待审查合同文本与所述标准合同文本之间的差异字符并突出显示;
向预设的风险预测模型中输入所述待审查合同文本;
获取所述风险预测模型输出的所述待审查合同文本的基于风险项的标注结果;
根据所述标注结果获取所述风险项的提示依据及修改建议,并将所述风险项的提示依据及修改建议共同标注在所述待审查合同的对应风险项位置。
2.根据权利要求1所述的方法,其特征在于,在所述向预设的风险预测模型中输入所述待审查合同文本之前,所述方法还包括:
获取多个业务类型的法审合同样本作为训练集,其中,所述法审合同样本包括已标注合同样本及未标注合同样本,所述已标注合同样本包括多个标注的风险项;
将所述训练集中的已标注合同样本输入所述风险预测模型,进行监督对抗训练;
将所述训练集中的未标注合同样本输入监督对抗训练后的所述风险预测模型,进行无监督虚拟对抗训练,并更新所述风险预测模型的参数;
得到训练好的所述风险预测模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述训练集中的未标注合同样本输入监督对抗训练后的所述风险预测模型,进行无监督虚拟对抗训练,并更新所述风险预测模型的参数之后,所述方法包括:
获取所述风险预测模型训练过程中的训练损失数据;
对所述风险预测模型进行验证,得到验证损失数据;
当所述训练损失数据小于第一预设值或所述验证损失数据小于第二预设值时,得到训练好的所述风险预测模型。
4.根据权利要求2所述的方法,其特征在于,所述风险预测模型包括判别器和生成器;所述生成器的训练目标为
Figure FDA0002167608250000021
Figure FDA0002167608250000022
所述判别器的训练目标为
Figure FDA0002167608250000023
Figure FDA0002167608250000024
其中,z为随机数据,x为已标注合同样本的真实数据,G(z)表示所述生成器将所述随机数据z转换为标注后的数据;D(x)表示所述判别器对所述真实数据x的真假判别;D(G(z))表示所述判别器对所述标注后的数据G(z)的真假判别;Pdata(x)表示所述真实数据x的数据分布;pz(z)表示所述随机数据z的数据分布。
5.根据权利要求1所述的方法,其特征在于,所述将所述待审查合同文本与所述标准合同文本进行比对,得到所述待审查合同文本与所述标准合同文本之间的差异字符并突出显示,包括:
根据预设的分割规则将所述待审查合同文本与所述标准合同文本分割为多个子文本,其中,每个所述子文本与预设标签关联;
获取所述用户预设的比对区域及比对对象,其中,所述比对区域与所述子文本的预设标签相对应,所述比对对象包括字符、空格、符号中的至少一种;
依据预设的所述比对对象,将所述待审查合同文本中与所述预设标签相关的子文本与所述标准合同文本中与所述预设标签相关的子文本进行比对,得到差异字符;
根据所述用户预设的标注颜色,标注所述差异字符。
6.根据权利要求1所述的方法,其特征在于,在所述利用自然语言处理技术识别所述待审查合同及标准合同,得到待审查合同文本及标准合同文本之前,所述方法还包括:
通过霍夫变换方法找到所述待审查合同的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待审查合同进行旋转矫正;
用矫正后的待审查合同替换原待审查合同。
7.一种合同审核装置,其特征在于,所述装置包括:
第一获取单元,用于获取待审查合同及标准合同,其中,所述标准合同为用户上传的合同范本;
识别单元,用于利用自然语言处理技术识别所述待审查合同及所述标准合同,得到待审查合同文本及标准合同文本;
比对单元,用于将所述待审查合同文本与所述标准合同文本进行比对,得到所述待审查合同文本与所述标准合同文本之间的差异字符并突出显示;
第一输入单元,用于向预设的风险预测模型中输入所述待审查合同文本;
第二获取单元,用于获取所述风险预测模型输出的所述待审查合同文本的基于风险项的标注结果;
标注单元,用于根据所述标注结果获取所述风险项的提示依据及修改建议,并将所述风险项的提示依据及修改建议共同标注在所述待审查合同的对应风险项位置。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于获取多个业务类型的法审合同样本作为训练集,其中,所述法审合同样本包括已标注合同样本及未标注合同样本,所述已标注合同样本包括多个标注的风险项;
第二输入单元,用于将所述训练集中的已标注合同样本输入所述风险预测模型,进行监督对抗训练;
训练单元,用于将所述训练集中的未标注合同样本输入监督对抗训练后的所述风险预测模型,进行无监督虚拟对抗训练,并更新所述风险预测模型的参数;
第四获取单元,用于得到训练好的所述风险预测模型。
9.一种计算机非易失性存储介质,所述存储介质包括存储的程序,其特征在于,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6任意一项所述的合同审核方法。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的合同审核方法的步骤。
CN201910752381.1A 2019-08-15 2019-08-15 一种合同审核方法及装置 Pending CN110705952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752381.1A CN110705952A (zh) 2019-08-15 2019-08-15 一种合同审核方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752381.1A CN110705952A (zh) 2019-08-15 2019-08-15 一种合同审核方法及装置

Publications (1)

Publication Number Publication Date
CN110705952A true CN110705952A (zh) 2020-01-17

Family

ID=69194036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752381.1A Pending CN110705952A (zh) 2019-08-15 2019-08-15 一种合同审核方法及装置

Country Status (1)

Country Link
CN (1) CN110705952A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274782A (zh) * 2020-02-25 2020-06-12 平安科技(深圳)有限公司 一种文本审核方法、装置、计算机设备及可读存储介质
CN111368521A (zh) * 2020-02-29 2020-07-03 重庆百事得大牛机器人有限公司 用于法律顾问服务的管理方法
CN111488743A (zh) * 2020-04-10 2020-08-04 苏州七星天专利运营管理有限责任公司 一种文本辅助处理方法和系统
CN112016268A (zh) * 2020-09-01 2020-12-01 中国平安财产保险股份有限公司 线上文档处理方法、装置、计算机设备和可读存储介质
CN112199683A (zh) * 2020-09-11 2021-01-08 深圳价值在线信息科技股份有限公司 一种数据检测方法、装置、终端及存储介质
CN112270223A (zh) * 2020-10-14 2021-01-26 招商银行股份有限公司 保单检视方法、装置及计算机可读存储介质
CN112613285A (zh) * 2020-12-21 2021-04-06 红塔烟草(集团)有限责任公司 一种基于分区域处理的招标文件审查分析方法
CN112734181A (zh) * 2020-12-30 2021-04-30 平安养老保险股份有限公司 业务信息审批方法、装置、计算机设备及存储介质
CN112926299A (zh) * 2021-03-29 2021-06-08 杭州天谷信息科技有限公司 一种文本比对方法、合同审阅方法、审核系统
CN113312455A (zh) * 2021-06-23 2021-08-27 北京鼎泰智源科技有限公司 一种基于知识蒸馏的合同智能审核方法及装置
CN113313279A (zh) * 2020-02-27 2021-08-27 北京沃东天骏信息技术有限公司 一种单据审核方法和装置
CN113935335A (zh) * 2021-12-16 2022-01-14 深圳市迪博企业风险管理技术有限公司 一种合同文本合规性智能检查方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523225A (zh) * 2018-10-12 2019-03-26 平安科技(深圳)有限公司 一种合同管理方法、系统及终端设备
CN109829692A (zh) * 2019-01-17 2019-05-31 深圳壹账通智能科技有限公司 基于人工智能的合同审理方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523225A (zh) * 2018-10-12 2019-03-26 平安科技(深圳)有限公司 一种合同管理方法、系统及终端设备
CN109829692A (zh) * 2019-01-17 2019-05-31 深圳壹账通智能科技有限公司 基于人工智能的合同审理方法、装置、设备及存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274782B (zh) * 2020-02-25 2023-10-20 平安科技(深圳)有限公司 一种文本审核方法、装置、计算机设备及可读存储介质
WO2021169208A1 (zh) * 2020-02-25 2021-09-02 平安科技(深圳)有限公司 一种文本审核方法、装置、计算机设备及可读存储介质
CN111274782A (zh) * 2020-02-25 2020-06-12 平安科技(深圳)有限公司 一种文本审核方法、装置、计算机设备及可读存储介质
CN113313279A (zh) * 2020-02-27 2021-08-27 北京沃东天骏信息技术有限公司 一种单据审核方法和装置
CN111368521B (zh) * 2020-02-29 2023-04-07 重庆百事得大牛机器人有限公司 用于法律顾问服务的管理方法
CN111368521A (zh) * 2020-02-29 2020-07-03 重庆百事得大牛机器人有限公司 用于法律顾问服务的管理方法
CN111488743A (zh) * 2020-04-10 2020-08-04 苏州七星天专利运营管理有限责任公司 一种文本辅助处理方法和系统
CN112016268A (zh) * 2020-09-01 2020-12-01 中国平安财产保险股份有限公司 线上文档处理方法、装置、计算机设备和可读存储介质
CN112199683A (zh) * 2020-09-11 2021-01-08 深圳价值在线信息科技股份有限公司 一种数据检测方法、装置、终端及存储介质
CN112270223B (zh) * 2020-10-14 2024-05-31 招商银行股份有限公司 保单检视方法、装置及计算机可读存储介质
CN112270223A (zh) * 2020-10-14 2021-01-26 招商银行股份有限公司 保单检视方法、装置及计算机可读存储介质
CN112613285A (zh) * 2020-12-21 2021-04-06 红塔烟草(集团)有限责任公司 一种基于分区域处理的招标文件审查分析方法
CN112734181A (zh) * 2020-12-30 2021-04-30 平安养老保险股份有限公司 业务信息审批方法、装置、计算机设备及存储介质
CN112926299A (zh) * 2021-03-29 2021-06-08 杭州天谷信息科技有限公司 一种文本比对方法、合同审阅方法、审核系统
CN112926299B (zh) * 2021-03-29 2024-04-09 杭州天谷信息科技有限公司 一种文本比对方法、合同审阅方法、审核系统
CN113312455A (zh) * 2021-06-23 2021-08-27 北京鼎泰智源科技有限公司 一种基于知识蒸馏的合同智能审核方法及装置
CN113935335B (zh) * 2021-12-16 2022-03-22 深圳市迪博企业风险管理技术有限公司 一种合同文本合规性智能检查方法
CN113935335A (zh) * 2021-12-16 2022-01-14 深圳市迪博企业风险管理技术有限公司 一种合同文本合规性智能检查方法

Similar Documents

Publication Publication Date Title
CN110705952A (zh) 一种合同审核方法及装置
CN110163478B (zh) 一种合同条款的风险审查方法及装置
AU2017206291B2 (en) Instance-level semantic segmentation
EP3432197B1 (en) Method and device for identifying characters of claim settlement bill, server and storage medium
CN110348441B (zh) 增值税发票识别方法、装置、计算机设备及存储介质
CN110704633A (zh) 命名实体识别方法、装置、计算机设备及存储介质
EP3869385B1 (en) Method for extracting structural data from image, apparatus and device
US10839207B2 (en) Systems and methods for predictive analysis reporting
CN113569863B (zh) 一种单据稽查的方法、系统、电子设备及存储介质
CN112149663A (zh) 结合rpa和ai的图像文字的提取方法、装置及电子设备
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN110705225A (zh) 一种合同标注方法及装置
AU2020369152A1 (en) Docket analysis methods and systems
CN111914729A (zh) 凭证关联方法、装置、计算机设备及存储介质
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
WO2024055864A1 (zh) 结合rpa和ai实现ia的分类模型的训练方法及装置
CN117274969A (zh) 一种印章识别方法、装置、设备及介质
CN112001819A (zh) 一种小型便携式防错乱国际贸易合同扫描装置及方法
WO2020172767A1 (zh) 电子签购单识别方法、装置及终端设备
CN114820211B (zh) 理赔资料质检核验方法、装置、计算机设备及存储介质
CN114612919B (zh) 一种票据信息处理系统及方法、装置
CN114495145B (zh) 政策文号提取方法、装置、设备以及存储介质
CN115965803A (zh) 用户界面验收方法及装置
CN116863542A (zh) 一种手写签名检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination