CN112232088A - 合同条款风险智能识别方法、装置、电子设备及存储介质 - Google Patents

合同条款风险智能识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112232088A
CN112232088A CN202011302890.3A CN202011302890A CN112232088A CN 112232088 A CN112232088 A CN 112232088A CN 202011302890 A CN202011302890 A CN 202011302890A CN 112232088 A CN112232088 A CN 112232088A
Authority
CN
China
Prior art keywords
contract
text
clause
risk
risk identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011302890.3A
Other languages
English (en)
Inventor
徐健
高昊江
杨飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northking Information Technology Co ltd
Original Assignee
Northking Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northking Information Technology Co ltd filed Critical Northking Information Technology Co ltd
Priority to CN202011302890.3A priority Critical patent/CN112232088A/zh
Publication of CN112232088A publication Critical patent/CN112232088A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Technology Law (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Multimedia (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)

Abstract

本发明公开了一种合同条款风险智能识别方法、装置、电子设备及存储介质。该方法包括:获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果,其中,所述条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层,在减轻了法务工作者的工作负担、提高审核效率的同时,更增强了交易安全性、降低经济损失。

Description

合同条款风险智能识别方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及合同法律风险审批领域,尤其涉及一种合同条款风险智能识别方法、装置、电子设备及存储介质。
背景技术
我国的中小微企业约有8000万家,其每年签订的合同至少有40亿份,法院每年受理的合同诉讼案件有500万之多,约占总民商事案件的一半以上,因合同纠纷而造成的经济损失超过1万亿元。合同条款风险审核是政府和企业规避合同风险的有力武器,签约前的合同审核更能有效地避免合同纠纷。
目前来说,合同条款的风险判断工作主要还是依靠法律专业人员的专业知识、执业经验、合同当事方的需求结合当前有效的法律法规来判定一个合同条款是否存在法律风险,这是一个很费时费力的过程。不仅为相关法律人员带来巨大的工作量,同时也使得整个的过程的效率下降。对于非专业法律人来说,去判定一个合同条款是否存在风险更是存在一定困难。
发明内容
本发明提供一种合同条款风险智能识别方法、装置、电子设备及存储介质,在减轻了法务工作者的工作负担、提高审核效率的同时,更增强了交易安全性、降低经济损失。
第一方面,本发明实施例提供了一种合同条款风险识别方法,应用于合同法律风险审批领域,该方法包括:
获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;
基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果,其中,所述条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层。
第二方面,本发明实施例还提供了一种合同条款风险识别装置,该装置包括:
文本序列获取模块,用于获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;
条款风险识别模块,用于基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果,其中,所述条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例提供的合同条款风险识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的合同条款风险识别方法。
本发明通过获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;基于条款风险识别模型中文本序列处理网络层得到了文本序列对应的词向量序列,基于语义关系提取网络层生成第一语义向量序列,基于语义特征提取网络层生成第二语义向量序列,基于风险分类网络层对第一语义向量序列和第二语义向量序列进行风险识别,得到条款风险识别结果,在减轻了法务工作者的工作负担、提高审核效率的同时,更增强了交易安全性、降低经济损失。
附图说明
图1是本发明实施例一提供的一种合同条款风险识别方法的流程示意图;
图2是本发明实施例一提供的另一种合同条款风险识别方法的流程示意图;
图3是本发明实施例二提供的另一种合同条款风险识别方法的流程示意图;
图4是本发明实施例三提供的一种合同条款风险识别装置的结构示意图;
图5为本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种合同条款风险识别方法的流程图,本实施例可适用于在双方签订合同之前对合同进行法律风险审核的情况。该方法可以由合同条款风险识别装置来执行,该装置可以由软件和/或硬件的方式来实现。如图1所示,该方法具体包括以下步骤:
S110、获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列。
由于合同的特殊性、合同履行的长期性和合同履行的多样性、复杂性等特点,使得合同条款中存在的风险责任是合同双方无法回避的,因此需要在合同签订前对合同条款进行风险识别以达到规避风险的目的。获取待识别的合同文本,其中,当待识别的合同文本为电子文本时,可直接获取电子文本的存储位置以获取待识别的合同文本;当待识别的合同文本为纸质文本时,可以获取合同文本的文本图像,并通过识别文本图像中的文字内容并将图像转换为文本格式的待识别文本合同。可选的,可以采用光学字符识别技术识别所述文本图像中的文字内容。具体的,光学字符识别技术即OCR(Optical CharacterRecognition)技术,是利用电子设备对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。利用OCR技术对纸质合同文本图像中的文字内容进行识别,既可以保证识别结果的准确性,同时也有利于提高合同文本信息的处理效率。当然,还可通过其他文字识别技术进行文字识别,本申请在此不做限制。
对待识别的合同文本进行拆分,以确定合同文本中各待识别的合同条款文本。可选的,根据预设拆分方法或根据预设规则对合同文本中的信息进行拆分。具体的,预设规则可以为将合同文本按句或按段进行拆分,还可以是基于预先训练的学习模型对合同文本进行条款的拆分。在得到待识别的各合同条款文本后,对待识别的各合同条款文本进行预处理,具体的,预处理可以包括但不限于去除各合同条款中不可读字符、空格等与条款语义识别无关的文本内容,以减小识别合同条款的工作量,缩短识别条款风险的时间。具体的,可以通过遍历各合同条款文本中的所有字符,根据字符类型,将识别到的不可读字符、空格等与条款语义识别无关的文本内容去除,以形成预处理后的各合同条款文本。
可选的,获取预处理后的各合同条款文本,将预处理后的合同条款文本进行文本令牌序列转换处理,并在转换得到的初始文本序列的起始位置添加文本任务标识,生成该合同条款文本对应的文本序列。具体的,文本序列表达式如下述公式所示:
Tokenseq=Concat(Tokentask,Tokeninput)
其中,Tokenseq表示合同条款完整的文本序列;Tokentask表示合同条款的识别任务标识;Tokeninput表示合同条款的文本内容。
示例性的,当预处理后的合同条款文本为[乙方已经提交履约保证金的,甲方将不予退还。]时,对该合同条款文本进行文本令牌转换处理,得到[734 3175 2347 5307 2290769 2252 5276 924 6395 7023 4638 8024 4508 3175 2199 679 750 6842 6820 511],并在开始位置加入文本任务标识,即Tokentask。可选的,任务标识可以是合同法律风险识别标识和合同付款风险识别标识等。示例性的,在本实施例中当对合同法律风险进行标识时,即Tokentask可以用79标识,所以生成该合同条款完整的文本序列,即Tokenseq为[79 7343175 2347 5307 2290 769 2252 5276 924 6395 7032 4638 8024 4508 3175 2199 679750 6842 6820 511];当在其他实施例中当对合同付款风险进行标识时,Tokentask可以用80标识。
S120、基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果。
在本发明实施例中,将合同条款文本对应的文本序列输入预先训练的条款风险识别模型进行风险识别,并获取条款风险识别模型输出当前合同条款文本的风险识别结果。其中,该条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层。
具体的,基于文本序列处理网络层确定输入的文本序列中的各文本令牌对应的至少一个词向量,得到所述文本序列对应的词向量序列。可以使条款风险识别模型更精准的识别合同条款文本的语义,以实现更加精准的识别合同条款的风险。可选的,文本序列处理网络层可以是WE(Word Embedding,词嵌入方法)网络层。具体的,采用WE层分析文本序列中各令牌对应的至少一个词向量。可选的,在本实施例中当文本序列形成的词向量的维度为768维,即经WE层编码分析后,输入的合同文本为768维的稠密向量序列,可以大幅提高当前条款风险识别网络模型识别合同条款文本的能力。
可选的,将基于语义关系提取网络层提取词向量序列中各词向量之间的语义关系,生成第一语义向量序列。可选的,语义关系提取网络层可以SA(Self Attention,自注意机制)网络层。具体的,SA层的分析方法如下述公式所示:
Figure BDA0002787457570000061
Q=f(x,weightQ),K=f(x,weightk),V=f(x,weightv)
其中,k=768,是向量的维数。SA层通过层权重weightq,weightk,weightv将合同条款文本词向量序列映射为Q,K,V,并应用上述公式提取向量序列间的语义关系,形成合同条款文本的第一语义向量序列,即隐层向量序列。其中,K,V,Q分别是语义关系提取网络层的层输出。可选的,在一些实施例中K与V相等。
可选的,基于所述语义特征提取网络层对所述第一语义向量序列进行非线性处理,得到第二语义向量序列。可选的,语义特征提取网络层可以是FF(Feed Forward,前向反馈方法)网络层。具体的,FF层的分析方法如下述公式所示:
y=Relu(xW1+b1)W2+b2
其中,Relu(x)=max(0,x),W代表权重;b代表偏置。由于Relu激活函数剧透非线性的特点,使加入FF网络层的条款风险识别模型可以增强该模型的非线性拟合能力。
可选的,基于风险分类网络层对第一语义向量序列和第二语义向量序列进行风险识别,得到条款风险识别结果。可选的,可以使条款风险识别模型具有较好的泛化性,即可以从没有提取规则经验的合同条款文本发现风险条款。具体的,对第一语义向量序列和第二语义向量序列的和进行归一化处理。可选的,归一化函数的表达方式如下述公式所示:
y=LayerNorm(x+Sublayer(x))
其中,Sublayer(x)为语义关系提取网络层中输出的第一语义向量序列。x为语义特征提取网络层中输出的第二语义向量序列。可选的,采用当前的网络结构使条款风险识别模型可以增加网络深度并在训练过程中丢弃训练效果较差的神经网络层。具体的,LayerNorm(x)表达式的具体表述方式如下述公式所示:
Figure BDA0002787457570000071
其中,x表示本层归一化函数的输入,在本实施例中x表示第一语义向量序列和第二语义向量序列;μ表示输入的平均值;σ表示输入的标准差。可选的,归一化函数能够平滑条款风险识别模型训练过程中反向传播的梯度,减少条款风险识别模型的训练时间,提高条款风险识别模型泛化能力。
可选的,基于风险分类网络层对归一化结果进行风险识别,得到条款风险识别结果。可选的,风险分类网络层可以是Softmax网络层。其中,Softmax网络层的具体表达式如下述公式所示:
Figure BDA0002787457570000081
其中,n表示风险类别的数量;xi表示第i维输入;xj表示第j维输入。可选的,Softmax层的输出结果是[0,1]之间的数值。可选的,判断条款风险识别模型的识别结果包含的条款信息的风险值是否达到预设风险阈值。若风险值大于预设风险阈值,则将当前合同条款文本确定为风险条款;若风险值未达到预设风险阈值,则将当前合同条款文本确定为无风险条款。可选的,可以选择0.5为预设风险阈值,当然也可以根据实际情况具体设置风险阈值。具体的,在本实施例中风险条款可以是开口罚则合同条款,即指合同条款中约定我方赔偿金额不可预测、不设上限的条款,或合同条款罚则过重。当然,在其他实施例中风险条款也可以是存在形式错误的合同条款。
在本实施例中,示例性的如图2所示,首先对拆分后的合同条款进行预处理得到待识别的合同条款,并且对合同条款Token化生成合同条款Tokenseq,Tokenseq经过WE网络层分析形成词向量序列Eseq、词向量序列经过SA网络层、FF网络层的语义分析形成语义序列Tseq,Softmax网络层分析语义序列Tseq中的任务标识Ttask,最终得到条款风险识别模型对合同条款文本的法律风险识别结果。
在一些实施例中,基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果之前还包括,对该条款风险识别模型进行训练。具体的,获取用于模型训练的历史合同条款,并确定各历史合同条款的风险标签,其中,历史合同条款包括正样本合同条款和负样本合同条款。可选的,基于各历史合同条款对待训练的条款风险识别模型进行如下迭代训练,直到迭代训练的条款风险识别模型满足预设条件,得到训练完成的条款风险识别模型。将任一历史合同条款输入至待训练的条款风险识别模型,得到历史合同条款的风险预测结果。基于风险预测结果和历史合同条款的风险标签生成损失函数,并基于损失函数对所述待训练的条款风险识别模型进行参数调节。可选的,损失函数可以是交叉熵损失函数,具体的表达式如下述公式所示:
Figure BDA0002787457570000091
其中,ti是合同条款是否存在法律风险的真实标签,si是模型对合同条款法律风险的预测评分。可选的,模型训练时通过迭代降低损失函数值更新网络权重,从存在法律风险的合同条款中学习审核合同的专业知识,从而达到增强该模型识别风险条款的识别能力。
示例性的,采用81498条(其中无风险合同条款40756条,开口罚则合同条款40742条)合同条款训练上述条款风险识别,随后利用训练后的条款风险识别模型对24448个合同条款进行风险识别,并对比识别结果与真实的法律风险标签,识别结果如下:TP=11379,FN=831,FP=450,TN=11788,准确率为94.8%。其中:TP(True Positive)为模型正确地将开口罚则合同条款预测为开口罚则风险类型的合同条款数;FN(False Negative)为模型错误地将开口罚则合同条款预测为无法律风险的合同条款数;FP(False Positive)为模型错误地将无法律风险合同条款预测为开口罚则风险类型的合同条款数;TN
(True Negative)为模型正确地将无法律风险合同条款预测为无法律风险合同条款数。
本发明通过获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列,基于条款风险识别模型中文本序列处理网络层得到了文本序列对应的词向量序列,基于语义关系提取网络层生成第一语义向量序列,基于语义特征提取网络层生成第二语义向量序列,基于风险分类网络层对第一语义向量序列和第二语义向量序列进行风险识别,得到条款风险识别结果,减轻了法务工作者的工作负担、提高审核效率。
实施例二
图3为本发明实施例二提供的一种合同条款风险识别方法的流程图,本实施例在上述各实施例的基础上,增加了“根据各合同条款文本的条款风险识别结果在待识别合同文本对各合同条款文本进行区别显示。”其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图3,本实施例提供的合同条款风险识别方法包括:
S210、获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列。
S220、基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果。
S230、根据各合同条款文本的条款风险识别结果在待识别合同文本对各合同条款文本进行区别显示。
在本发明实施例中,通过预设突出显示方式对各合同条款文本进行区别显示。可选的,可以仅仅对风险条款进行突出显示,也可以仅仅对无风险条款进行区别显示,当然还可以采用不同的显示方式分别对风险条款和无风险条款进行区别显示,本实施例对此不加以限制。可选的,预设突出显示方法包括但不限于加粗、高亮、放大字体、改变字体、加下划线以及通过特殊颜色标记展示等显示方法。示例性的,可以对合同文本中的风险条款进行放大字体显示;也可以对合同文本中的无风险条款进行加粗显示;当同时对风险条款和无风险条款区别显示时,可以通过不同颜色标记进行显示,例如红色显示风险条款,绿色显示无风险条款。
本发明通过获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;基于条款风险识别模型中文本序列处理网络层得到了文本序列对应的词向量序列,基于语义关系提取网络层生成第一语义向量序列,基于语义特征提取网络层生成第二语义向量序列,基于风险分类网络层对第一语义向量序列和第二语义向量序列进行风险识别,得到条款风险识别结果,并根据各合同条款文本的条款风险识别结果在待识别合同文本对各合同条款文本进行区别显示。在减轻了法务工作者的工作负担、提高审核效率的同时,更增强了交易安全性、降低经济损失。
以下是本发明实施例提供的合同条款风险识别装置的实施例,该装置与上述各实施例的合同条款风险识别方法属于同一个发明构思,在合同条款风险识别装置的实施例中未详尽描述的细节内容,可以参考上述合同条款风险识别方法的实施例。
实施例三
图4为本发明实施例三提供的性能测试分析装置的结构示意图,本实施例可适用于在软件测试中进行性能测试的情况。该图像数据的处理装置的具体结构如下:
文本序列获取模块310,用于获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;
条款风险识别模块320,用于基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果,其中,所述条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层。
可选的,所述文本序列获取模块310,包括:
第一处理单元,用于对所述待识别的合同条款文本进行预处理,其中,所述预处理包括去除合同条款文本中的不可读字符与空格。
第二处理单元,用于将预处理后的合同条款文本进行文本令牌序列转换处理,并在转换得到的初始文本序列的起始位置添加文本任务标识,生成所述合同条款文本对应的文本序列,其中,所述文本序列公式表述为:Tokenseq=Concat(Tokentask,Tokeninput);其中,Tokenseq表示所述合同条款完整的文本序列;Tokentask表示所述合同条款的识别任务标识;Tokeninput表示所述合同条款的文本内容。
可选的,所述文本序列获取模块310,还包括:
合同条款文本获取单元,用于获取待识别的合同文本,并对所述合同文本中的合同条款进行拆分,确定所述合同文本中的各待识别的合同条款文本。
可选的,所述条款风险识别模块320,包括:
词向量序列获取单元,用于基于所述文本序列处理网络层确定输入的文本序列中的各文本令牌对应的至少一个词向量,得到所述文本序列对应的词向量序列;
第一语义向量获取单元,用于基于所述语义关系提取网络层提取所述词向量序列中各词向量之间的语义关系,生成第一语义向量序列;
第二语义向量获取单元,用于基于所述语义特征提取网络层对所述第一语义向量序列进行非线性处理,得到第二语义向量序列;
条款风险识别单元,用于基于所述风险分类网络层对所述第一语义向量序列和所述第二语义向量序列进行风险识别,得到所述条款风险识别结果。
可选的,所述风险识别单元,包括:
归一化处理单元,用于基于第一公式对所述第一语义向量序列和所述第二语义向量序列的和进行归一化处理,其中,所述第一公式为:
Figure BDA0002787457570000131
其中,x表示本层归一化函数的输入;μ表示输入的平均值;σ表示输入的标准差。
风险识别结果获取单元,用于基于所述风险分类网络层对归一化结果进行风险识别,得到所述条款风险识别结果,其中,所述识别结果为:
Figure BDA0002787457570000132
其中,n表示风险类别的数量;xi表示第i维输入;xj表示第j维输入。
可选的,所述条款风险识别模型的训练方法包括:
获取用于模型训练的历史合同条款,并确定各历史合同条款的风险标签,其中,历史合同条款包括正样本合同条款和负样本合同条款;
基于各所述历史合同条款对待训练的条款风险识别模型进行如下迭代训练,直到迭代训练的条款风险识别模型满足预设条件,得到训练完成的条款风险识别模型:
将任一历史合同条款输入至对待训练的条款风险识别模型,得到所述历史合同条款的风险预测结果;
基于所述风险预测结果和所述历史合同条款的风险标签生成损失函数,并基于所述损失函数对所述待训练的条款风险识别模型进行参数调节。
可选的,所述条款风险识别结果包括:风险条款和无风险条款。
可选的,在条款风险识别模块320之后,还包括:
风险识别结果显示单元,用于根据各合同条款文本的条款风险识别结果在待识别合同文本对各合同条款文本进行区别显示。
本发明实施例所提供的合同条款风险识别装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本发明通过获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;基于条款风险识别模型中文本序列处理网络层得到了文本序列对应的词向量序列,基于语义关系提取网络层生成第一语义向量序列,基于语义特征提取网络层生成第二语义向量序列,基于风险分类网络层对第一语义向量序列和第二语义向量序列进行风险识别,得到条款风险识别结果,在减轻了法务工作者的工作负担、提高审核效率的同时,更增强了交易安全性、降低经济损失。
值得注意的是,上述合同条款风险识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图5为本发明实施例四提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图5显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备12以通用计算电子设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及样本数据获取,例如实现本明任意实施例所提供的一种合同条款风险识别方法步骤,合同条款风险识别方法包括:
获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;
基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果,其中,所述条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的样本数据获取方法的技术方案。
实施例五
本实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现例如实现本发明任意实施例所提供的一种合同条款风险识别方法步骤,合同条款风险识别方法包括:
获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;
基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果,其中,所述条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种合同条款风险识别方法,其特征在于,应用于合同法律风险审批领域,包括:
获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;
基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果,其中,所述条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层。
2.根据权利要求1所述的方法,其特征在于,所述将所述待识别的合同条款文本转换为文本序列,包括:
对所述待识别的合同条款文本进行预处理,其中,所述预处理包括去除合同条款文本中的不可读字符与空格;
将预处理后的合同条款文本进行文本令牌序列转换处理,并在转换得到的初始文本序列的起始位置添加文本任务标识,生成所述合同条款文本对应的文本序列,其中,所述文本序列公式表述为:Tokenseq=Concat(Tokentask,Tokeninput);其中,Tokenseq表示所述合同条款完整的文本序列;Tokentask表示所述合同条款的识别任务标识;Tokeninput表示所述合同条款的文本内容。
3.根据权利要求1所述的方法,其特征在于,所述获取待识别的合同条款文本,包括:
获取待识别的合同文本,并对所述合同文本中的合同条款进行拆分,确定所述合同文本中的各待识别的合同条款文本。
4.根据权利要求1所述的方法,其特征在于,所述基于条款风险识别模型对所述文本序列进行风险识别,包括:
基于所述文本序列处理网络层确定输入的文本序列中的各文本令牌对应的至少一个词向量,得到所述文本序列对应的词向量序列;
基于所述语义关系提取网络层提取所述词向量序列中各词向量之间的语义关系,生成第一语义向量序列;
基于所述语义特征提取网络层对所述第一语义向量序列进行非线性处理,得到第二语义向量序列;
基于所述风险分类网络层对所述第一语义向量序列和所述第二语义向量序列进行风险识别,得到所述条款风险识别结果。
5.根据权利要求4所述的方法,其特征在于,所述基于所述风险分类网络层对所述第一语义向量序列和所述第二语义向量序列进行风险识别,得到所述条款风险识别结果,包括:
基于第一公式对所述第一语义向量序列和所述第二语义向量序列的和进行归一化处理,其中,所述第一公式为:
Figure FDA0002787457560000021
其中,x表示本层归一化函数的输入;μ表示输入的平均值;σ表示输入的标准差;
基于所述风险分类网络层对归一化结果进行风险识别,得到所述条款风险识别结果,其中,所述识别结果为:
Figure FDA0002787457560000022
其中,n表示风险类别的数量;xi表示第i维输入;xj表示第j维输入。
6.根据权利要求1所述的方法,其特征在于,所述条款风险识别模型的训练方法包括:
获取用于模型训练的历史合同条款,并确定各历史合同条款的风险标签,其中,历史合同条款包括正样本合同条款和负样本合同条款;
基于各所述历史合同条款对待训练的条款风险识别模型进行如下迭代训练,直到迭代训练的条款风险识别模型满足预设条件,得到训练完成的条款风险识别模型:
将任一历史合同条款输入至对待训练的条款风险识别模型,得到所述历史合同条款的风险预测结果;
基于所述风险预测结果和所述历史合同条款的风险标签生成损失函数,并基于所述损失函数对所述待训练的条款风险识别模型进行参数调节。
7.根据权利要求1所述的方法,其特征在于,所述条款风险识别结果包括:风险条款和无风险条款;
所述在得到所述条款风险识别模型输出的条款风险识别结果之后,还包括:
根据各合同条款文本的条款风险识别结果在待识别合同文本对各合同条款文本进行区别显示。
8.一种合同条款风险识别装置,其特征在于,包括:
文本序列获取模块,用于获取待识别的合同条款文本,将所述待识别的合同条款文本转换为文本序列;
条款风险识别模块,用于基于条款风险识别模型对所述文本序列进行风险识别,得到所述条款风险识别模型输出的条款风险识别结果,其中,所述条款风险识别模型包括依次设置的文本序列处理网络层、语义关系提取网络层、语义特征提取网络层和风险分类网络层。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的合同条款风险识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的合同条款风险识别方法。
CN202011302890.3A 2020-11-19 2020-11-19 合同条款风险智能识别方法、装置、电子设备及存储介质 Pending CN112232088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011302890.3A CN112232088A (zh) 2020-11-19 2020-11-19 合同条款风险智能识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011302890.3A CN112232088A (zh) 2020-11-19 2020-11-19 合同条款风险智能识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112232088A true CN112232088A (zh) 2021-01-15

Family

ID=74123899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011302890.3A Pending CN112232088A (zh) 2020-11-19 2020-11-19 合同条款风险智能识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112232088A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861511A (zh) * 2021-03-03 2021-05-28 深圳前海微众银行股份有限公司 风险文本的提取方法、装置、电子设备及存储介质
WO2022183490A1 (en) * 2021-03-05 2022-09-09 Paypal, Inc. Software process modification platform for compliance

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170103466A1 (en) * 2015-10-13 2017-04-13 Nayeem Syed Risk and Compliance Analytic System
CN109918635A (zh) * 2017-12-12 2019-06-21 中兴通讯股份有限公司 一种合同文本风险检测方法、装置、设备及存储介质
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110046248A (zh) * 2019-03-08 2019-07-23 阿里巴巴集团控股有限公司 用于文本分析的模型训练方法、文本分类方法和装置
CN110222330A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 语义识别方法及装置、存储介质、计算机设备
CN110705265A (zh) * 2019-08-27 2020-01-17 阿里巴巴集团控股有限公司 合同条款风险识别方法以及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170103466A1 (en) * 2015-10-13 2017-04-13 Nayeem Syed Risk and Compliance Analytic System
CN109918635A (zh) * 2017-12-12 2019-06-21 中兴通讯股份有限公司 一种合同文本风险检测方法、装置、设备及存储介质
CN110046248A (zh) * 2019-03-08 2019-07-23 阿里巴巴集团控股有限公司 用于文本分析的模型训练方法、文本分类方法和装置
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110222330A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 语义识别方法及装置、存储介质、计算机设备
CN110705265A (zh) * 2019-08-27 2020-01-17 阿里巴巴集团控股有限公司 合同条款风险识别方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高敬鹏: "《深度学习 卷积神经网络技术与实践》", vol. 2020, 31 July 2020, 机械工业出版社, pages: 46 - 47 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861511A (zh) * 2021-03-03 2021-05-28 深圳前海微众银行股份有限公司 风险文本的提取方法、装置、电子设备及存储介质
CN112861511B (zh) * 2021-03-03 2024-06-07 深圳前海微众银行股份有限公司 风险文本的提取方法、装置、电子设备及存储介质
WO2022183490A1 (en) * 2021-03-05 2022-09-09 Paypal, Inc. Software process modification platform for compliance
US12014154B2 (en) 2021-03-05 2024-06-18 Paypal, Inc. Software process modification platform for compliance

Similar Documents

Publication Publication Date Title
CN110597964B (zh) 一种双录质检语义分析方法、装置及双录质检系统
CN110852065B (zh) 一种文档审核方法、装置、系统、设备及存储介质
CN113220836B (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN108305050B (zh) 报案信息及服务需求信息的提取方法、装置、设备及介质
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN110765889B (zh) 法律文书的特征提取方法、相关装置及存储介质
CN110162786A (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113064964A (zh) 文本分类方法、模型训练方法、装置、设备以及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112232088A (zh) 合同条款风险智能识别方法、装置、电子设备及存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN111144102A (zh) 用于识别语句中实体的方法、装置和电子设备
CN115525750A (zh) 机器人话术检测可视化方法、装置、电子设备及存储介质
CN112800184A (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN114398466A (zh) 基于语义识别的投诉分析方法、装置、计算机设备及介质
CN114186041A (zh) 一种答案输出方法
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN114417974B (zh) 模型训练方法、信息处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination