CN110059924A

CN110059924A - 合同条款的审查方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110059924A
Application number: CN201910192577.XA
Authority: CN
Inventors: 曾文韬; 钟亮; 王威; 杨昭; 胡家义; 张珣; 吴力丰
Original assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Current assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-07-26

Abstract

本发明公开一种合同条款的审查方法、装置、设备及计算机可读存储介质，所述方法包括：当接收到待审查合同时，对待审查合同进行格式转换，并读取经格式转换后待审查合同中的任意一项条款作为目标条款，对目标条款进行句子分割和词语分割，生成多个分词；根据待审查合同的合同类别，调用与合同类别对应的数据模型，并基于各数据模型对各分词进行处理，生成与各数据模型对应的特征向量；对各特征向量进行整合，生成目标条款的条款特征向量，并根据条款特征向量，审查目标条款的风险性。本方案基于人工智能所生成条款特征向量，可结合目标条款各方面的特征来表征其风险性，提高了审查效率以及对合同条款审查的准确性。

Description

合同条款的审查方法、装置、设备及计算机可读存储介质

技术领域

本发明主要涉及人工智能技术领域，具体地说，涉及一种合同条款的审查方法、装置、设备及计算机可读存储介质。

背景技术

随着法律意识的增强，雇主与员工之间、房东与房客之间均需要签订合同，以保护双方当事人的权益，并明确责任；合同作为双方当事人之间设立、变更、终止民事关系的协议，具有法律效应。在合同签订之前，需要充分考虑到合同文本中各条款的合理性，避免其中出现风险条款或缺失条款。

目前对于合同中的各条款，主要通过法律工作者以其经验进行审查；对于经验较为欠缺的法律工作者可能难以识别其中的风险条款，容易导致对合同条款的审查不准确；即便对于经验丰富的法律工作者，也需要花费大量的时间进行细致的审查，对合同条款的审查效率低。

发明内容

本发明的主要目的是提供一种合同条款的审查方法、装置、设备及计算机可读存储介质，旨在解决现有技术中对合同条款的审查，容易不准确，且审查效率低的问题。

为实现上述目的，本发明提供一种合同条款的审查方法，所述合同条款的审查方法包括以下步骤：

当接收到待审查合同时，对所述待审查合同进行格式转换，并读取经格式转换后所述待审查合同中的任意一项条款作为目标条款，对所述目标条款进行句子分割和词语分割，生成多个分词；

根据所述待审查合同的合同类别，调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量；

对各所述特征向量进行整合，生成所述目标条款的条款特征向量，并根据所述条款特征向量，审查所述目标条款的风险性。

优选地，所述数据模型包括语义模型，所述调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量的步骤包括：

调用与所述合同类别对应的语义模型，基于所述语义模型中的实体识别算法从各所述分词中抽取关键分词，并将各所述关键分词形成知识图谱；

基于所述语义模型中的句法分析算法对所述目标条款进行句子分割所形成的分句进行句法结构分析，生成分析结果；

根据所述知识图谱和所述分析结果，生成与所述语义模型对应的语义特征向量。

优选地，所述数据模型包括经验模型，所述调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量的步骤包括：

调用与所述合同类别对应的经验模型，并根据各所述分词在所述目标条款中的前后顺序，将各所述分词传输到所述经验模型中；

基于所述经验模型中的经验关键词对各所述分词以及各所述分词之间的顺序关系进行识别，生成与所述经验模型对应的经验特征向量。

优选地，所述数据模型包括相似模型、主题模型和距离模型，所述调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量的步骤包括：

调用与所述合同类别对应的相似模型，并基于所述相似模型中的相似词典对各所述分词进行识别，生成与所述相似模型对应的相似特征向量；

调用与所述合同类别对应的主题模型，并基于所述主题模型中的主题词典对各所述分词进行识别，生成与所述主题模型对应的主题特征向量；

调用与所述合同类别对应的距离模型，并基于所述距离模型中的距离词典对各所述分词进行识别，生成与所述距离模型对应的距离特征向量。

优选地，所述数据模型包括非文本模型，所述调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量的步骤包括：

读取所述待审查合同的非文本属性，并将各所述非文本属性作为与所述目标条款对应的非文本分词添加到各所述分词中；

调用与所述合同类别对应的非文本模型，并基于所述非文本模型中属性类型与类型向量之间的对应关系，对各所述分词中的非文本分词进行识别，生成与所述非文本模型对应的非文本特征向量。

优选地，所述对各所述特征向量进行整合，生成所述目标条款的条款特征向量的步骤包括：

读取与所述语义模型、经验模型、相似模型、主题模型、距离模型和非文本模型分别对应的语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重；

调用所述语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重分别对所述语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量进行加权处理，生成所述目标条款的条款特征向量。

优选地，所述根据所述条款特征向量，审查所述目标条款的风险性的步骤包括：

根据预设的向量与风险值之间的映射关系，确定与所述条款特征向量对应的目标风险值，并判断所述目标风险值是否大于所述预设风险阈值；

若所述目标风险值大于或等于所述预设风险阈值，则将所述目标条款的风险性判定为具有风险；若所述目标风险值小于所述预设风险阈值，则将所述目标条款的风险性判定为不具有风险。

此外，为实现上述目的，本发明还提出一种合同条款的审查装置，所述合同条款的审查装置包括：

分词模块，用于当接收到待审查合同时，对所述待审查合同进行格式转换，并读取经格式转换后所述待审查合同中的任意一项条款作为目标条款，对所述目标条款进行句子分割和词语分割，生成多个分词；

生成模块，用于根据所述待审查合同的合同类别，调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量；

审查模块，用于对各所述特征向量进行整合，生成所述目标条款的条款特征向量，并根据所述条款特征向量，审查所述目标条款的风险性。

此外，为实现上述目的，本发明还提出一种合同条款的审查设备，所述合同条款的审查设备包括：存储器、处理器、通信总线以及存储在所述存储器上的合同条款的审查程序；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行所述合同条款的审查程序，以实现以下步骤：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于：

本实施例的合同条款的审查方法，针对各种待审查合同的合同类别，预先设置有多组数据模型，当接收到待审查合同时，先对其进行格式转换，并读取其中任意一项条款作为需要进行风险性检测的目标条款，对该目标条款进行句子分割和词语分词的处理，生成多个分词；再调用与待审查合同的合同类别所对应的数据模型，并由各个数据模型对目标条款所划分的分词进行处理，生成与各个数据模型对应的特征向量；进而对各个特征向量进行整合，生成目标条款的条款特征向量，并依据该条款特征向量，对目标条款的风险性进行审查。本方案中的各数据模型依据大量合同范本在不同方面的特征预先生成，使得对由各个数据模型所生成的特征向量整合所生成的条款特征向量，可结合目标条款各方面的特征来表征其风险性，提高了合同条款审查的准确性；同时节省了法律工作者大量的劳动成本，提高了审查效率。

附图说明

图1是本发明的合同条款的审查方法第一实施例的流程示意图；

图2是本发明的合同条款的审查装置第一实施例的功能模块示意图；

图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种合同条款的审查方法。

请参照图1，图1为本发明合同条款的审查方法第一实施例的流程示意图。在本实施例中，所述合同条款的审查方法包括：

步骤S10，当接收到待审查合同时，对所述待审查合同进行格式转换，并读取经格式转换后所述待审查合同中的任意一项条款作为目标条款，对所述目标条款进行句子分割和词语分割，生成多个分词；

本发明合同条款的审查方法应用于服务器，适用于通过服务器对合同中的各项条款进行审查，判定各项条款是否为风险条款或缺失条款等风险性条款。具体地，对合同中条款的风险性审查其实质为对合同的审查，当有对合同的审查需求时，将该需要审查的合同上传，并将该上传的合同作为待审查合同。考虑到合同可以以各种格式的文档存在，如word文档、pdf文档等；当接收到待审查合同时，读取其文件后缀名，以通过该文件后缀名表征待审查合同的格式，判断待审查合同的格式是否满足服务器的要求；若经判断满足要求，则不对待审查合同的格式进行转换处理；而若不满足要求则对待审查合同的格式进行转换处理。预先设置服务器所需求的格式，即满足服务器要求的格式；如设定所需求的格式为EXCEL格式，则其对应的文件后缀名为xls；而若读取到的文件后缀名为doc，则判定出不满足要求，需要进行格式转换处理。转换时读取待审查合同中的文本内容，并将读取的文本内容按照其中各条款的顺序传输到EXCEL中，形成满足格式要求的待审查合同。

进一步地，在对待审查合同进行格式转换，形成满足格式要求的待审查合同之后，读取该经格式转换后的待审查合同中的条款进行风险审查；其中对条款的读取方式可以按照条款在待审查合同中的顺序进行，也可以任意读取。对经读取和审查之后的条款分配标识符，再读取下一项不携带有标识符的条款进行审查；以通过标识符区分待审查合同中进行了审查和没有进行审查的条款，直到待审查合同中的所有条款均携带有标识符，表征对其中的所有条款均审查完成。将当前读取的条款作为目标条款，并对该目标条款依据标点符号进行句子分割，形成各个句子；再对各个句子依据预先设定的预设词进行词语分割，去掉其中诸如“的”、“与”、“和”此类无意义的连接词，以及敏感词、虚词等停用词，形成多个分词，以依据各分词所表征的风险性对目标条款进行审查。

步骤S20，根据所述待审查合同的合同类别，调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量；

可理解地，市面上的合同类别多种多样，且不同类别的合同具有不同的规范要求；为了在审查过程中按照合同类别进行准确审查，预先设置有多个基础模型，并针对不同类别的合同，抓取大量的不同合同范本作为样本数据，对基础模型进行训练，生成与各个类别合同对应的数据模型。同时针对同类别合同，设置有从不同方面体现合同风险性的数据模型，具体可包括语义模型、经验模型、相似模型、主题模型、距离模型以及非文本模型；各个类别合同均至少与该六个数据模型对应，以便于从各个方面对各类别合同中的条款进行审查。如设定租赁合同和劳动合同所对应的数据模型分别为A和B，且A与B所对应的语义模型、经验模型、相似模型、主题模型、距离模型以及非文本模型分别为a1、a2、a3、a4、a5、a6和b1、b2、b3、b4、b5、b6。其中需要说明的是，不同合同类别之间所使用的基础模型可以相同；如上述A与B所对应的语义模型、经验模型、相似模型、主题模型、距离模型以及非文本模型用于训练的基础模型分别为a11、a21、a31、a41、a51、a61和a11、b21、a31、b41、b51、a61；但是两者之间用于训练的合同范本所归属的类别不相同，使得即便不同合同类别之间存在相同的基础模型，在经不同类别的合同范本训练之后所得到的数据模型存在差异性，以便于依据合同类别进行审查。

进一步地，为了依据待审查合同的合同类别对其进行审查，需要先确定其所归属的合同类别；具体地，先判断接收到的待审查合同中是否携带有表征类别的类型信息，若携带有表征类别的类型信息，则根据该类型信息确定待审查合同所对应的合同类别；若不携带有表征类别的类型信息，则对待审查合同的类别进行识别分类，以确定其所对应的合同类别。不同类别的数据模型之间携带有不同的类别标识，在确定待审查合同的合同类别之后，可依据对应的类别标识进一步确定对该待审查合同进行处理的各数据模型。对该各数据模型进行调用，以通过各数据模型对待审查合同中由目标条款所分割而来的各分词进行处理，生成与各数据模型对应的特征向量；即每个数据模型均对各分词进行一次处理，生成一项对应的特征向量，以由各项特征向量反映各分词所来源的目标条款在各个方面的风险性。

具体地，数据模型中包括语义模型，调用与合同类别对应的数据模型，并基于各数据模型对各分词进行处理，生成与各数据模型对应的特征向量的步骤包括：

步骤a1，调用与所述合同类别对应的语义模型，基于所述语义模型中的实体识别算法从各所述分词中抽取关键分词，并将各所述关键分词形成知识图谱；

进一步地，本实施例的数据模型中包括语义模型，语义模型为对合同中文本语义进行分析的模型，其中涉及到实体识别算法和句法分析算法两方面。实体识别(NamedEntity Recognition，NER)算法是指识别文本中具有特定意义的实体，主要包括三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体等；而句法分析(syntactic parsing)算法是对句子中的词语语法功能进行分析，分析研究句式或句法结构内部的构造特点，以判断句式中的句法结构是否合乎语法。预先用各种类型的合同范本作为训练样本进行训练，使得语义模型具备对各种类型合同进行实体识别和句法分析的功能。在确定合同类别后，对与合同类别所对应的语义模型进行调用，进而依据所调用的语义模型中的实体分析算法从分割的各分词中抽取关键分词，再将抽取的各分词形成知识图谱。所抽取的关键分词为分词中表征实体命名的词，如甲方、乙方、租金等命名；由关键分词所形成的知识图谱表征了所抽取的实体命名之间的关系，如甲方与乙方之间的买卖关系。

步骤a2，基于所述语义模型中的句法分析算法对所述目标条款进行句子分割所形成的分句进行句法结构分析，生成分析结果；

步骤a3，根据所述知识图谱和所述分析结果，生成与所述语义模型对应的语义特征向量。

更进一步地，在形成知识图谱的同时，还基于语义模型中的句法分析算法对目标条款进行句子分割所形成的分句进行句法结构分析，以对分句的句法结构合理性进行判定，生成分析结果。语义模型在经由合同范本训练过程中，学习了大量的句法结构合理的数据和句法结构不合理的数据；在对分句进行句法结构分析过程中，依据学习的数据即可识别分句所对应的句法结构；当所对应的句法结果与合理的数据具有相似性，则可判定分句的句法结构合理，当所对应的句法结果与不合理的数据具有相似性，则可判定分句的句法结构不合理。在形成知识图谱和表征句法结构合理性的分析结果后，由知识图谱和分析结果可生成目标条款在语义模型中的语义特征向量，以通过语义特征向量来表征目标条款的语义的风险性。

同时，数据模型还包括经验模型，调用与合同类别对应的数据模型，并基于各数据模型对各分词进行处理，生成与各数据模型对应的特征向量的步骤包括：

步骤b1，调用与所述合同类别对应的经验模型，并根据各所述分词在所述目标条款中的前后顺序，将各所述分词传输到所述经验模型中；

进一步地，本实施例的数据模型中还包括经验模型，经验模型为通过与各类型合同对应的专业人士标注，所形成的对合同文本中文字内容以及文字顺序的正确性进行判定的模型；即由专业人士预先设定各个类型合同中大量文本内容以及文本顺序作为正向训练样本和反向训练样本，进行训练样本生成与各个类型合同对应的经验模型；且各文本内容以及文本顺序作为各经验模型中的经验关键词。在确定合同类别后，对与合同类别所对应的经验模型进行调用，并将经目标条款所分割而来的各个分词依据其在目标条款中的前后顺序，依次传输到经验模型中，以通过经验模型对各分词所表征的风险性进行判断。

步骤b2，基于所述经验模型中的经验关键词对各所述分词以及各所述分词之间的顺序关系进行识别，生成与所述经验模型对应的经验特征向量。

更进一步地，依据经验模型中的经验关键词对各分词以及各分词之间的顺序关系进行识别；识别的内容包括各分词中是否存在各个表征目标条款正常的经验关键词，以及所存在的各经验关键词在句子中的顺序是否正确；或者各分词中是否存在任意一个表征句子具有风险的经验关键词。如设定经验关键词中包括词C1、C2、C3，且三者之间的顺序为C2、C1、C3，则需要识别目标条款中是否存在该三个词，且存在的顺序和该设定的顺序是否一致。针对分词识别所得到的结果，生成目标条款在经验模型中的经验特征向量，以通过经验特征向量表征目标条款所具有的文字内容以及文字顺序的风险性。

此外，数据模型还包括相似模型、主题模型和距离模型，调用与合同类别对应的数据模型，并基于各数据模型对各分词进行处理，生成与各数据模型对应的特征向量的步骤包括：

步骤c1，调用与所述合同类别对应的相似模型，并基于所述相似模型中的相似词典对各所述分词进行识别，生成与所述相似模型对应的相似特征向量；

进一步地，本实施例中的数据模型中还包括相似模型，相似模型为通过与分词相同或相似的关键词来对合同的风险性进行分析的模型。在将大量各种类型的合同范本作为样本数据进行训练的过程中，通过word2vec方法得到各种类型合同中的重要词汇以及与该重要词汇对应的相似词；其中重要词汇依据词汇在各类合同中所出现的次数决定。如在租赁合同中，可能租金所出现的次数较多，而将其作为重要词汇，进而通过word2vec的方式确定与该重要词汇对应的相似词。word2vec是一个计算word vector的开源工具，可在百万数量级的词典和上亿的数据集上进行高效地训练得到词向量(word embedding)，以度量词与词之间的相似性。基于word2vec计算各重要词汇与其他词之间的相似度得分；并将各相似度得分进行对比，确定得分最高的前预设位的词，如以前20位为例，即将得分最高的前20位的词作为与各重要词汇对应的相似词。将该训练过程中所得到的各重要词汇及其对应的相似词，作为相似模型中的关键词及其对应的相似关键词形成相似词典。

在确定合同类别后，对与合同类别所对应的语义模型进行调用；并将目标条款所分割的各个分词传输到相似模型中，由相似模型中相似词典内的各个关键词及其对应的相似关键词对各分词进行对比识别，确定各分词所对应的关键词或者相似关键词，进而由各对应的关键词或相似关键词生成目标条款在相似模型中的相似特征向量，以通过该相似特征向量来表征目标条款的风险性。

步骤c2，调用与所述合同类别对应的主题模型，并基于所述主题模型中的主题词典对各所述分词进行识别，生成与所述主题模型对应的主题特征向量；

更进一步地，数据模型中还包括主题模型，主题模型为通过与分词相同或相似的主题词来对合同的风险性进行分析的模型；在将大量各种类型的合同范本作为样本数据进行训练的过程中，通过LDA2vec方法得到各种类型合同中体现其主题的主题词汇以及与该体现主题词汇对应的相似词。其中LDA2vec是在word2vec的skip-gram模型基础上的建模，是word2vec和lda的扩展，可生成表征主题的单词向量。在通过LDA2vec确定体现合同主题的主题词汇后，进一步确定与各体现主题词汇所对应的相似词；预先基于LDA2vec计算各体现主题词汇与其他词之间的相似度得分，并将各相似度得分进行对比，确定得分最高的前预设位的词，如以前20位为例，即将得分最高的前20位的词作为与各体现主题词汇对应的相似词。将该训练过程中所得到的各主题词汇及其对应的相似词，作为主题模型中的主题词及其对应的相似主题词形成主题词典。

在确定合同类别后，对与合同类别所对应的主题模型进行调用，并将目标条款所分割的各个分词传输到主题模型中，由主题模型中主题词典内各个主题词及其对应的相似主题词对各分词进行对比识别，确定各分词所对应的主题词或者相似主题词，进而由各对应的主题词或相似主题词生成目标条款在主题模型中的主题特征向量，以通过该主题特征向量来表征目标条款的风险性。

步骤c3，调用与所述合同类别对应的距离模型，并基于所述距离模型中的距离词典对各所述分词进行识别，生成与所述距离模型对应的距离特征向量。

进一步地，数据模型中还包括距离模型，距离模型为通过与分词相同或相似的距离词来对合同的风险性进行分析的模型，在将大量各种类型的合同范本作为样本数据进行训练的过程中，通过编辑距离的方式得到各种类型合同中的重要词汇以及与该重要词汇对应的相似词；其中重要词汇同样依据词汇在各类合同中所出现的次数决定。如在劳动合同中，可能薪资所出现的次数较多，而将其作为重要词汇，进而通过编辑距离的方式确定与该重要词汇对应的相似词。编辑距离，又称Levenshtein距离(莱文斯坦距离也叫做EditDistance)，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。基于编辑距离计算各重要词汇与其他词之间的编辑距离大小；并将各编辑距离大小进行对比，确定编辑距离最小的前预设位的词，如以前20位为例，即将编辑距离最小的前20位的词作为与各重要词汇对应的相似词。将该训练过程中所得到的各重要词汇及其对应的相似词，作为距离模型中的距离词及其对应的相似距离词形成距离词典。

在确定合同类别后，对与合同类别所对应的距离模型进行调用；并将目标条款所分割的各个分词传输到距离模型中，由距离模型中距离词典内的各个距离词及其对应的相似距离词对各分词进行对比识别，确定各分词所对应的距离词或者相似距离词，进而由各对应的距离词或相似距离词生成目标条款在距离模型中的距离特征向量，以通过该距离特征向量表征目标条款的风险性。

更进一步地，数据模型还包括非文本模型，调用与合同类别对应的数据模型，并基于各数据模型对各分词进行处理，生成与各数据模型对应的特征向量的步骤包括：

步骤d1，读取所述待审查合同的非文本属性，并将各所述非文本属性作为与所述目标条款对应的非文本分词添加到各所述分词中；

可理解地，不同的合同由不同的人员编写，该编写的人员为合同的作者，不同的作者具有不同的职业属性、书写特征和行文风格等，某些类型的职业属性、书写特征或行文风格可能容易存在风险，而另一些类型的职业属性、书写特征或行文风格则不容易存在风险。将该类与合同中的文本内容无关，但与合同相关，可整体体现合同风险性的信息作为合同的非文本属性。依据待审查合同的作者读取待审查合同的非文本属性，并将各项非文本属性作为与目标条款对应的非文本分词，将各非文本分词添加到对目标条款分割所得到的分词中，以通过非文本分词表征目标条款的风险性。

步骤d2，调用与所述合同类别对应的非文本模型，并基于所述非文本模型中属性类型与类型向量之间的对应关系，对各所述分词中的非文本分词进行识别，生成与所述非文本模型对应的非文本特征向量。

进一步地，数据模型中还包括非文本模型，非文本模型为通过与合同文本内容不相关的非文本属性来对合同的风险性进行分析的模型。在将大量各种类型的合同范本作为样本数据进行训练的过程中，依据各种类型合同的非文本属性将各合同进行属性分类，生成各个类型属性存储；并针对各个类型属性生成表征非文本特征的类型向量，在非文本模型中形成各类型属性和类型向量之间的对应关系。

在确定合同类别后，对与合同类别所对应的非文本模型进行调用，并将分词中的非文本分词传输到非文本模型中，由非文本模型中属性类型与类型向量之间的对应关系和非文本分词对比，确定非文本分词所对应的属性类型。该对应的属性类型在对应关系中所对应的类型向量，即为分词中的非文本分词在非文本模型中的非文本特征向量，以通过该非文本特征向量来表征目标条款的风险性。

步骤S30，对各所述特征向量进行整合，生成所述目标条款的条款特征向量，并根据所述条款特征向量，审查所述目标条款的风险性。

可理解地，各个数据模型均针对各个分词生成有特征向量，各个特征向量从不同方面表征了合同中目标条款的风险性；为了体现目标条款的整体风险性，需要对各特征向量进行整合，通过整合的结果来整条判断目标条款是否具有风险。具体地，依据各特征向量所对应风险性对目标条款影响的重要程度，针对各数据模型设定不同的权重，通过各权重对各个特征向量进行加权整合，生成目标条款的条款特征向量。由该条款特征向量所表征的风险值，来整体审查目标条款的风险性。

本实施例的合同条款的审查方法，针对各种待审查合同的合同类别，预先设置有多组数据模型，当接收到待审查合同时，先对其进行格式转换，并读取其中任意一项条款作为需要进行风险性检测的目标条款，对该目标条款进行句子分割和词语分词的处理，生成多个分词；再调用与待审查合同的合同类别所对应的数据模型，并由各个数据模型对目标条款所划分的分词进行处理，生成与各个数据模型对应的特征向量；进而对各个特征向量进行整合，生成目标条款的条款特征向量，并依据该条款特征向量，对目标条款的风险性进行审查。本方案中的各数据模型依据大量合同范本在不同方面的特征生成，使得对由各个数据模型所生成的特征向量整合所生成的条款特征向量，可结合目标条款各方面的特征来表征其风险性，提高了合同条款审查的准确性；同时节省了法律工作者大量的劳动成本，提高了审查效率。

进一步地，在本发明合同条款的审查方法的另一实施例中，所述对各所述特征向量进行整合，生成所述目标条款的条款特征向量的步骤包括：

步骤S31，读取与所述语义模型、经验模型、相似模型、主题模型、距离模型和非文本模型分别对应的语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重；

更进一步地，针对语义模型、经验模型、相似模型、主题模型、距离模型和非文本模型分别预先设置有语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重，以表征各数据模型所对应生成的特征向量的风险性对目标条款的影响程度。在生成与各个数据模型对应的特征向量之后，对各个数据模型所对应的权重进行读取，即读取与语义模型、经验模型、相似模型、主题模型、距离模型和非文本模型分别对应的语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重，以通过各个权重对各个特征向量进行加权整合，表征目标条款的风险性。

步骤S32，调用所述语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重分别对所述语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量进行加权处理，生成所述目标条款的条款特征向量。

进一步地，在读取到语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重后，则分别调用该语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重分别对所生成语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量进行加权处理，生成目标条款的条款特征向量。如设定语义模型、经验模型、相似模型、主题模型、距离模型和非文本模型所对应的权重分别为0.2、0.3、0.05、0.15、0.2、0.1，而所生成的语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量分别为a1、a2、a3、a4、a5、a6；则经加权处理所得到的条款特征向量为((0.2*a1)+(0.3*a2)+(0.05*a3)+(0.15*a4)+(0.2*a5)+(0.1*a6))；由该得到的条款特征向量所表征的风险值，来整体反映目标条款的风险性。

具体地，根据条款特征向量，审查目标条款的风险性的步骤包括：

步骤S33，根据预设的向量与风险值之间的映射关系，确定与所述条款特征向量对应的目标风险值，并判断所述目标风险值是否大于所述预设风险阈值；

更进一步地，预先根据经验历史数据设置有向量与风险值之间的映射关系，在生成条款特征向量之后，将该条款特征向量和该映射关系对比，确定映射关系中和条款特征向量对应的向量。该对应的向量在映射关系中所对应的风险值，即为条款特征向量所对应具有的目标风险值。为了表征目标风险值的大小，预先设置有预设风险阈值，将所确定的条款特征向量所对应的目标风险值和该预设风险阈值进行对比，判断目标风险值是否大于预设风险阈值。

步骤S34，若所述目标风险值大于或等于所述预设风险阈值，则将所述目标条款的风险性判定为具有风险；若所述目标风险值小于所述预设风险阈值，则将所述目标条款的风险性判定为不具有风险。

若经对比判定目标风险值大于预设风险阈值，则说明目标条款整体的风险性较大，为具有风险的风险条款，而将目标条款的风险性判定为具有风险；而若经对比判定目标风险值不大于预设风险阈值，则说明目标条款整体的风险性较小，为不具有风险的风险条款，而将目标条款的风险性判定为不具有风险。

此外对目标条款整体风险性的判定该可依据逻辑回归模型进行，具体地，将历史生成的多个语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量作为训练样本，生成逻辑回归模型；且在经训练所得到的逻辑回归模型中，将合同条款具有风险和不具有风险作为因变量，而语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量作为自变量。在通过逻辑回归模型对目标条款进行审查时，将针对目标条款所生成的语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量输入到该逻辑回归模型中，和其中的各类自变量进行对比；确定逻辑回归模型中和语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量所对应的自变量类型。该对应的自变量类型在逻辑回归模型中所具有的风险性即为目标条款的风险性；即该自变量类型在逻辑回归模型中所对应的因变量若为具有风险，则目标条款的审查结果为具有风险；而该自变量类型在逻辑回归模型中所对应的因变量若为不具有风险，则目标条款的审查结果为不具有风险。

该通过多个向量所表征的多个维度以各权重或大量历史数据为基础的方式，对目标条款的风险性进行审查，使得所审查的结果更为准确。

此外，请参照图2，本发明提供一种合同条款的审查装置，在本发明合同条款的审查装置第一实施例中，所述合同条款的审查装置包括：

分词模块10，用于当接收到待审查合同时，对所述待审查合同进行格式转换，并读取经格式转换后所述待审查合同中的任意一项条款作为目标条款，对所述目标条款进行句子分割和词语分割，生成多个分词；

生成模块20，用于根据所述待审查合同的合同类别，调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量；

审查模块30，用于对各所述特征向量进行整合，生成所述目标条款的条款特征向量，并根据所述条款特征向量，审查所述目标条款的风险性。

本实施例的合同条款的审查装置，针对各种待审查合同的合同类别，预先设置有多组数据模型，当接收到待审查合同时，分词模块10先对其进行格式转换，并读取其中任意一项条款作为需要进行风险性检测的目标条款，对该目标条款进行句子分割和词语分词的处理，生成多个分词；生成模块20再调用与待审查合同的合同类别所对应的数据模型，并由各个数据模型对目标条款所划分的分词进行处理，生成与各个数据模型对应的特征向量；进而审查模块30对各个特征向量进行整合，生成目标条款的条款特征向量，并依据该条款特征向量，对目标条款的风险性进行审查。本方案中的各数据模型依据大量合同范本在不同方面的特征生成，使得对由各个数据模型所生成的特征向量整合所生成的条款特征向量，可结合目标条款各方面的特征来表征其风险性，提高了合同条款审查的准确性；同时节省了法律工作者大量的劳动成本，提高了审查效率。

进一步地，在本发明合同条款的审查装置另一实施例中，所述数据模型包括语义模型，所述生成模块还用于：

进一步地，在本发明合同条款的审查装置另一实施例中，所述数据模型包括经验模型，所述生成模块还用于：

进一步地，在本发明合同条款的审查装置另一实施例中，所述数据模型包括相似模型、主题模型和距离模型，所述生成模块还用于：

进一步地，在本发明合同条款的审查装置另一实施例中，所述数据模型包括非文本模型，所述生成模块还用于：

进一步地，在本发明合同条款的审查装置另一实施例中，所述审查模块还包括：

读取单元，用于读取与所述语义模型、经验模型、相似模型、主题模型、距离模型和非文本模型分别对应的语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重；

调用单元，用于调用所述语义权重、经验权重、相似权重、主题权重、距离权重和非文本语义权重分别对所述语义特征向量、经验特征向量、相似特征向量、主题特征向量、距离特征向量和非文本特征向量进行加权处理，生成所述目标条款的条款特征向量。

确定单元，用于根据预设的向量与风险值之间的映射关系，确定与所述条款特征向量对应的目标风险值，并判断所述目标风险值是否大于所述预设风险阈值；

判定单元，用于若所述目标风险值大于或等于所述预设风险阈值，则将所述目标条款的风险性判定为具有风险；若所述目标风险值小于所述预设风险阈值，则将所述目标条款的风险性判定为不具有风险。

其中，上述合同条款的审查装置的各虚拟功能模块存储于图3所示合同条款的审查设备的存储器1005中，处理器1001执行合同条款的审查程序时，实现图2所示实施例中各个模块的功能。

参照图3，图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明实施例合同条款的审查设备可以是PC(personal computer，个人计算机)，也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。

如图3所示，该合同条款的审查设备可以包括：处理器1001，例如CPU(CentralProcessing Unit，中央处理器)，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM(random accessmemory，随机存取存储器)，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该合同条款的审查设备还可以包括用户接口、网络接口、摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi(Wireless Fidelity，无线宽带)模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的合同条款的审查设备结构并不构成对合同条款的审查设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及合同条款的审查程序。操作系统是管理和控制合同条款的审查设备硬件和软件资源的程序，支持合同条款的审查程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与合同条款的审查设备中其它硬件和软件之间通信。

在图3所示的合同条款的审查设备中，处理器1001用于执行存储器1005中存储的合同条款的审查程序，实现上述合同条款的审查方法各实施例中的步骤。

本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述合同条款的审查方法各实施例中的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种合同条款的审查方法，其特征在于，所述合同条款的审查方法包括以下步骤：

2.如权利要求1所述的合同条款的审查方法，其特征在于，所述数据模型包括语义模型，所述调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量的步骤包括：

3.如权利要求2所述的合同条款的审查方法，其特征在于，所述数据模型包括经验模型，所述调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量的步骤包括：

4.如权利要求3所述的合同条款的审查方法，其特征在于，所述数据模型包括相似模型、主题模型和距离模型，所述调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量的步骤包括：

5.如权利要求4所述的合同条款的审查方法，其特征在于，所述数据模型包括非文本模型，所述调用与所述合同类别对应的数据模型，并基于各所述数据模型对各所述分词进行处理，生成与各所述数据模型对应的特征向量的步骤包括：

6.如权利要求5所述的合同条款的审查方法，其特征在于，所述对各所述特征向量进行整合，生成所述目标条款的条款特征向量的步骤包括：

7.如权利要求1-6任一项所述的合同条款的审查方法，其特征在于，所述根据所述条款特征向量，审查所述目标条款的风险性的步骤包括：

8.一种合同条款的审查装置，其特征在于，所述合同条款的审查装置包括：

9.一种合同条款的审查设备，其特征在于，所述合同条款的审查设备包括：存储器、处理器、通信总线以及存储在所述存储器上的合同条款的审查程序；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行所述合同条款的审查程序，以实现如权利要求1-7中任一项所述的合同条款的审查方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有合同条款的审查程序，所述合同条款的审查程序被处理器执行时实现如权利要求1-7中任一项所述的合同条款的审查方法的步骤。