CN110008807B

CN110008807B - 一种合同内容识别模型的训练方法、装置及设备

Info

Publication number: CN110008807B
Application number: CN201811567291.7A
Authority: CN
Inventors: 张林江
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2023-08-18
Anticipated expiration: 2038-12-20
Also published as: CN110008807A

Abstract

公开了一种合同内容识别模型的训练方法、装置及设备。本说明书实施例所提供的方案，从合同内容自身中抽取训练特征并训练模型，通过机器学习的方式，生成合同内容识别模型，进而基于该识别模型快速的判断一段文字是否为合同中的文字，并对其进行标签标注，不必人工对合同内容进行标注。

Description

一种合同内容识别模型的训练方法、装置及设备

技术领域

本说明书实施例涉及信息技术领域，尤其涉及一种合同内容识别模型的训练方法、装置及设备。

背景技术

在很多合同中，合同格式混乱，没有层级关系，合同的内容通篇看起来都是正文，没有结构化的数据展示。业务需要对合同进行拆解，将不同等级的标题、合同声明内容以及合同条款识别出来。当前可以通过人工的方式，对每一项进行标注，这种方式效率低，时间长，耗费资源多。

基于此，需要一种合同内容识别模型的训练方案，用来生成模型以自动识别合同内容。

发明内容

针对现有合同内容标注效率太低的问题，为实现更高效的合同内容标注，本说明书实施例一方面提供一种合同内容识别模型的训练方法，具体包括：

获取有关合同内容的已标注样本数据，所述已标注样本数据包括作为正样本的标题、条款内容和合同声明内容，以及，已标注的负样本，其中，所述合同声明内容包括对条款内容的使用声明和对标题的解释声明；

对所述正样本进行分词，根据得到的分词中的信息，确定模型分类特征；

根据所述已标注样本数据和模型分类特征训练生成所述合同内容识别模型。

另一方面，提供一种基于上述合同内容识别模型的合同内容识别方法，包括：

获取合同内容；

根据合同内容中所包含的文本符号，对合同内容进行分段，生成多个合同内容段落，其中，所述文本符号包括文本格式标记或者文本标点；

采用所述合同内容识别模型识别所述多个合同内容段落，确定每个合同内容段落的标签，所述标签包括标题、条款内容或者合同声明内容。

对应的，一方面，本说明书实施例还提供一种合同内容识别模型的训练装置，包括：

获取模块，获取有关合同内容的已标注样本数据，所述已标注样本数据包括作为正样本的标题、条款内容和合同声明内容，以及，已标注的负样本，其中，所述合同声明内容包括对条款内容的使用声明和对标题的解释声明；

特征确定模块，对所述正样本进行分词，根据得到的分词中的信息，确定模型分类特征；

训练模块，根据所述已标注样本数据和模型分类特征训练生成所述合同内容识别模型。

对应的，另一方面，本说明书实施例还提供一种基于上述合同内容识别模型的合同内容识别装置，包括：

获取模块，获取合同内容；

分段模块，根据合同内容中所包含的文本符号，对合同内容进行分段，生成多个合同内容段落，其中，所述文本符号包括文本格式标记或者文本标点；

确定模块，采用所述合同内容识别模型识别所述多个合同内容段落，确定每个合同内容段落的标签，所述标签包括标题、条款内容或者合同声明内容。

本说明书实施例所提供的方案，从合同内容自身中抽取训练特征并训练模型，通过机器学习的方式，生成合同内容识别模型，进而基于该识别模型快速的判断一段文字是否为合同中的文字，并对其进行标签标注，不必人工对合同内容进行标注，且准确率高，提高了对合同内容的标注效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书实施例。

此外，本说明书实施例中的任一实施例并不需要达到上述的全部效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为一种示例性的合同内容的示意图；

图2是本说明书实施例提供的一种合同内容识别模型的训练方法的流程示意图；

图3给为本说明书实施例所提供的从模型训练到内容识别的流程示意图；

图4是本说明书实施例所提供的一种合同内容识别模型的训练装置的结构示意图；

图5示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于保护的范围。

在一份合同中，其内容通常包括标题、合同条款以及一些解释性的声明。如图1所示，图1为一种示例性的合同内容的示意图。其中，标题可以包括多种级别不同的标题，例如一级标题、二级标题等等。而条款内容通常是一些限定条件，例如，“2.1,甲方解除对乙方委托的”，通常，在条款内容之前都会带有数字，用以标识该条款内容的序列，以便日后查询。合同声明内容则主要用于对标题和条款内容的执行条件以及环境，进行具体的解释。例如，在标题“委托权限”下，进行声明“本合同的委托期限自本协议生效之日开始，到以下情形之一发生之日终止”，其中的“以下情形”通常就会包括多个条款内容，用来限定合同终止的条件，以及，还可能包括对于条款内容的进一步阐述性的解释等等。

业务方经常需要对合同进行拆解，以进行逐条分析。在一些不规范的合同中，其格式混乱，没有明显的层级关系，需要通过人工对合同内容逐条进行标注。基于此，本说明书实施例提供一种合同内容识别模型的训练方案，用于训练合同内容识别模型，以提高对合同内容的标注效率。

以下结合附图，详细说明本说明书各实施例提供的技术方案。如图2所示，图2是本说明书实施例提供的一种合同内容识别模型的训练方法的流程示意图，该流程具体包括如下步骤：

S201，获取有关合同内容的已标注样本数据，所述已标注样本数据包括作为正样本的标题、条款内容和合同声明内容，以及，已标注的负样本，其中，所述合同声明内容包括对条款内容的使用声明和对标题的解释声明。

正样本的来源，可以是实际合同进行分解，并提取出其中的标题、条款内容和合同声明内容，标注以后作为正样本。负样本可以是一些与合同内容类似的文档，例如，律师声明文件、法律意见书等等。由于实际应用中，各文件格式不同，以及还有很多合同内容也不够规范，若直接采用原始信息，会为后面的处理带来一定困难，降低所提取的分类特征的质量。因此，在对合同内容进行标注以后，还有必要对上述已标注内容进行进一步地的清洗。

对于已标注内容而言具体的清洗方式可以包括：大小写转换以及全角半角转换等等。此处的清洗目的主要是为了进行文本格式的统一，根据具体应用需求，可以将大写统一转换为小写，也可以将小写统一转换为大写，以及，可以将全角统一转换为半角，或者半角统一转换为全角。

S203，对所述正样本进行分词，根据得到的分词中的信息，确定模型分类特征。

对正样本进行分词以后，将得到大批的待选分词。值得说明的是，在待选分词中包含有大量的停用词。停用词是自然语言处理中无用的词。在中文或者英文中，均有标准的停用词列表。例如，某些使用频率特高的单汉字、语气助词、副词、介词、连接词等，通常停用词本身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”、“但是”等等。因此，还可以对得到的待选分词进行处理，取出待选分词中的无用的停用词。停用词的来源可以是基于常用的停用词库，也可以是基于合同内容领域进行人工分析或者自动化分析所得。

待选分词中的信息可以包括显式信息和隐式信息。显示信息即为可以直观确定容易得到的信息。例如，根据待选分词的出现频次，计算待选分词的权重，若某个待选词汇的权重落入于预设权重区间范围，则将其标注为模型分类特征。例如，计算所有文档中待选分词的逆文档频率F，假设候选词汇A的逆文档频率计算公式为：F(A)＝log(M/(N+1))；其中，M为所有文档的总数，N为出现待选分词A的文档的个数，将逆文档频率F(A)作为分词A的权重，选取权重最高的若干分词作为模型分类特征。

进一步地，对每个分词都可以计算一个权重，通过比较，可以看出某些词的权重很低，说明这些词汇出现的极少，其覆盖的文档内容很少，对于表达合同内容的特征也没有用处；当然，也有一些词汇值异常高，这说明这个词汇可能是错误的，对于合同内容的特征也是没有用处的。基于此，可以预先定义一个权重区间范围，选择权重位于预设权重区间范围内的待选分词作为模型分类特征。

隐式信息即为不容易被直接发现，但是在分词中存在的信息。例如，各分词间的顺序关系、前后连续的若干分词的部分信息的组合等等。例如，在合同标题中，经常按顺序出现分词“权利”和“义务”，因此，“权利”的后续分词是“义务”，可以用作合同标题的一个分类特征。

S205，根据所述已标注样本数据和模型分类特征训练生成所述合同内容识别模型。

在确定了分类特征之后，即可基于已标注样本数据和模型分类特征进行有监督学习训练。例如，采用机器学习算法Fasttext，对训练语料进行模型训练，通过迭代调参，优化模型，直至模型收敛，并且对预测数据进行预测，直至准确率达到一定程度为止，具体的模型训练算法此处不做限定。

在训练得到合同内容识别模型之后，即可以根据该模型对一般的合同内容进行识别并标注了，具体的方式可以如下：

获取合同内容；根据合同内容中所包含的文本符号，对合同内容进行分段，生成多个合同内容段落，其中，所述文本符号包括文本格式标记或者文本标点，此处的文本格式标记可以包括空格标记、段落标记、换页符等等，所述文本标点可以包括句号、分耗、双引号、冒号等等；采用所述合同内容识别模型识别所述多个合同内容段落，确定每个合同内容段落的标签，所述标签包括标题、条款内容或者合同声明内容。

通过上述方案，从合同内容自身中抽取训练特征并训练模型，通过机器学习的方式，生成合同内容识别模型，进而基于该识别模型快速的判断一段文字是否为合同中的文字，并对其进行标签标注，不必人工对合同内容进行标注，且准确率高，提高了对合同内容的标注效率。如图3所示，图3给为本说明书实施例所提供的从模型训练到内容识别的流程示意图。

在一种实施方式中，对于步骤S203中，对所述正样本进行分词，根据得到的分词中的信息，确定模型分类特征，可以是如下方式：对标题进行分词，得到连续的词汇序列；从所述词汇序列中相邻的两个词汇中，各自选出部分信息，生成特征信息；将生成的特征信息作为模型分类特征。

进一步的，此处的部分信息可以是，前面一个词的最后一个字或者字符，以及，后面词汇的最先一个字或者字符。例如，对标题进行分词得到的连续的词汇为“保密”和“条款”，因此，在上述方式的组合下，即可以得到特征信息为组合词汇“密条”，并将其作为模型分类特征。其原因在于，上述两个词实际上在合同声明内容中其实也会经常单独出现，但是并不会频繁的以前后组合的形式出现。如果仅仅将各单独的分词作为分类特征，则分类效果不太好，这并非模型训练中所期望的。而如果在分类特征中引入“密条”，则可以对标题得到较好的分类效果。

在一种实施方式中，对于标题的分词而言，还可以从相邻的两个词汇中的部分信息形成特征信息的方式，例如，还可以是前后两个词各自的长度，或者，前后两个词各自的拼音进行组合，生成特征信息。例如，可以用数组用来记录系会序列中相邻词组的长度，并作为分类特征。若前边一个词的长度为5，后边一个词的长度为4，则其特征描述为(5，4)，反之则为(4，5)。以及，则还可提取各词的拼音的若干首字母，组合得到特征信息。例如，若前一个词汇为“委托”，拼音”weituo”，后一词汇为“期限”，拼音“qixian”，则可还以取其各自的平阴首字母，组合得到特征信息“wtqx”，并作为模型分类特征。

在一种实施方式中，对于合同声明内容而言，一段合同声明内容通常会比较长，而其通常在开头或者结束部分会带有明显的解释性的词汇特征。例如，对于条款的使用声明中通常如下“以上情形发生时，如有xx等相关事宜未完成的，则终止时间自动顺延至前述事宜解决完毕时”。又例如，在对于大标题“xxxxx协议”的具体解释性声明中，开头部分如下“甲乙双方经友好协商，根据《xxxx法》等规定”。上述的“以上情形发生时”和“甲乙方式经友好协商”，可能会经常性出现在合同声明内容中的最前部分。基于此，可以提取合同声明内容中的最前的若干个字符进行特征提取，具体的方式可以对最前的若干个字符进行分词并聚类，从而将将得到的类所对应的合同声明内容分词确定为模型分类特征。

在一种实施方式中，由于条款内容的最前方一般都带有数字，例如，条款内容的形式为“1.2甲方委托乙方持有甲方在公司中的全部股权份额。以乙方名义签署公司章程、股东协议”，因此，可以将一个段落中最前方有数字也作为一种模型分类特征。

在一种具体的实施方式下，由于在合同内容的文本中，包含数字的以标准样本通常要么是条款内容，要么是带有比较明显的合同特征的相关内容，基于此，还可以采用如下方式来进行模型训练，确定已标注样本数据中包含数字的已标注样本；提高所述包含数字的已标注样本的权重；根据所已被提高权重的已标注样本和模型分类特征训练生成所述合同内容识别模型。进一步地，还可以提高在开头的几个字符就带有数字的已标注样本的权重，通过上述方式，更有利于进一步的分类。

对应的，本说明书实施例还提供一种合同内容识别模型的训练装置，如图4所示，图4是本说明书实施例所提供的一种合同内容识别模型的训练装置的结构示意图，包括：

获取模块401，获取有关合同内容的已标注样本数据，所述已标注样本数据包括作为正样本的标题、条款内容和合同声明内容，以及，已标注的负样本，其中，所述合同声明内容包括对条款内容的使用声明和对标题的解释声明；

特征确定模块403，对所述正样本进行分词，根据得到的分词中的信息，确定模型分类特征；

训练模块405，根据所述已标注样本数据和模型分类特征训练生成所述合同内容识别模型。

进一步地，所述特征确定模块403，对标题进行分词，得到连续的词汇序列；从所述词汇序列中相邻的两个词汇中，各自选出部分信息，生成特征信息；将生成的特征信息作为模型分类特征。

更进一步地，所述特征确定模块403，选取前面一个词的最后一个字或者字符，以及，后面词汇的最先一个字或者字符，生成特征词汇；或者，确定两个词汇的各自长度，生成特征信息。

进一步地，所述特征确定模块403，提取合同声明内容中最前的指定数量的字符；分词所述最前的指定数量的字符，得到多个合同声明内容分词；聚类多个合同声明内容分词，将得到的类所对应的合同声明内容分词确定为模型分类特征。

进一步地，所述训练模块405，确定已标注样本数据中包含数字的已标注样本；提高所述包含数字的已标注样本的权重；根据所已被提高权重的已标注样本和模型分类特征训练生成所述合同内容识别模型。

另一方面，本说明书实施例还提供基于上述合同内容识别模型的合同内容识别装置，包括：

获取模块，获取合同内容；

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现图2所示的合同内容识别模型的训练方法。

图5示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现图2所示的合同内容识别模型的训练方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、方法、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的方法实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种合同内容识别模型的训练方法，包括：

根据所述已标注样本数据和模型分类特征训练生成所述合同内容识别模型；所述合同内容识别模型用于确定每个合同内容段落的标签，所述标签包括标题、条款内容或者合同声明内容；

对所述正样本进行分词，根据得到的分词中的信息，确定模型分类特征，包括：

提取合同声明内容中最前的指定数量的字符；分词所述最前的指定数量的字符，得到多个合同声明内容分词；聚类多个合同声明内容分词，将得到的类所对应的合同声明内容分词确定为模型分类特征；

根据所述已标注样本数据和模型分类特征训练生成所述合同内容识别模型，包括：

确定已标注样本数据中包含数字的已标注样本；提高所述包含数字的已标注样本的权重；根据所已被提高权重的已标注样本和模型分类特征训练生成所述合同内容识别模型。

2.如权利要求1所述的方法，对所述正样本进行分词，根据得到的分词中的信息，确定模型分类特征，包括：

对标题进行分词，得到连续的词汇序列；

从所述词汇序列中相邻的两个词汇中，各自选出部分信息，生成特征信息；

将生成的特征信息作为模型分类特征。

3.如权利要求2所述的方法，从所述词汇序列中相邻的两个词汇中，各自选出部分信息，生成特征信息，包括：

选取前面一个词的最后一个字或者字符，以及，后面词汇的最先一个字或者字符，生成特征词汇；或者，

确定两个词汇的各自长度，生成特征信息。

4.一种基于权利要求1至3任一项的合同内容识别模型的合同内容识别方法，包括：

获取合同内容；

5.一种合同内容识别模型的训练装置，包括：

获取模块，获取有关合同内容的已标注样本数据，所述已标注样本数据包括作为正样本的标题、条款内容和合同声明内容，以及，已标注的负样本，其中，所述合同声明内容包括对条款内容的使用声明和对标题的解释声明；所述合同内容识别模型用于确定每个合同内容段落的标签，所述标签包括标题、条款内容或者合同声明内容；

训练模块，根据所述已标注样本数据和模型分类特征训练生成所述合同内容识别模型；

所述特征确定模块，提取合同声明内容中最前的指定数量的字符；分词所述最前的指定数量的字符，得到多个合同声明内容分词；聚类多个合同声明内容分词，将得到的类所对应的合同声明内容分词确定为模型分类特征；

所述训练模块，确定已标注样本数据中包含数字的已标注样本；提高所述包含数字的已标注样本的权重；根据所已被提高权重的已标注样本和模型分类特征训练生成所述合同内容识别模型。

6.如权利要求5所述的装置，所述特征确定模块，对标题进行分词，得到连续的词汇序列；从所述词汇序列中相邻的两个词汇中，各自选出部分信息，生成特征信息；将生成的特征信息作为模型分类特征。

7.如权利要求6所述的装置，所述特征确定模块，选取前面一个词的最后一个字或者字符，以及，后面词汇的最先一个字或者字符，生成特征词汇；或者，确定两个词汇的各自长度，生成特征信息。

8.一种基于权利要求5至7任一项的合同内容识别模型的合同内容识别装置，包括：

获取模块，获取合同内容；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。