CN109492230B

CN109492230B - 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法

Info

Publication number: CN109492230B
Application number: CN201910025071.XA
Authority: CN
Inventors: 孙霖; 王驰; 张凯; 季福乐; 郑增威
Original assignee: Zhejiang University City College ZUCC
Current assignee: Zhejiang University City College ZUCC
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2022-12-20
Anticipated expiration: 2039-01-11
Also published as: CN109492230A

Abstract

本发明涉及一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法，包括步骤：1)标注保险合同中的关键信息生成保险合同知识库；2)设计感兴趣文本域的卷积神经网络，包括卷积层、感兴趣文本域(TOI)池化层、全连接层与最终输出层；3)网络的训练需要两类样本；4)训练好的感兴趣文本域卷积神经网络在使用时还需要非极大值抑制算法(NMS)。本发明的有益效果是：本发明提出的感兴趣文本域卷积神经网络可以有效的解决保险合同标记中的元素重叠问题，显著优于基于概率图模型的现有方法，同时表明了本发明所提出的保险合同标注方法的优越性。

Description

一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法

技术领域

本发明涉及一种提取保险合同关键信息的方法，具体涉及一种利用感兴趣文本域卷积神经网络对保险合同文本中不同保险条款的关键信息进行提取的方法。

背景技术

自动文本分析在法律和金融等有大量合同文本的领域有很好的发展前景。传统的合同文本分析方法在人工阅读的基础上，通过对文本内容的分析判断合同文本中的不同元素，比如保险合同中的“保险金额”、“给付条件”等内容，这种方法效率低、耗时长，并且需要大量具有相关知识的工作人员。除了传统方法以外，基于机器学习的命名实体识别方法在相关问题上也有应用。基于超图的非连续法律实体识别，徐建忠等，信息技术与信息化，2017年6月公布了一种将超图模型应用于法律实体自动识别的方法。基于主题标签和CRF的中文微博命名实体识别，朱颢东等，华中师范大学学报(自然科学版)，2018年7月公布了一种规则与统计相结合的基于条件随机场模型进行中文微博命名实体识别的方法。基于GRU的命名实体识别方法，王洁等，计算机系统应用，2018年9月公布了一种基于GRU(GatedRecurrent Unit)的命名实体识别方法，为了解决传统实体识别的人力成本和时间成本。综上所述，大部分的研究工作使用不同的方法解决不同场景下具体的问题。然而在保险合同中存在对于保险责任范围同一实体的不同表述，且存在大量实体之间的嵌套。因此建立一个能够识别保险合同中同一实体的不同表述，并且能够准确识别嵌套实体的模型仍是研究的难点。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法，将大量保险合同自动转化为格式化结构并对保险合同中不同元素进行标记，在效率方面显著优于现有方法，同时能够有效地加速并帮助保险行业相关工作人员处理保险合同。

这种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法，包括以下步骤：

1)标注保险合同中的关键信息生成保险合同知识库：使用中文分词系统对中文保险合同文本进行分词；同时对不同保险条款中的关键信息进行标注，并将其存储为保险合同知识库用来训练感兴趣文本域卷积神经网络；其中关键信息包括投保范围和保险金额；其次使用分词后的保险合同文本训练词向量，将词向量结果存储为词向量嵌入模型；

2)设计感兴趣文本域的卷积神经网络：网络首先对输入做卷积，之后感兴趣文本域池化层从特征图中抽取固定长度的特征向量进行操作并组合，组合的结果会通过全连接层输入Softmax分类器，分类器输出对该感兴趣文本域分类的结果；整个网络包括四层：卷积层、感兴趣文本域(Text of interest，TOI)池化层、全连接层与最终输出层；

3)网络的训练需要两类样本：文本合同中完整的句子和这些句子当中的训练样本，训练样本包括标注好的元素类别和负样本；负样本定义为与该句话中所有真实样本的IoU指数都小于某个限度的一个滑动窗口，其中

a，b为两段需要进行计算的文本；使用这两类样本对网络进行训练，每一个训练数据都使用one-hot对类别进行编码；损失函数为

其中

是网络中Softmax分类器的输出；

4)训练好的感兴趣文本域卷积神经网络在使用时还需要非极大值抑制算法(NMS)；首先，NMS根据分数(分类概率)对所有感兴趣文本域进行排序，把分数最大的窗口放到队列中；其次，计算其余窗口与队列中第一个感兴趣文本域的IoU，去除IoU大于设定的阈值的其余窗口；然后重复上面的过程，直至候选窗口队列为空。

作为优选：所述步骤2)中，感兴趣文本域的卷积神经网络的具体结构如下：

2.1)第一层是卷积层；首先从词向量嵌入模型中找到输入文本中每个词所对应的词向量，再将其按顺序拼接，其中每个单词的词向量为k维；卷积层的输入大小为n×k，n为不同文本中最长句子的长度，对长度不足的句子进行补0处理；卷积层中有一组卷积核，每个卷积核的大小为h×k，h为卷积核的长度；卷积层的输出为p个经过Relu激活函数的特征图，每个特征图的大小为(n-h+1)×1；

2.2)感兴趣文本域(Text of interest，TOI)池化层使用最大池化将特征图中的某一部分转化为固定长度L的向量，这些向量连接起来就是TOI池化层的输出；感兴趣文本域窗口就是特征图中需要进行池化操作的部分，感兴趣文本域窗口的长度用rl表示，训练过程中选择各种不同长度的rl；TOI池化层会独立的在每个特征图上最大池化操作，其中输出的每个单元所对应在特征图上的长度为

最大池化的起始位置相同；最后将所有的结果按顺序合并到一起作为TOI池化层的输出；

2.3)全连接层的输入大小为72×1的向量，输出大小为36×1的向量作为最后输出层的输入；输出层使用Softmax分类器，输出类别总数为K+1，其中K代表保险合同中元素的类别总数。

作为优选：所述步骤3)中，使用反向传播算法对网络进行训练时，网络中参数偏导数的计算方法为:

其中x_i表示网络池化层输入特征图中的某个元素，y_s，j表示池化层与x_i对应的输出，s代表一个句子对应的第s个训练样本，j代表此样本对应的第j个子窗口。

本发明的有益效果是：本发明提出的感兴趣文本域卷积神经网络可以有效的解决保险合同标记中的元素重叠问题，显著优于基于概率图模型的现有方法，同时表明了本发明所提出的保险合同标注方法的优越性。

附图说明

图1是本方法的流程图；

图2是本方法中感兴趣文本域的卷积神经网络结构图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

在保险合同信息标注中，一个主要的困难就是标签的重叠，这与自然语言处理中的命名实体识别不同，不同标签之间会出现覆盖现象，因此本发明使用感兴趣文本域的卷积神经网络解决保险合同文本标注的问题。

所述的基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法，包括以下步骤：

1、标注保险合同中的关键信息生成保险合同知识库

标注保险合同中的关键信息生成保险合同知识库：使用中文分词系统对中文保险合同文本进行分词；同时对不同保险条款中的关键信息进行标注，并将其存储为保险合同知识库用来训练感兴趣文本域卷积神经网络。具体来说本发明定义了如下七类保险条款关键信息：投保范围(C)，保险期间(PC)，给付条件(CP)，保险金额(IA)，等待期(WP)，保险责任的终止(T)，保险责任的免除(E)。示例在图1的输出中展示。其次使用分词后的保险合同文本训练词向量，将词向量结果存储为词向量嵌入模型。在文本输入时，用词向量嵌入模型对文本进行处理，将单词转化为多维向量作为感兴趣文本域卷积神经网络的输入。

2、感兴趣文本域卷积神经网络的设计

在上述定义的基础上，本发明改进了普通的卷积神经网络：感兴趣文本域的卷积神经网络(TOI—CNN)。TOI-CNN首先对整个句子做卷积，之后感兴趣文本域池化层从特征图中抽取固定长度的特征向量进行操作并组合，组合的结果会通过全连接层输入Softmax分类器，分类器输出对该段文本分类的结果。网络的输入为保险合同中的一句话，输出为这句话在不同感兴趣文本域下的类别分数(即属于某类别的概率)。如图2所示，整个网络包括四层：卷积层、TOI(感兴趣文本域)池化层、全连接层与最终输出层。网络结构如下：

2.1、卷积层

普通的卷积神经网络与经过预训练的词向量组成第一层卷积层。卷积层以文本的词向量作为输入，其中每个单词的词向量为k维，w_i表示第i个单词。卷积层输入的大小为n×k，n为不同文本中最长句子的长度，对长度不足的句子进行补0。卷积神经网络使用Relu函数作为激活函数。卷积层中有一组卷积核，每个卷积核的大小为h×k，h是卷积核的长度，一般设置为5。卷积层的输出为p个经过Relu激活函数的特征图，每个特征图的大小为(n-h+1)×1。

2.2、感兴趣文本域(Text of interest，TOI)池化层

TOI池化层使用最大池化的方法，将特征图中与感兴趣文本域长度对应的一块区域(黑框表示)转化成固定长度L的向量，在图2中L＝2，同时用黑色曲线与方框解释了TOI池化层中感兴趣文本域区域与卷积层输出的特征图区域的对应关系：特征图中黑色方框代表此时的感兴趣文本域对应的区域，感兴趣文本域的长度用rl表示，rl长度为6。对每一个特征图独立进行POI池化计算，计算后的结果拼接在一起作为此层的输出。感兴趣文本域窗口就是特征图中需要进行池化操作的部分，输出结果中每一个元素所对应的感兴趣文本域中用来进行最大池化操作的区域长度为为

在图2中为6/2＝3，对特征图中对应位置长度为3的区域进行最大池化就可以得到感兴趣文本域窗口中的1个元素。对不同特征图进行POI池化计算时，最大池化区域起始位置相同。

2.3、全连接层与输出层

最大池化层输出的结果通过一个全连接层从大小为72×1减少到36×1，最后再经过Softmax分类器输出某一个类别最大的概率。分类器的分类结果中有类别总数K+1种分类结果，多的1种类别在训练过程中代表负样本，在模型使用过称中代表保险合同文本信息标注中不需要处理的部分。

3、感兴趣文本域的卷积神经网络训练

网络训练需要两类样本：文本合同中完整的句子和这些句子当中选取好的训练样本，训练样本包括标注好的元素类别和负样本。负样本定义为该句话中的窗口，该窗口与该句话中所有真实样本的IoU(intersection-over-union)都小于某个阈值。

a，b为两段需要进行计算的文本。使用这两类样本对网络进行训练，每一个训练数据都使用one-hot对类别进行编码。类别为j的训练数据编码为p＝(0，...，p_j＝1，...，0)。损失函数为：

其中

是网络中Softmax分类器的输出。用x_i表示网络池化层输入特征图中的某个元素，y_s，j表示池化层与x_i对应的输出并且x_i与输出相等，s代表与该句子对应的第s个训练样本，j代表此样本对应的第j个子窗口。那么网络在池化层的偏导数为：

4、使用感兴趣文本域的卷积神经网络标注保险合同

模型训练好之后无法直接使用，将保险合同中的一句话输入进网络时，有多个感兴趣文本域窗口长度并且这些窗口对应特征图中的不同起始点会产生不同的结果，为了准确的判断保险合同文本中不同元素的类别，需要使用非极大值抑制方法(NMS)对不同的感兴趣文本域窗口进行处理。首先，NMS根据分数(分类概率)对所有感兴趣文本域进行排序，把分数最大的窗口放到队列中其次，计算其余窗口与队列中第一个感兴趣文本域的IoU，去除IoU大于设定的阈值的其余窗口。然后重复上面的过程，直至候选窗口队列为空。需要注意的是：NMS一次处理一个类别，如果有N个类别，最大值抑制算法就需要执行N次。

实验及结果：

为了验证该方法的效果，评估我们提出方法的性能，保险合同文本标注试验使用了自己收集的500个真实的保险合同文本，其中包括寿险、健康险、财产险、住房保险以及汽车险。该实验使用其中的350个合同训练词向量，而其余150个合同进行手工标注用来测试保险合同信息标注的效果。

表1展示了本方法进行标注实验的结果，包括准确率(P)，召回率(R)与F1分数以及它们的均值。文本标注的类别有投保范围(C)，保险期间(PC)，给付条件(CP)，保险金额(IA)，等待期(WP)，保险责任的终止(T)，保险责任的免除(E)。实验分别对比了两种常用的中文分词器：结巴中文分词(Jieba)与中科院汉语分词系统(NLPIR)。从实验结果中可以看出感兴趣文本域卷积神经网络(TOI-CNN)在每个类别的保险合同实体识别上都有杰出的表现。

表1通过本方法进行保险合同文本类别标注实验的结果

实验结论：

本专利提出了一种新的保险合同文本标注方法，在自己收集的一个中文保险合同数据集进行了试验，定义并标注了保险合同中的7种关键信息元素。该数据集现已公开。实验结果表明：本专利提出的感兴趣文本域卷积神经网络可以有效的解决保险合同标记中的元素重叠问题，显著优于基于概率图模型的现有方法，同时表明了本专利所提出保险合同标注方法的优越性。

Claims

1.一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法，其特征在于，包括以下步骤：

2)设计感兴趣文本域的卷积神经网络：网络首先对输入做卷积，之后感兴趣文本域池化层从特征图中抽取固定长度的特征向量进行操作并组合，组合的结果会通过全连接层输入Softmax分类器，分类器输出对该感兴趣文本域分类的结果；整个网络包括四层：卷积层、感兴趣文本域TOI池化层、全连接层与最终输出层；

其中

是网络中Softmax分类器的输出；

4)训练好的感兴趣文本域卷积神经网络在使用时还需要非极大值抑制算法NMS；首先，NMS根据分数即分类概率对所有感兴趣文本域进行排序，把分数最大的窗口放到队列中；其次，计算其余窗口与队列中第一个感兴趣文本域的IoU，去除IoU大于设定的阈值的其余窗口；然后重复上面的过程，直至候选窗口队列为空。

2.根据权利要求1所述的基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法，其特征在于，所述步骤2)中，感兴趣文本域的卷积神经网络的具体结构如下：

2.2)感兴趣文本域TOI池化层使用最大池化将特征图中的某一部分转化为固定长度L的向量，这些向量连接起来就是TOI池化层的输出；感兴趣文本域窗口就是特征图中需要进行池化操作的部分，感兴趣文本域窗口的长度用rl表示，训练过程中选择各种不同长度的rl；TOI池化层独立的在每个特征图上最大池化操作，其中输出的每个单元所对应在特征图上的长度为

3.根据权利要求1所述的基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法，其特征在于，所述步骤3)中，使用反向传播算法对网络进行训练时，网络中参数偏导数的计算方法为: