CN114330247A

CN114330247A - 一种基于图像识别的自动化保险条款解析方法

Info

Publication number: CN114330247A
Application number: CN202111322617.1A
Authority: CN
Inventors: 李红丽; 田立文; 刘宇; 张大栋
Original assignee: Century Baozhong Beijing Network Technology Co ltd
Current assignee: Century Baozhong Beijing Network Technology Co ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-04-12

Abstract

本发明提供了一种基于图像识别的自动化保险条款解析方法，包括：第一步骤：将PDF保险条款文本逐页拆分并转化成图片格式；第二步骤：利用DB文本检测算法进行文本检测，并得到相应的文本框坐标；第三步骤：针对得到的文本框坐标，利用文本方向分类器进行检测框矫正，基于测试文本数据优化检测框框选的准确度；第四步骤：利用文本框之间的间距，将无用数据进行删除，以得到可用文本框；第五步骤：将所需的可用文本框识别成可读的文本数据；第六步骤：利用文本框的坐标对可读的文本数据进行匹配，得到结构化数据。

Description

一种基于图像识别的自动化保险条款解析方法

技术领域

本发明涉及保险领域，具体涉及一种基于图像识别的自动化保险条款解析方法。

背景技术

保险产品的条款包含的信息量大，内容比较专业、繁杂，大部分人理解起来费时费力，并且容易忽视条款中包含的重点信息，如免责条款、保障责任等。基于此，可利用图像识别技术拟对市面上搜集到的保险条款进行自动化解析，形成清晰、已读的结构化数据。

以文本识别模型CRNN为例，该模型的网络结构包括三个部分，分别称作卷积层、循环层以及转录层。

(1)卷积层：从输入图像中提取出特征序列。CRNN对输入图像先做了缩放处理，把所有输入图像缩放到相同高度；由标准的CNN模型中的卷积层和最大池化层组成，结构类似于VGG；提取的特征序列中的向量是在特征图上从左到右按照顺序生成的，用于作为循环层的输入，每个特征向量表示了图像上一定宽度上的特征，由于CRNN已将输入图像缩放到同样高度了，因此只需按照一定的宽度提取特征即可。

(2)循环层：预测从卷积层获取的特征序列的标签分布。循环层由一个双向LSTM循环神经网络构成，预测特征序列中的每一个特征向量的标签分布。由于LSTM需要有个时间维度，在本模型中把序列的width当作LSTM的时间time steps。其中，“Map-to-Sequence”自定义网络层主要是做循环层误差反馈，与特征序列的转换，作为卷积层和循环层之间连接的桥梁，从而将误差从循环层反馈到卷积层。

(3)转录层：把从循环层获取的标签分布通过去重、整合等操作转换成最终的识别结果。在CRNN模型中双向LSTM网络层的最后连接上一个CTC模型，从而做到了端对端的识别。所谓CTC模型(Connectionist Temporal Classification，联接时间分类)，主要用于解决输入数据与给定标签的对齐问题，可用于执行端到端的训练，输出不定长的序列结果。

而数据结构化基于文本框的四角坐标数据进行横向匹配。

但是，现有的图像识别、语义解析技术，没有应用到保险条款解析领域中，不能解决保险条款结构化等问题。

发明内容

本发明所要解决的技术问题是针对现有技术中存在上述缺陷，提供一种基于图像识别的自动化保险条款解析方法。

根据本发明，提供了一种基于图像识别的自动化保险条款解析方法，包括：

第一步骤：将PDF保险条款文本逐页拆分并转化成图片格式；

第二步骤：利用DB文本检测算法进行文本检测，并得到相应的文本框坐标；

第三步骤：针对得到的文本框坐标，利用文本方向分类器进行检测框矫正，基于测试文本数据优化检测框框选的准确度；

第四步骤：利用文本框之间的间距，将无用数据进行删除，以得到可用文本框；

第五步骤：将所需的可用文本框识别成可读的文本数据；

第六步骤：利用文本框的坐标对可读的文本数据进行匹配，得到结构化数据。

优选地，第三步骤包括：

输入待矫正的文本框图片，进行灰度转换；

创建滑动条，进行二值化处理，并找到阈值；

查找最小矩形轮廓，并验证尺寸；

进行仿射变换，修正角度。

优选地，第四步骤包括：

以每张图片识别到第一个文本框的左上角坐标为准，将第一个文本框的左上角坐标设为(a,b)，并且确定待判断的文本框的左上角坐标为(a1,b1)，获取待判断的文本框的长度L，获取图片的横向长度A，将满足以下两个条件的无用文本框内的数据断为无用数据：

L>A/2

a+10<a1。

优选地，第五步骤采用CRNN，并采用余弦学习率和正则化参数进行优化，从而将所需的可用文本框识别成可读的文本数据。

优选地，无用数据包括释义。

优选地，结构化数据包括一级标题、二级标题、详情内容。

优选地，第一步骤利用PyMuPDF将PDF转换成图片格式。

附图说明

结合附图，并通过参考下面的详细描述，将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征，其中：

图1示意性地示出了根据本发明优选实施例的基于图像识别的自动化保险条款解析方法的流程图。

图2以百年人寿某医疗险条款为例示意性地示出了检测后效果图的示例。

图3示意性地示出了文本框矫正的示例。

图4示意性地示出了文本框矫正定义方框区域的无用数据的示例。

图5示意性地示出了余弦学习率的示例。

图6示意性地示出了结构化数据的示例。

需要说明的是，附图用于说明本发明，而非限制本发明。注意，表示结构的附图可能并非按比例绘制。并且，附图中，相同或者类似的元件标有相同或者类似的标号。

具体实施方式

为了使本发明的内容更加清楚和易懂，下面结合具体实施例和附图对本发明的内容进行详细描述。

本发明从文本检测、检测框矫正、文本识别、语义解析等四个方面协同解决现有技术中存在的问题。

具体地，图1示意性地示出了根据本发明优选实施例的基于图像识别的自动化保险条款解析方法的流程图。

如图1所示，根据本发明优选实施例的基于图像识别的自动化保险条款解析方法包括：

第一步骤：将PDF保险条款文本逐页拆分并转化成图片格式；

第四步骤：利用文本框之间的间距，将无用数据进行删除，以得到可用文本框；例如，无用数据包括释义等内容。

第五步骤：将所需的可用文本框识别成可读的文本数据(即，可用文本)；

例如，结构化数据包括一级标题、二级标题、详情内容等内容。

<具体示例>

1、PDF转图片

将PDF条款逐页进行拆分，利用PyMuPDF将PDF转换成图片格式。

2、文本检测

文本检测的目标是定位出图像中的文字区域，这里采用DB文本检测算法，并得到相应的文本框坐标，因为DB算法的后处理比较简单，方便实际应用。

检测后效果图如图2所示(以百年人寿某医疗险条款为例)。

3、文本框矫正

为了提升检测框中的文字识别效果，保持文字的一致性，本发明希望待识别的文本框尽量是水平方向的，由DB文本检测算法得到的结果是比较容易经过仿射变换使其变成水平方向，但是会存在文本方向颠倒、倾斜的情况，这时候就需要文本方向分类器进行检测框矫正，之后，本发明基于测试文本数据来验证文本框矫正的效果。

详细步骤如下(如图3所示)：

(1)、输入待矫正的文本框图片，进行灰度转换；

(2)、创建滑动条，进行二值化处理，并找到阈值；

(3)、查找最小矩形轮廓，并验证尺寸；

(4)、进行仿射变换，修正角度。

4、删除无用数据

如图4所示，本发明定义方框区域(释义内容等)为无用数据。

例如，本发明可根据文本框的四角坐标进行判别，设定规则为：本发明以每张图片识别到第一个文本框的左上角坐标为准，将第一个文本框的左上角坐标设为(a,b)，并且确定待判断的文本框的左上角坐标为(a1,b1)，获取待判断的文本框的长度L，获取图片的横向长度A，将满足以下两个条件的无用文本框内的数据断为无用数据：

L>A/2

a+10<a1。

这样就可以找到该图片中的第一个无用文本框，之后删除该文本框往后的所有文本框即可。

5、文本识别

由上一步删除无用数据后，本发明接下来将所需的文本框识别成可读的文本数据，采用的方法是CRNN，为了增强文本识别的效果和效率，本发明采用余弦学习率、正则化参数等方法进行优化。

余弦学习率：

在训练初期，参数权重都是随机初始化的，可以使用比较大的学习率来加速收敛，之后，可以选取相对较小的学习率来使参数权重靠近局部最优解，如图5所示。

正则化参数：

本发明具体实施例中采用的是L2正则化，可以使整个网络权重值倾向变小，从而提升模型的泛化能力。

6、结构化数据

将文本识别后的文本数据进行分类，分为下图中的三类，分别为序号、标题、详情，然后本发明利用文本框的四角坐标数据进行横向匹配，即为序号—标题—详情这种结构的结构化数据。

需要说明的是，除非特别指出，否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等，而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。

可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于图像识别的自动化保险条款解析方法，其特征在于包括：

第一步骤：将PDF保险条款文本逐页拆分并转化成图片格式；

第五步骤：将所需的可用文本框识别成可读的文本数据；

2.根据权利要求1所述的基于图像识别的自动化保险条款解析方法，其特征在于，第三步骤包括：

输入待矫正的文本框图片，进行灰度转换；

创建滑动条，进行二值化处理，并找到阈值；

查找最小矩形轮廓，并验证尺寸；

进行仿射变换，修正角度。

3.根据权利要求1或2所述的基于图像识别的自动化保险条款解析方法，其特征在于，第四步骤包括：

L>A/2

a+10<a1。

4.根据权利要求1或2所述的基于图像识别的自动化保险条款解析方法，其特征在于，第五步骤采用CRNN，并采用余弦学习率和正则化参数进行优化，从而将所需的可用文本框识别成可读的文本数据。

5.根据权利要求1或2所述的基于图像识别的自动化保险条款解析方法，其特征在于，无用数据包括释义。

6.根据权利要求1或2所述的基于图像识别的自动化保险条款解析方法，其特征在于，结构化数据包括一级标题、二级标题、详情内容。

7.根据权利要求1或2所述的基于图像识别的自动化保险条款解析方法，其特征在于，第一步骤利用PyMuPDF将PDF转换成图片格式。