CN109918679B

CN109918679B - 一种解析纸质保单数据的方法

Info

Publication number: CN109918679B
Application number: CN201910222271.4A
Authority: CN
Inventors: 王健荣; 曹光旺; 金鑫; 李小川
Original assignee: Chengdu Shengkun Technology Co ltd
Current assignee: Chengdu Sure Technology Co ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2023-04-11
Anticipated expiration: 2039-03-22
Also published as: CN109918679A

Abstract

本发明公开了一种解析纸质保单数据的方法，识别数据并匹配到解析模板，将数据按行规整并排序，通过“最优坐标系”算法，计算得出倾斜度坐标系公式，利用坐标系公式，使用“点到线距离”算法，计算出字段到标准线距离d，通过距离d差进行排序，使用“右最短，左排除”算法，计算出最优值，并规整为同一行，再将同行数据分解并分类，使用“字符拆分”算法，把“粘”在一起的字段进行分组剥离，使用“字符串相似度”算法，匹配到相似度最高的字段，使用“四相匹配”算法，得出最优的匹配结果，对匹配结果进行分类组装，并“数据格式化”。可对OCR数据按行排序；利用专业的词汇对识别错误的字段进行智能纠错；对保单特定的数据格式进行合理格式化。

Description

一种解析纸质保单数据的方法

技术领域

本发明涉及数据解析领域，具体涉及一种解析纸质保单数据的方法。

背景技术

OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。虽然现有OCR技术已经很成熟，但并未出现对纸质保单格式的数据进行精准的识别。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种解析纸质保单数据的方法，对纸质保单数据规整并分类，生成可读，可操作和分析的数据，并对识别错误的文字针对专业性进行智能纠错。

根据本申请实施例提供的技术方案，一种解析纸质保单数据的方法，包括以下步骤，S101、接入OCR识别数据，S102、识别所述数据并匹配到解析模板，S103、将所述数据按行规整并排序，S104、通过“最优坐标系”算法，计算得出倾斜度坐标系公式，S105、利用所述坐标系公式，使用“点到线距离”算法，计算出字段到标准线距离d，S106、通过所述距离d差进行排序，使用“右最短，左排除”算法，计算出最优值，并规整为同一行，S107、再将同行数据分解并分类，S108、使用“字符拆分”算法，把“粘”在一起的字段进行分组剥离，S109、使用“字符串相似度”算法，匹配到相似度最高的字段，S110、使用“四相匹配”算法，得出最优的匹配结果，S111、对所述匹配结果进行分类组装，并“数据格式化”，最后得到规整并分类好的保单数据。

本申请中，所述“最优坐标系”算法的实现方法为，计算每个字段倾斜的角度；去掉最大和最小值；计算出角度的平均值；循环匹配到最接近于平均值的字段；使用匹配到最优的字段的坐标建立所述“最优坐标系”，所述“最优坐标系”算法为y＝kx+b。

本申请中，所述“点到线距离”算法为，直线Ax+By+C＝0，坐标Xo，Yo，那么这点到这直线的距离就为

本申请中，所述“右最短，左排除”算法的实现步骤为，对OCR接入的所述数据通过坐标点做字段最左排序；循环并指定tag字段对其他元素进行匹配；过滤掉该tag字段左侧或重叠的字段；该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)＝minB，最优字段为minF；对该minF字段进行左排除，若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB，则证明左侧有最优的值，该minF字段并非和该tag字段同行；否则该minF字段和该tag字段同行，并移除该minF字段进行下一轮循环匹配。

本申请中，所述“字符拆分”算法的实现步骤为，计算tag字段的自然宽度W＝rightX–leftX；计算平均字段的宽度charW＝W/charNum；计算每个字符之前的距离charD＝charLeftX–charRightX；若charW>k*chard，所述k可针对是数字还是汉字来具体设定，证明该tag字段是多个字段的组合；对该tag字段拆分成多个字段的数组tags[]。

本申请中，所述“字符串相似度”算法为，通过字形，和距离得出百分比，使用百分比基数淘汰不匹配数据，得出最优数据。

本申请中，所述“四相匹配”算法包括4个维度的匹配，分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配。

本申请中，所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化。

综上所述，本申请的有益效果：

1.可对OCR数据按行排序，把数据关联起来；

2.利用专业的词汇对识别错误的字段进行智能纠错；

3.对保单特定的数据格式进行合理格式化。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请的流程示意图；

图2为打码保单示例图；

图3为普通解析打码保单结果图；

图4为保单数据排行示例图；

图5为普通解析保单数据排行结果图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，一种解析纸质保单数据的方法，一种解析纸质保单数据的方法，包括以下步骤，S101、接入OCR识别数据，S102、识别所述数据并匹配到解析模板，S103、将所述数据按行规整并排序，S104、通过“最优坐标系”算法，计算得出倾斜度坐标系公式，S105、利用所述坐标系公式，使用“点到线距离”算法，计算出字段到标准线距离d，S106、通过所述距离d差进行排序，使用“右最短，左排除”算法，计算出最优值，并规整为同一行，S107、再将同行数据分解并分类，S108、使用“字符拆分”算法，把“粘”在一起的字段进行分组剥离，S109、使用“字符串相似度”算法，匹配到相似度最高的字段，S110、使用“四相匹配”算法，得出最优的匹配结果，S111、对所述匹配结果进行分类组装，并“数据格式化”，最后得到规整并分类好的保单数据。所述“最优坐标系”算法的实现方法为，计算每个字段倾斜的角度；去掉最大和最小值；计算出角度的平均值；循环匹配到最接近于平均值的字段；使用匹配到最优的字段的坐标建立所述“最优坐标系”，所述“最优坐标系”算法为y＝kx+b。所述“点到线距离”算法为，直线Ax+By+C＝0，坐标Xo，Yo，那么这点到这直线的距离就为

所述“右最短，左排除”算法的实现步骤为，对OCR接入的所述数据通过坐标点做字段最左排序；循环并指定tag字段对其他元素进行匹配；过滤掉该tag字段左侧或重叠的字段；该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)＝minB，最优字段为minF；对该minF字段进行左排除，若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB，则证明左侧有最优的值，该minF字段并非和该tag字段同行；否则该minF字段和该tag字段同行，并移除该minF字段进行下一轮循环匹配。所述“字符拆分”算法的实现步骤为，计算tag字段的自然宽度W＝rightX–leftX；计算平均字段的宽度charW＝W/charNum；计算每个字符之前的距离charD＝charLeftX–charRightX；若charW>k*chard，所述k可针对是数字还是汉字来具体设定，证明该tag字段是多个字段的组合；对该tag字段拆分成多个字段的数组tags[]。所述“字符串相似度”算法为，通过字形，和距离得出百分比，使用百分比基数淘汰不匹配数据，得出最优数据。所述“四相匹配”算法包括4个维度的匹配，分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配，避免每一种情况的漏匹配导致匹配结果不符。所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化，所述时间格式化，OCR识别的数据通常会出现例如：019-01-01、2019-1-1、19/01/1、01/01/2019等格式格式化为：2019-01-01正常规范化的格式；所述金额格式化，例如：100.00.00、100.00000、10000000、1000,000.00等金额进行格式化为正常的100000.00格式；所述保单号识别，从匹配到的数据中提取出字母和数字的组合；所述年龄格式化，用于提取大小为1-199的数字；所述性别格式化，用于识别“男”和“女”，所述年限格式化，用于提取数字并设定范围1-100。

实施例1：本申请对图2的解析结果如下：

保险单

投保人:蒋婧|保单承保时间:2016年09月28日

性别:女|出生年月:1987年08月27日|证件号码:511621198708275

被保险人:金鑫

性别:男|出生年月:1985年07月30日|证件号码:33072319850730

生存受益人:金鑫|受益顺序:1|受益份额:100％

身故受益人:金玉涵|受益顺序|受益份额:100％

对比图3说明：通常情况下OCR在识别的时候不能保证文本100％正确，影响的因素很多，如光线、文字被涂改、文字印刷掉色，等等；都会影响图片转换为自然文字的正确率；通过此发明能以自然语言为基础对OCR识别错误的文本进行纠正，生成人能理解并且可有效分类的数据；

“c987年08月27日”–>“1987年08月27日”日期年份的纠正，年份肯定是4位数的数字并且第二为是9那么从自然年份来说前面一定是1；

“生存曼益人”–>“生存受益人”通过字符串相似度的判断2个字段的相似度在整个字段匹配中相似度最高并且达到90％以上，所以可以认为是OCR识别的错误并进行纠正；。

实施例2：本申请对图4的解析结果如下：

保险合同编号:002369343420008|合同签发地:成都市

合同生效日:2016年09月29日零时|保险费交费日:09月29日

险种信息

被保险人:金鑫

险种名称|基本保险金额保险年限交费年期|标准保费交费方式

太平百万驾年华B款两全保险|100,000.00元|30年|年|750.00元|年交

太平附加百万驾年华B款意外伤害保险|100,000.00元|30年|10年|600.00元|年交

对比图5说明：普通的解析结果是凌乱的单个的元素的集合，用户需要从“一堆”数据中找到自己想要的数据，其次就“保险产品”的数据是以类似表格格式的文本，用户很能找到每个元素的对应关系，是否是同一行数据、当前元素是在第几列等…；针对上述的普通解析的缺点，此发明对数据进行了按行排序的处理，把同行的数据规整为一行并对“粘在”一起的元素进行拆分；

例如“600.00元年交”分析发现charW>k*chard，则认为是OCR识别的时候把两列框在了一起，所以就可拆成2列“600.00元|年交”；

排行例如：“太平百万驾年华B款两全保险”通过“右最短，左排除”的算法发现左侧没有更符合的字段则认为它为排序的最左侧“起头”元素；循环匹配发现“100,000.00元”与“太平百万驾年华B款两全保险”右侧距离最近并且“点到线的距离”d最近，满足右最短；然后循环所有字段对“100,000.00元”进行最左排除计算距离d2，未发现d2<d，则认为“100,000.00元”是“太平百万驾年华B款两全保险”最优的右侧同行数据；

以此类推，保险产品数据可按行排序成：“太平附加百万驾年华B款意外伤害保险|100,000.00元|30年|10年|600.00元|年交”，此格式已读并且可格式换可分类入库。

以上描述仅为本申请的较佳实施例以及对所运用技术原理等方案的说明。同时，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种解析纸质保单数据的方法，其特征是：包括以下步骤， S101、接入 OCR 识别数据，

S102、识别所述数据并匹配到解析模板，

S103、将所述数据按行规整并排序，

S104、通过“最优坐标系”算法，计算得出倾斜度坐标系公式，

S105、利用所述坐标系公式，使用“点到线距离”算法，计算出字段到标准线距离 d，

S106、通过所述距离 d 差进行排序，使用“右最短，左排除”算法，计算出最优值，并规整为同一行，

S107、再将同行数据分解并分类，

S108、使用“字符拆分”算法，把“粘”在一起的字段进行分组剥离， S109、使用“字符串相似度”算法，匹配到相似度最高的字段，

S110、使用“四相匹配”算法，得出最优的匹配结果，S111、对所述匹配结果进行分类组装，并“数据格式化”，最后得到规整并分类好的保单数据；

所述“最优坐标系”算法的实现方法为，计算每个字段倾斜的角度；去掉最大和最小值；计算出角度的平均值；循环匹配到最接近于平均值的字段；使用匹配到最优的字段的坐标建立所述“最优坐标系”，所述 “最优坐标系”算法为 y=kx+b；

所述“点到线距离”算法为，直线 Ax+By+C=0，坐标 Xo，Yo，那么

这点到这直线的距离就为

；

所述“右最短，左排除”算法的实现步骤为，对 OCR 接入的所述数据通过坐标点做字段最左排序；循环并指定 tag 字段对其他元素进行匹配；过滤掉该 tag 字段左侧或重叠的字段；该 tag 字段右侧进行循环匹配找到最短距离 MIN (tagB-contrastB) =minB，最优字段为 minF；对该 minF 字段进行左排除，若存在该 minF 字段左侧存在 MIN (minFB- leftContrastB) <minB，则证明左侧有最优的值，该 minF 字段并非和该 tag 字段同行；否则该 minF 字段和该 tag 字段同行，并移除该 minF 字段进行下一轮循环匹配。

2.根据权利要求 1 所述的一种解析纸质保单数据的方法，其特征是：所述“字符拆分”算法的实现步骤为，计算 tag 字段的自然宽度 W=rightX – leftX；计算平均字段的宽度 charW=W/charNum；计算每个字符之前的距离 charD=charLeftX –charRightX；若charW>k*chard，所述 k 可针对是数字还是汉字来具体设定，证明该 tag 字段是多个字段的组合；对该 tag 字段拆分成多个字段的数组 tags[]。

3.根据权利要求 1 所述的一种解析纸质保单数据的方法，其特征是：所述“字符串相似度”算法为，通过字形，和距离得出百分比，使用百分比基数淘汰不匹配数据，得出最优数据。

4.根据权利要求 1 所述的一种解析纸质保单数据的方法，其特征是：所述“四相匹配”算法包括 4 个维度的匹配，分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配。

5.根据权利要求 1 所述的一种解析纸质保单数据的方法，其特征是：所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化。