CN109918679B - 一种解析纸质保单数据的方法 - Google Patents

一种解析纸质保单数据的方法 Download PDF

Info

Publication number
CN109918679B
CN109918679B CN201910222271.4A CN201910222271A CN109918679B CN 109918679 B CN109918679 B CN 109918679B CN 201910222271 A CN201910222271 A CN 201910222271A CN 109918679 B CN109918679 B CN 109918679B
Authority
CN
China
Prior art keywords
data
algorithm
field
matching
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910222271.4A
Other languages
English (en)
Other versions
CN109918679A (zh
Inventor
王健荣
曹光旺
金鑫
李小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sure Technology Co ltd
Original Assignee
Chengdu Shengkun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shengkun Technology Co ltd filed Critical Chengdu Shengkun Technology Co ltd
Priority to CN201910222271.4A priority Critical patent/CN109918679B/zh
Publication of CN109918679A publication Critical patent/CN109918679A/zh
Application granted granted Critical
Publication of CN109918679B publication Critical patent/CN109918679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种解析纸质保单数据的方法,识别数据并匹配到解析模板,将数据按行规整并排序,通过“最优坐标系”算法,计算得出倾斜度坐标系公式,利用坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,通过距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,再将同行数据分解并分类,使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,使用“字符串相似度”算法,匹配到相似度最高的字段,使用“四相匹配”算法,得出最优的匹配结果,对匹配结果进行分类组装,并“数据格式化”。可对OCR数据按行排序;利用专业的词汇对识别错误的字段进行智能纠错;对保单特定的数据格式进行合理格式化。

Description

一种解析纸质保单数据的方法
技术领域
本发明涉及数据解析领域,具体涉及一种解析纸质保单数据的方法。
背景技术
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。虽然现有OCR技术已经很成熟,但并未出现对纸质保单格式的数据进行精准的识别。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种解析纸质保单数据的方法,对纸质保单数据规整并分类,生成可读,可操作和分析的数据,并对识别错误的文字针对专业性进行智能纠错。
根据本申请实施例提供的技术方案,一种解析纸质保单数据的方法,包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。
本申请中,所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。
本申请中,所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为
Figure BDA0002003996000000021
本申请中,所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;过滤掉该tag字段左侧或重叠的字段;该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)=minB,最优字段为minF;对该minF字段进行左排除,若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB,则证明左侧有最优的值,该minF字段并非和该tag字段同行;否则该minF字段和该tag字段同行,并移除该minF字段进行下一轮循环匹配。
本申请中,所述“字符拆分”算法的实现步骤为,计算tag字段的自然宽度W=rightX–leftX;计算平均字段的宽度charW=W/charNum;计算每个字符之前的距离charD=charLeftX–charRightX;若charW>k*chard,所述k可针对是数字还是汉字来具体设定,证明该tag字段是多个字段的组合;对该tag字段拆分成多个字段的数组tags[]。
本申请中,所述“字符串相似度”算法为,通过字形,和距离得出百分比,使用百分比基数淘汰不匹配数据,得出最优数据。
本申请中,所述“四相匹配”算法包括4个维度的匹配,分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配。
本申请中,所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化。
综上所述,本申请的有益效果:
1.可对OCR数据按行排序,把数据关联起来;
2.利用专业的词汇对识别错误的字段进行智能纠错;
3.对保单特定的数据格式进行合理格式化。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请的流程示意图;
图2为打码保单示例图;
图3为普通解析打码保单结果图;
图4为保单数据排行示例图;
图5为普通解析保单数据排行结果图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,一种解析纸质保单数据的方法,一种解析纸质保单数据的方法,包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为
Figure BDA0002003996000000041
所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;过滤掉该tag字段左侧或重叠的字段;该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)=minB,最优字段为minF;对该minF字段进行左排除,若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB,则证明左侧有最优的值,该minF字段并非和该tag字段同行;否则该minF字段和该tag字段同行,并移除该minF字段进行下一轮循环匹配。所述“字符拆分”算法的实现步骤为,计算tag字段的自然宽度W=rightX–leftX;计算平均字段的宽度charW=W/charNum;计算每个字符之前的距离charD=charLeftX–charRightX;若charW>k*chard,所述k可针对是数字还是汉字来具体设定,证明该tag字段是多个字段的组合;对该tag字段拆分成多个字段的数组tags[]。所述“字符串相似度”算法为,通过字形,和距离得出百分比,使用百分比基数淘汰不匹配数据,得出最优数据。所述“四相匹配”算法包括4个维度的匹配,分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配,避免每一种情况的漏匹配导致匹配结果不符。所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化,所述时间格式化,OCR识别的数据通常会出现例如:019-01-01、2019-1-1、19/01/1、01/01/2019等格式格式化为:2019-01-01正常规范化的格式;所述金额格式化,例如:100.00.00、100.00000、10000000、1000,000.00等金额进行格式化为正常的100000.00格式;所述保单号识别,从匹配到的数据中提取出字母和数字的组合;所述年龄格式化,用于提取大小为1-199的数字;所述性别格式化,用于识别“男”和“女”,所述年限格式化,用于提取数字并设定范围1-100。
实施例1:本申请对图2的解析结果如下:
保险单
投保人:蒋婧|保单承保时间:2016年09月28日
性别:女|出生年月:1987年08月27日|证件号码:511621198708275
被保险人:金鑫
性别:男|出生年月:1985年07月30日|证件号码:33072319850730
生存受益人:金鑫|受益顺序:1|受益份额:100%
身故受益人:金玉涵|受益顺序|受益份额:100%
对比图3说明:通常情况下OCR在识别的时候不能保证文本100%正确,影响的因素很多,如光线、文字被涂改、文字印刷掉色,等等;都会影响图片转换为自然文字的正确率;通过此发明能以自然语言为基础对OCR识别错误的文本进行纠正,生成人能理解并且可有效分类的数据;
“c987年08月27日”–>“1987年08月27日”日期年份的纠正,年份肯定是4位数的数字并且第二为是9那么从自然年份来说前面一定是1;
“生存曼益人”–>“生存受益人”通过字符串相似度的判断2个字段的相似度在整个字段匹配中相似度最高并且达到90%以上,所以可以认为是OCR识别的错误并进行纠正;。
实施例2:本申请对图4的解析结果如下:
保险合同编号:002369343420008|合同签发地:成都市
合同生效日:2016年09月29日零时|保险费交费日:09月29日
险种信息
被保险人:金鑫
险种名称|基本保险金额保险年限交费年期|标准保费交费方式
太平百万驾年华B款两全保险|100,000.00元|30年|年|750.00元|年交
太平附加百万驾年华B款意外伤害保险|100,000.00元|30年|10年|600.00元|年交
对比图5说明:普通的解析结果是凌乱的单个的元素的集合,用户需要从“一堆”数据中找到自己想要的数据,其次就“保险产品”的数据是以类似表格格式的文本,用户很能找到每个元素的对应关系,是否是同一行数据、当前元素是在第几列等…;针对上述的普通解析的缺点,此发明对数据进行了按行排序的处理,把同行的数据规整为一行并对“粘在”一起的元素进行拆分;
例如“600.00元年交”分析发现charW>k*chard,则认为是OCR识别的时候把两列框在了一起,所以就可拆成2列“600.00元|年交”;
排行例如:“太平百万驾年华B款两全保险”通过“右最短,左排除”的算法发现左侧没有更符合的字段则认为它为排序的最左侧“起头”元素;循环匹配发现“100,000.00元”与“太平百万驾年华B款两全保险”右侧距离最近并且“点到线的距离”d最近,满足右最短;然后循环所有字段对“100,000.00元”进行最左排除计算距离d2,未发现d2<d,则认为“100,000.00元”是“太平百万驾年华B款两全保险”最优的右侧同行数据;
以此类推,保险产品数据可按行排序成:“太平附加百万驾年华B款意外伤害保险|100,000.00元|30年|10年|600.00元|年交”,此格式已读并且可格式换可分类入库。
以上描述仅为本申请的较佳实施例以及对所运用技术原理等方案的说明。同时,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (5)

1.一种解析纸质保单数据的方法,其特征是:包括以下步骤, S101、接入 OCR 识别数据,
S102、识别所述数据并匹配到解析模板,
S103、将所述数据按行规整并排序,
S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,
S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段 到标准线距离 d,
S106、通过所述距离 d 差进行排序,使用“右最短,左排除”算法, 计算出最优值,并规整为同一行,
S107、再将同行数据分解并分类,
S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离, S109、使用“字符串相似度”算法, 匹配到相似度最高的字段,
S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”, 最后得到规整并分类好的保单数据;
所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度; 去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值 的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述 “最优坐标系”算法为 y=kx+b;
所述“点到线距离”算法为,直线 Ax+By+C=0,坐标 Xo,Yo,那么
这点到这直线的距离就为
Figure 416699DEST_PATH_IMAGE001
所述“右最短,左排除”算法的实现步骤为,对 OCR 接入的所述数据通过坐标点做字段最左排序;循环并指定 tag 字段对其他元素进行匹 配;过滤掉该 tag 字段左侧或重叠的字段;该 tag 字段右侧进行循环匹 配找到最短距离 MIN (tagB-contrastB) =minB,最优字段为 minF;对该 minF 字 段 进 行 左 排 除 ,若 存 在 该 minF 字 段 左 侧 存在 MIN (minFB- leftContrastB) <minB,则证明左侧有最优的值,该 minF 字段 并非和该 tag 字段同行;否则该 minF 字段和该 tag 字段同行,并移除该 minF 字段进行下一轮循环匹配。
2.根据权利要求 1 所述的一种解析纸质保单数据的方法,其特征是: 所述“字符拆分”算法的实现步骤为,计算 tag 字段的自然宽度 W=rightX – leftX;计算平均字段的宽度 charW=W/charNum;计算每个字符之前的 距离 charD=charLeftX –charRightX;若charW>k*chard,所述 k 可针对是数字还是汉字来具体设定,证明该 tag 字段是多个字段的组合;对该 tag 字段拆分成多个字段的数组 tags[]。
3.根据权利要求 1 所述的一种解析纸质保单数据的方法,其特征是: 所述“字符串相似度”算法为,通过字形,和距离得出百分比,使用百 分比基数淘汰不匹配数据,得出最优数据。
4.根据权利要求 1 所述的一种解析纸质保单数据的方法,其特征是: 所述“四相匹配”算法包括 4 个维度的匹配,分别为不拆分全匹配、拆 分全匹配、不拆分模糊匹配和拆分模糊匹配。
5.根据权利要求 1 所述的一种解析纸质保单数据的方法,其特征是: 所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄 格式化、性别格式化和年限格式化。
CN201910222271.4A 2019-03-22 2019-03-22 一种解析纸质保单数据的方法 Active CN109918679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910222271.4A CN109918679B (zh) 2019-03-22 2019-03-22 一种解析纸质保单数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910222271.4A CN109918679B (zh) 2019-03-22 2019-03-22 一种解析纸质保单数据的方法

Publications (2)

Publication Number Publication Date
CN109918679A CN109918679A (zh) 2019-06-21
CN109918679B true CN109918679B (zh) 2023-04-11

Family

ID=66966282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910222271.4A Active CN109918679B (zh) 2019-03-22 2019-03-22 一种解析纸质保单数据的方法

Country Status (1)

Country Link
CN (1) CN109918679B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942069A (zh) * 2019-10-22 2020-03-31 云南大学 车险保单的关键信息提取方法、装置、存储介质及设备
CN112906352A (zh) * 2021-03-06 2021-06-04 道和云科技(天津)有限公司 一种车辆保险电子保单文本识别和抽取方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5191525A (en) * 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
US5237627A (en) * 1991-06-27 1993-08-17 Hewlett-Packard Company Noise tolerant optical character recognition system
CN103530430A (zh) * 2013-11-06 2014-01-22 焦点科技股份有限公司 一种含格式的html富文本数据的跨标签处理方法及系统
US8724907B1 (en) * 2012-03-28 2014-05-13 Emc Corporation Method and system for using OCR data for grouping and classifying documents
CN107622255A (zh) * 2017-10-12 2018-01-23 江苏鸿信系统集成有限公司 基于位置模板与语义模板的票据图像字段定位方法及系统
CN107688772A (zh) * 2017-06-23 2018-02-13 平安科技(深圳)有限公司 保单信息录入的方法、装置、计算机设备及存储介质
CN108363729A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串比较方法、装置、终端设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275017B2 (en) * 2013-05-06 2016-03-01 The Speed Reading Group, Chamber Of Commerce Number: 60482605 Methods, systems, and media for guiding user reading on a screen

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5191525A (en) * 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
US5237627A (en) * 1991-06-27 1993-08-17 Hewlett-Packard Company Noise tolerant optical character recognition system
US8724907B1 (en) * 2012-03-28 2014-05-13 Emc Corporation Method and system for using OCR data for grouping and classifying documents
CN103530430A (zh) * 2013-11-06 2014-01-22 焦点科技股份有限公司 一种含格式的html富文本数据的跨标签处理方法及系统
CN107688772A (zh) * 2017-06-23 2018-02-13 平安科技(深圳)有限公司 保单信息录入的方法、装置、计算机设备及存储介质
CN107622255A (zh) * 2017-10-12 2018-01-23 江苏鸿信系统集成有限公司 基于位置模板与语义模板的票据图像字段定位方法及系统
CN108363729A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串比较方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN109918679A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
Eskenazi et al. A comprehensive survey of mostly textual document segmentation algorithms since 2008
Kleber et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting
US8750616B2 (en) Character image extracting apparatus and character image extracting method
CN107133621B (zh) 基于ocr的格式化传真的分类和信息提取方法
Park et al. Automatic detection and recognition of Korean text in outdoor signboard images
Casey et al. Intelligent forms processing
CN111666938A (zh) 一种基于深度学习的两地双车牌检测识别方法及系统
CN109918679B (zh) 一种解析纸质保单数据的方法
Bai et al. Keyword spotting in document images through word shape coding
CN110610175A (zh) 一种ocr数据误标注清洗方法
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
CN105740857A (zh) 一种基于ocr的快速纸笔投票结果自动采集与识别系统
Pirrone et al. Papy-s-net: A siamese network to match papyrus fragments
CN111340032A (zh) 一种基于金融领域应用场景的字符识别方法
CN112149401A (zh) 一种基于ocr的文档对比识别方法和系统
Mukherji et al. Shape feature and fuzzy logic based offline devnagari handwritten optical character recognition
CN111539417A (zh) 一种基于深度神经网络的文本识别训练优化方法
Rahman et al. Bn-htrd: A benchmark dataset for document level offline bangla handwritten text recognition (htr) and line segmentation
CN113269101A (zh) 一种票据识别方法、装置和设备
US20060176521A1 (en) Digitization of microfiche
Marinai Text retrieval from early printed books
Shweka et al. Automatic extraction of catalog data from digital images of historical manuscripts
CN108197663B (zh) 基于对偶集合多标记学习的书法作品图像分类方法
Halder et al. Individuality of isolated Bangla characters
CN115543915A (zh) 人事档案目录自动化建库方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 2, 30th Floor, Unit 1, Building 1, No. 28, North Section of Tianfu Avenue, High tech Zone, Chengdu City, Sichuan Province, 610000

Patentee after: Chengdu Sure Technology Co.,Ltd.

Address before: No. 4, 13th Floor, Building 3, No. 666 Jitai Road, Chengdu High tech Zone, Chengdu (Sichuan) Pilot Free Trade Zone, Sichuan 610000

Patentee before: CHENGDU SHENGKUN TECHNOLOGY Co.,Ltd.