CN109918679A - 一种解析纸质保单数据的方法 - Google Patents
一种解析纸质保单数据的方法 Download PDFInfo
- Publication number
- CN109918679A CN109918679A CN201910222271.4A CN201910222271A CN109918679A CN 109918679 A CN109918679 A CN 109918679A CN 201910222271 A CN201910222271 A CN 201910222271A CN 109918679 A CN109918679 A CN 109918679A
- Authority
- CN
- China
- Prior art keywords
- field
- algorithm
- data
- parsing
- declaration form
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种解析纸质保单数据的方法,识别数据并匹配到解析模板,将数据按行规整并排序,通过“最优坐标系”算法,计算得出倾斜度坐标系公式,利用坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,通过距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,再将同行数据分解并分类,使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,使用“字符串相似度”算法,匹配到相似度最高的字段,使用“四相匹配”算法,得出最优的匹配结果,对匹配结果进行分类组装,并“数据格式化”。可对OCR数据按行排序;利用专业的词汇对识别错误的字段进行智能纠错;对保单特定的数据格式进行合理格式化。
Description
技术领域
本发明涉及数据解析领域,具体涉及一种解析纸质保单数据的方法。
背景技术
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。虽然现有OCR技术已经很成熟,但并未出现对纸质保单格式的数据进行精准的识别。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种解析纸质保单数据的方法,对纸质保单数据规整并分类,生成可读,可操作和分析的数据,并对识别错误的文字针对专业性进行智能纠错。
根据本申请实施例提供的技术方案,一种解析纸质保单数据的方法,包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。
本申请中,所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。
本申请中,所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为
本申请中,所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;过滤掉该tag字段左侧或重叠的字段;该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)=minB,最优字段为minF;对该minF字段进行左排除,若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB,则证明左侧有最优的值,该minF字段并非和该tag字段同行;否则该minF字段和该tag字段同行,并移除该minF字段进行下一轮循环匹配。
本申请中,所述“字符拆分”算法的实现步骤为,计算tag字段的自然宽度W=rightX–leftX;计算平均字段的宽度charW=W/charNum;计算每个字符之前的距离charD=charLeftX–charRightX;若charW>k*chard,所述k可针对是数字还是汉字来具体设定,证明该tag字段是多个字段的组合;对该tag字段拆分成多个字段的数组tags[]。
本申请中,所述“字符串相似度”算法为,通过字形,和距离得出百分比,使用百分比基数淘汰不匹配数据,得出最优数据。
本申请中,所述“四相匹配”算法包括4个维度的匹配,分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配。
本申请中,所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化。
综上所述,本申请的有益效果:
1.可对OCR数据按行排序,把数据关联起来;
2.利用专业的词汇对识别错误的字段进行智能纠错;
3.对保单特定的数据格式进行合理格式化。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请的流程示意图;
图2为打码保单示例图;
图3为普通解析打码保单结果图;
图4为保单数据排行示例图;
图5为普通解析保单数据排行结果图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,一种解析纸质保单数据的方法,一种解析纸质保单数据的方法,包括以下步骤,S101、接入OCR识别数据,S102、识别所述数据并匹配到解析模板,S103、将所述数据按行规整并排序,S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,S107、再将同行数据分解并分类,S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,S109、使用“字符串相似度”算法,匹配到相似度最高的字段,S110、使用“四相匹配”算法,得出最优的匹配结果,S111、对所述匹配结果进行分类组装,并“数据格式化”,最后得到规整并分类好的保单数据。所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;过滤掉该tag字段左侧或重叠的字段;该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)=minB,最优字段为minF;对该minF字段进行左排除,若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB,则证明左侧有最优的值,该minF字段并非和该tag字段同行;否则该minF字段和该tag字段同行,并移除该minF字段进行下一轮循环匹配。所述“字符拆分”算法的实现步骤为,计算tag字段的自然宽度W=rightX–leftX;计算平均字段的宽度charW=W/charNum;计算每个字符之前的距离charD=charLeftX–charRightX;若charW>k*chard,所述k可针对是数字还是汉字来具体设定,证明该tag字段是多个字段的组合;对该tag字段拆分成多个字段的数组tags[]。所述“字符串相似度”算法为,通过字形,和距离得出百分比,使用百分比基数淘汰不匹配数据,得出最优数据。所述“四相匹配”算法包括4个维度的匹配,分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配,避免每一种情况的漏匹配导致匹配结果不符。所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化,所述时间格式化,OCR识别的数据通常会出现例如:019-01-01、2019-1-1、19/01/1、01/01/2019等格式格式化为:2019-01-01正常规范化的格式;所述金额格式化,例如:100.00.00、100.00000、10000000、1000,000.00等金额进行格式化为正常的100000.00格式;所述保单号识别,从匹配到的数据中提取出字母和数字的组合;所述年龄格式化,用于提取大小为1-199的数字;所述性别格式化,用于识别“男”和“女”,所述年限格式化,用于提取数字并设定范围1-100。
实施例1:本申请对图2的解析结果如下:
保险单
投保人:蒋婧|保单承保时间:2016年09月28日
性别:女|出生年月:1987年08月27日|证件号码:511621198708275
被保险人:金鑫
性别:男|出生年月:1985年07月30日|证件号码:33072319850730
生存受益人:金鑫|受益顺序:1|受益份额:100%
身故受益人:金玉涵|受益顺序|受益份额:100%
对比图3说明:通常情况下OCR在识别的时候不能保证文本100%正确,影响的因素很多,如光线、文字被涂改、文字印刷掉色,等等;都会影响图片转换为自然文字的正确率;通过此发明能以自然语言为基础对OCR识别错误的文本进行纠正,生成人能理解并且可有效分类的数据;
“c987年08月27日”–>“1987年08月27日”日期年份的纠正,年份肯定是4位数的数字并且第二为是9那么从自然年份来说前面一定是1;
“生存曼益人”–>“生存受益人”通过字符串相似度的判断2个字段的相似度在整个字段匹配中相似度最高并且达到90%以上,所以可以认为是OCR识别的错误并进行纠正;。
实施例2:本申请对图4的解析结果如下:
保险合同编号:002369343420008|合同签发地:成都市
合同生效日:2016年09月29日零时|保险费交费日:09月29日
险种信息
被保险人:金鑫
险种名称|基本保险金额保险年限交费年期|标准保费交费方式
太平百万驾年华B款两全保险|100,000.00元|30年|年|750.00元|年交
太平附加百万驾年华B款意外伤害保险|100,000.00元|30年|10年|600.00元|年交
对比图5说明:普通的解析结果是凌乱的单个的元素的集合,用户需要从“一堆”数据中找到自己想要的数据,其次就“保险产品”的数据是以类似表格格式的文本,用户很能找到每个元素的对应关系,是否是同一行数据、当前元素是在第几列等….;针对上述的普通解析的缺点,此发明对数据进行了按行排序的处理,把同行的数据规整为一行并对“粘在”一起的元素进行拆分;
例如“600.00元年交”分析发现charW>k*chard,则认为是OCR识别的时候把两列框在了一起,所以就可拆成2列“600.00元|年交”;
排行例如:“太平百万驾年华B款两全保险”通过“右最短,左排除”的算法发现左侧没有更符合的字段则认为它为排序的最左侧“起头”元素;循环匹配发现“100,000.00元”与“太平百万驾年华B款两全保险”右侧距离最近并且“点到线的距离”d最近,满足右最短;然后循环所有字段对“100,000.00元”进行最左排除计算距离d2,未发现d2<d,则认为“100,000.00元”是“太平百万驾年华B款两全保险”最优的右侧同行数据;
以此类推,保险产品数据可按行排序成:“太平附加百万驾年华B款意外伤害保险|100,000.00元|30年|10年|600.00元|年交”,此格式已读并且可格式换可分类入库。
以上描述仅为本申请的较佳实施例以及对所运用技术原理等方案的说明。同时,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (8)
1.一种解析纸质保单数据的方法,其特征是:包括以下步骤,
S101、接入OCR识别数据,
S102、识别所述数据并匹配到解析模板,
S103、将所述数据按行规整并排序,
S104、通过“最优坐标系”算法,计算得出倾斜度坐标系公式,
S105、利用所述坐标系公式,使用“点到线距离”算法,计算出字段到标准线距离d,
S106、通过所述距离d差进行排序,使用“右最短,左排除”算法,计算出最优值,并规整为同一行,
S107、再将同行数据分解并分类,
S108、使用“字符拆分”算法,把“粘”在一起的字段进行分组剥离,
S109、使用“字符串相似度”算法,匹配到相似度最高的字段,
S110、使用“四相匹配”算法,得出最优的匹配结果,
S111、对所述匹配结果进行分类组装,并“数据格式化”,
最后得到规整并分类好的保单数据。
2.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“最优坐标系”算法的实现方法为,计算每个字段倾斜的角度;去掉最大和最小值;计算出角度的平均值;循环匹配到最接近于平均值的字段;使用匹配到最优的字段的坐标建立所述“最优坐标系”,所述“最优坐标系”算法为y=kx+b。
3.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“点到线距离”算法为,直线Ax+By+C=0,坐标Xo,Yo,那么这点到这直线的距离就为
4.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“右最短,左排除”算法的实现步骤为,对OCR接入的所述数据通过坐标点做字段最左排序;循环并指定tag字段对其他元素进行匹配;过滤掉该tag字段左侧或重叠的字段;该tag字段右侧进行循环匹配找到最短距离MIN(tagB-contrastB)=minB,最优字段为minF;对该minF字段进行左排除,若存在该minF字段左侧存在MIN(minFB-leftContrastB)<minB,则证明左侧有最优的值,该minF字段并非和该tag字段同行;否则该minF字段和该tag字段同行,并移除该minF字段进行下一轮循环匹配。
5.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“字符拆分”算法的实现步骤为,计算tag字段的自然宽度W=rightX–leftX;计算平均字段的宽度charW=W/charNum;计算每个字符之前的距离charD=charLeftX–charRightX;若charW>k*chard,所述k可针对是数字还是汉字来具体设定,证明该tag字段是多个字段的组合;对该tag字段拆分成多个字段的数组tags[]。
6.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“字符串相似度”算法为,通过字形,和距离得出百分比,使用百分比基数淘汰不匹配数据,得出最优数据。
7.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“四相匹配”算法包括4个维度的匹配,分别为不拆分全匹配、拆分全匹配、不拆分模糊匹配和拆分模糊匹配。
8.根据权利要求1所述的一种解析纸质保单数据的方法,其特征是:所述“数据格式化”包括时间格式化、金额格式化、保单号识别、年龄格式化、性别格式化和年限格式化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910222271.4A CN109918679B (zh) | 2019-03-22 | 2019-03-22 | 一种解析纸质保单数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910222271.4A CN109918679B (zh) | 2019-03-22 | 2019-03-22 | 一种解析纸质保单数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918679A true CN109918679A (zh) | 2019-06-21 |
CN109918679B CN109918679B (zh) | 2023-04-11 |
Family
ID=66966282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910222271.4A Active CN109918679B (zh) | 2019-03-22 | 2019-03-22 | 一种解析纸质保单数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918679B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942069A (zh) * | 2019-10-22 | 2020-03-31 | 云南大学 | 车险保单的关键信息提取方法、装置、存储介质及设备 |
CN112906352A (zh) * | 2021-03-06 | 2021-06-04 | 道和云科技(天津)有限公司 | 一种车辆保险电子保单文本识别和抽取方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5191525A (en) * | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
US5237627A (en) * | 1991-06-27 | 1993-08-17 | Hewlett-Packard Company | Noise tolerant optical character recognition system |
CN103530430A (zh) * | 2013-11-06 | 2014-01-22 | 焦点科技股份有限公司 | 一种含格式的html富文本数据的跨标签处理方法及系统 |
US8724907B1 (en) * | 2012-03-28 | 2014-05-13 | Emc Corporation | Method and system for using OCR data for grouping and classifying documents |
US20140331125A1 (en) * | 2013-05-06 | 2014-11-06 | The Speed Reading Group, Chamber Of Commerce Number: 60482605 | Methods, systems, and media for guiding user reading on a screen |
CN107622255A (zh) * | 2017-10-12 | 2018-01-23 | 江苏鸿信系统集成有限公司 | 基于位置模板与语义模板的票据图像字段定位方法及系统 |
CN107688772A (zh) * | 2017-06-23 | 2018-02-13 | 平安科技(深圳)有限公司 | 保单信息录入的方法、装置、计算机设备及存储介质 |
CN108363729A (zh) * | 2018-01-12 | 2018-08-03 | 中国平安人寿保险股份有限公司 | 一种字符串比较方法、装置、终端设备及存储介质 |
-
2019
- 2019-03-22 CN CN201910222271.4A patent/CN109918679B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5191525A (en) * | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
US5237627A (en) * | 1991-06-27 | 1993-08-17 | Hewlett-Packard Company | Noise tolerant optical character recognition system |
US8724907B1 (en) * | 2012-03-28 | 2014-05-13 | Emc Corporation | Method and system for using OCR data for grouping and classifying documents |
US20140331125A1 (en) * | 2013-05-06 | 2014-11-06 | The Speed Reading Group, Chamber Of Commerce Number: 60482605 | Methods, systems, and media for guiding user reading on a screen |
CN103530430A (zh) * | 2013-11-06 | 2014-01-22 | 焦点科技股份有限公司 | 一种含格式的html富文本数据的跨标签处理方法及系统 |
CN107688772A (zh) * | 2017-06-23 | 2018-02-13 | 平安科技(深圳)有限公司 | 保单信息录入的方法、装置、计算机设备及存储介质 |
CN107622255A (zh) * | 2017-10-12 | 2018-01-23 | 江苏鸿信系统集成有限公司 | 基于位置模板与语义模板的票据图像字段定位方法及系统 |
CN108363729A (zh) * | 2018-01-12 | 2018-08-03 | 中国平安人寿保险股份有限公司 | 一种字符串比较方法、装置、终端设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942069A (zh) * | 2019-10-22 | 2020-03-31 | 云南大学 | 车险保单的关键信息提取方法、装置、存储介质及设备 |
CN112906352A (zh) * | 2021-03-06 | 2021-06-04 | 道和云科技(天津)有限公司 | 一种车辆保险电子保单文本识别和抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109918679B (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8036497B2 (en) | Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image | |
US9639900B2 (en) | Systems and methods for tax data capture and use | |
Nagy | Twenty years of document image analysis in PAMI | |
US5852676A (en) | Method and apparatus for locating and identifying fields within a document | |
CN112446351B (zh) | 医疗票据智能识别方法 | |
JP6702629B2 (ja) | 活字ocrシステム | |
Zagoris et al. | A document image retrieval system | |
EP1914680A1 (en) | Document/image searching method and program, and document/image recording and searching device | |
US20090028435A1 (en) | Character image extracting apparatus and character image extracting method | |
Singh et al. | Offline script identification from multilingual indic-script documents: a state-of-the-art | |
Fabrizio et al. | Text detection in street level images | |
CN112819004B (zh) | 一种用于医疗票据ocr识别的图像预处理方法及系统 | |
Nurminen | Algorithmic extraction of data in tables in PDF documents | |
CN109255414A (zh) | 一种用于图书盘点的彩色条码、图书识别方法、电子设备及存储介质 | |
CN106844481B (zh) | 字体相似度及字体替换方法 | |
Caldeira et al. | Industrial optical character recognition system in printing quality control of hot-rolled coils identification | |
US20150310269A1 (en) | System and Method of Using Dynamic Variance Networks | |
CN113887484B (zh) | 一种卡片式文件图像识别方法和装置 | |
CN109918679A (zh) | 一种解析纸质保单数据的方法 | |
Rath et al. | Indexing for a digital library of George Washington’s manuscripts: a study of word matching techniques | |
CN103996055A (zh) | 基于影像档案电子资料识别系统中分类器的识别方法 | |
CN108921160A (zh) | 一种图书识别方法、电子设备及存储介质 | |
Duygulu et al. | A hierarchical representation of form documents for identification and retrieval | |
CN113191348A (zh) | 一种基于模板的文本结构化提取方法及工具 | |
Igorevna et al. | Document image analysis and recognition: a survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No. 2, 30th Floor, Unit 1, Building 1, No. 28, North Section of Tianfu Avenue, High tech Zone, Chengdu City, Sichuan Province, 610000 Patentee after: Chengdu Sure Technology Co.,Ltd. Address before: No. 4, 13th Floor, Building 3, No. 666 Jitai Road, Chengdu High tech Zone, Chengdu (Sichuan) Pilot Free Trade Zone, Sichuan 610000 Patentee before: CHENGDU SHENGKUN TECHNOLOGY Co.,Ltd. |