CN112270222A - 信息标准化处理方法、设备及计算机可读存储介质 - Google Patents

信息标准化处理方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112270222A
CN112270222A CN202011100336.7A CN202011100336A CN112270222A CN 112270222 A CN112270222 A CN 112270222A CN 202011100336 A CN202011100336 A CN 202011100336A CN 112270222 A CN112270222 A CN 112270222A
Authority
CN
China
Prior art keywords
policy
policy field
standard
field
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011100336.7A
Other languages
English (en)
Inventor
吴凡
杨佰戬
相宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202011100336.7A priority Critical patent/CN112270222A/zh
Publication of CN112270222A publication Critical patent/CN112270222A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种信息标准化处理方法、设备及计算机可读存储介质。该信息标准化处理方法包括:获取待识别保单图像,对所述待识别保单图像进行识别,得到初始保单信息,其中,所述初始保单信息包括识别字符及其位置信息;根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段;获取所述标准保单字段对应的字段值特征,根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值。本发明能够解决现有的模板图像识别技术无法实现各类型保单的信息识别的技术问题。

Description

信息标准化处理方法、设备及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种信息标准化处理方法、设备及计算机可读存储介质。
背景技术
保单是保险单的简称,是指保险人与投保人签订保险合同的书面证明,保单明确完整地记载了有关保险双方的权利和义务,其内容主要包括被保险人名称、保险标的名称及其存放地点或所处状态、保险金额、保险期限、保险费等双方对有关保险标的事项的说明,还包括保险条款或双方约定的其他条件以及保单变更、转让和注销等附加条件。
保险经纪人在确定与投保人签订保单后保险经纪人可以通过电子系统录入该保单中的信息以进行存档。由于传统的人工录入存档方式效率较低,因此目前一般会采用模板图像识别的方式,即,先对原始保单进行拍照或扫描,然后通过图像识别技术进行保单图像中文字及数字信息的识别、抽取及录入,在识别时,是采用模板识别的方式,即根据固定的位置信息进行字段值的匹配,类似身份证信息的识别。上述方式只适用于特定产品或特定公司的保单的识别。然而,不同保险公司、不同产品的保单模板是不同的,甚至保险公司、产品相同,但在不同销售渠道、不同销售时间购买的保单模板也是不同的,而现有的模板图像识别技术无法做到识别所有种类的保单。因此,如何实现各类型保单的信息识别,是目前亟需解决的问题。
发明内容
本发明的主要目的在于提供一种信息标准化处理方法、设备及计算机可读存储介质,旨在解决现有的模板图像识别技术无法实现各类型保单的信息识别的技术问题。
为实现上述目的,本发明提供一种信息标准化处理方法,所述信息标准化处理方法包括:
获取待识别保单图像,对所述待识别保单图像进行识别,得到初始保单信息,其中,所述初始保单信息包括识别字符及其位置信息;
根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段;
获取所述标准保单字段对应的字段值特征,根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值。
可选地,所述根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值的步骤包括:
将除所述初始保单字段外的识别字符记为初始保单字段值,从所述位置信息中获取所述初始保单字段的第一位置信息及所述初始保单字段值的第二位置信息;
根据所述第一位置信息和所述第二位置信息计算得到各初始保单字段与各初始保单字段值之间的相对距离;
根据所述相对距离和预设范围,从所述初始保单字段值中筛选出所述初始保单字段对应的疑似字段值;
根据所述字段值特征从所述疑似字段值中匹配得到所述标准保单字段对应的目标保单字段值。
可选地,所述根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段的步骤之前,还包括:
获取保单样本图像及其对应的第一产品类型和保险条款信息,对所述保单样本图像进行识别,得到保单样本字段信息;
获取所述第一产品类型对应的第一目标保单字段,根据所述保险条款信息确定各第一产品类型对应的第一非标准保单字段及其第一标准保单字段;
根据所述第一目标保单字段和所述第一标准保单字段得到第二标准保单字段,根据所述第一产品类型、所述第二标准保单字段对所述保单样本字段信息进行统计分析,得到统计分析结果;
根据所述统计分析结果、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系;其中,所述预设非标准保单字段与标准保单字段之间的映射关系包括各第一产品类型对应的非标准保单字段与标准保单字段子映射关系。
可选地,所述统计分析结果包括所述第二标准保单字段及其对应的第二非标准保单字段,所述根据所述统计分析结果、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系的步骤包括:
获取所述第二标准保单字段和所述第二非标准保单字段的同义词;
根据所述统计分析结果、所述同义词、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系。
可选地,所述根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段的步骤包括:
根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到产品字段及其对应的标准产品字段;
从所述预设非标准保单字段与标准保单字段之间的映射关系中确定得到所述标准产品字段对应的目标子映射关系;
根据所述目标子映射关系和基于保险条款信息得到的特定保单字段值特征,从所述识别字符中匹配得到剩余保单字段及其对应的标准剩余保单字段,其中,标准保单字段包括所述标准产品字段和所述标准剩余保单字段。
可选地,所述信息标准化处理方法还包括:
获取所述待识别保单图像的第二产品类型,根据所述第二产品类型确定所述待识别保单图像的第二目标保单字段;
检测所述标准保单字段是否包括所述第二目标保单字段;
若否,则将所述待识别保单图像、所述标准保单字段、所述目标保单字段值和所述识别字符发送至工作端,以供所述工作端对所述预设非标准保单字段与标准保单字段之间的映射关系进行更新。
可选地,所述信息标准化处理方法还包括:
检测所述目标保单字段值是否符合标准化格式要求;
若符合,则将所述标准保单字段与所述目标保单字段值进行关联保存,并输出;
若不符合,则对所述目标保单字段值进行标准化处理,得到标准保单字段值;
将所述标准保单字段与所述标准保单字段值进行关联保存,并输出,并输出。
可选地,所述对所述目标保单字段值进行标准化处理的步骤包括:
检测所述目标保单字段值中是否存在预设冗余字符;
若存在预设冗余字符,则删除所述目标保单字段值中存在的预设冗余字符;和/或,
检测所述目标保单字段值中是否存在缩写字符;
若存在缩写字符,则将所述目标保单字段值中存在的缩写字符替换为对应的中文全称;和/或,
检测所述目标保单字段值是否符合输出格式;
若不符合输出格式,则对所述目标保单字段值进行格式转换;和/或,检测所述目标保单字段值是否存在最新表达方式;
若存在,则将所述目标保单字段值替换为所述最新表达方式。
此外,为实现上述目的,本发明还提供一种信息标准化处理装置,所述信息标准化处理装置包括:
第一识别模块,用于获取待识别保单图像,对所述待识别保单图像进行识别,得到初始保单信息,其中,所述初始保单信息包括识别字符及其位置信息;
第一处理模块,用于根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段;
第二处理模块,用于获取所述标准保单字段对应的字段值特征,根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息标准化处理程序,所述信息标准化处理程序被处理器执行时实现如上所述的信息标准化处理方法的步骤。
本发明提供一种信息标准化处理方法、设备及计算机可读存储介质,先获取待识别保单图像,对待识别保单图像进行识别,得到初始保单信息,其中,初始保单信息包括识别字符及其位置信息;然后,根据预设非标准保单字段与标准保单字段之间的映射关系,从识别字符中匹配得到初始保单字段及其对应的标准保单字段;进而获取标准保单字段对应的字段值特征,根据字段值特征、位置信息对除初始保单字段外的识别字符进行匹配,得到标准保单字段对应的目标保单字段值。本发明中,通过先识别出保单图像中的所有字符及其位置信息,然后根据预设非标准保单字段与标准保单字段之间的映射关系匹配得到标准保单字段,进而根据标准保单字段的字段值特征、位置信息匹配得到标准保单字段对应的目标保单字段值,通过上述方式,无需为各种类型的保单设置对应的保单模板来进行识别,只需借助简单的图像识别技术即可实现所有类型保单的信息识别,因此,本发明可解决现有的模板图像识别技术无法实现各类型保单的信息识别的技术问题,同时还可以节省模板设置造成的人力成本。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明信息标准化处理方法第一实施例的流程示意图;
图3为本发明信息标准化处理装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例信息标准化处理设备可以是智能手机,也可以是PC(PersonalComputer,个人计算机)、平板电脑、便携计算机等终端设备。
如图1所示,该信息标准化处理设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的信息标准化处理设备结构并不构成对信息标准化处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及信息标准化处理程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的信息标准化处理程序,并执行以下操作:
获取待识别保单图像,对所述待识别保单图像进行识别,得到初始保单信息,其中,所述初始保单信息包括识别字符及其位置信息;
根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段;
获取所述标准保单字段对应的字段值特征,根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值。
进一步地,处理器1001可以调用存储器1005中存储的信息标准化处理程序,还执行以下操作:
将除所述初始保单字段外的识别字符记为初始保单字段值,从所述位置信息中获取所述初始保单字段的第一位置信息及所述初始保单字段值的第二位置信息;
根据所述第一位置信息和所述第二位置信息计算得到各初始保单字段与各初始保单字段值之间的相对距离;
根据所述相对距离和预设范围,从所述初始保单字段值中筛选出所述初始保单字段对应的疑似字段值;
根据所述字段值特征从所述疑似字段值中匹配得到所述标准保单字段对应的目标保单字段值。
进一步地,处理器1001可以调用存储器1005中存储的信息标准化处理程序,还执行以下操作:
获取保单样本图像及其对应的第一产品类型和保险条款信息,对所述保单样本图像进行识别,得到保单样本字段信息;
获取所述第一产品类型对应的第一目标保单字段,根据所述保险条款信息确定各第一产品类型对应的第一非标准保单字段及其第一标准保单字段;
根据所述第一目标保单字段和所述第一标准保单字段得到第二标准保单字段,根据所述第一产品类型、所述第二标准保单字段对所述保单样本字段信息进行统计分析,得到统计分析结果;
根据所述统计分析结果、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系;其中,所述预设非标准保单字段与标准保单字段之间的映射关系包括各第一产品类型对应的非标准保单字段与标准保单字段子映射关系。
进一步地,所述统计分析结果包括所述第二标准保单字段及其对应的第二非标准保单字段,处理器1001可以调用存储器1005中存储的信息标准化处理程序,还执行以下操作:
获取所述第二标准保单字段和所述第二非标准保单字段的同义词;
根据所述统计分析结果、所述同义词、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系。
进一步地,处理器1001可以调用存储器1005中存储的信息标准化处理程序,还执行以下操作:
根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到产品字段及其对应的标准产品字段;
从所述预设非标准保单字段与标准保单字段之间的映射关系中确定得到所述标准产品字段对应的目标子映射关系;
根据所述目标子映射关系和基于保险条款信息得到的特定保单字段值特征,从所述识别字符中匹配得到剩余保单字段及其对应的标准剩余保单字段,其中,标准保单字段包括所述标准产品字段和所述标准剩余保单字段。
进一步地,处理器1001可以调用存储器1005中存储的信息标准化处理程序,还执行以下操作:
获取所述待识别保单图像的第二产品类型,根据所述第二产品类型确定所述待识别保单图像的第二目标保单字段;
检测所述标准保单字段是否包括所述第二目标保单字段;
若否,则将所述待识别保单图像、所述标准保单字段、所述目标保单字段值和所述识别字符发送至工作端,以供所述工作端对所述预设非标准保单字段与标准保单字段之间的映射关系进行更新。
进一步地,处理器1001可以调用存储器1005中存储的信息标准化处理程序,还执行以下操作:
检测所述目标保单字段值是否符合标准化格式要求;
若符合,则将所述标准保单字段与所述目标保单字段值进行关联保存,并输出;
若不符合,则对所述目标保单字段值进行标准化处理,得到标准保单字段值;
将所述标准保单字段与所述标准保单字段值进行关联保存,并输出,并输出。
进一步地,处理器1001可以调用存储器1005中存储的信息标准化处理程序,还执行以下操作:
检测所述目标保单字段值中是否存在预设冗余字符;
若存在预设冗余字符,则删除所述目标保单字段值中存在的预设冗余字符;和/或,
检测所述目标保单字段值中是否存在缩写字符;
若存在缩写字符,则将所述目标保单字段值中存在的缩写字符替换为对应的中文全称;和/或,
检测所述目标保单字段值是否符合输出格式;
若不符合输出格式,则对所述目标保单字段值进行格式转换;和/或,检测所述目标保单字段值是否存在最新表达方式;
若存在,则将所述目标保单字段值替换为所述最新表达方式。
基于上述硬件结构,提出本发明信息标准化处理方法的各实施例。
本发明提供一种信息标准化处理方法。
参照图2,图2为本发明信息标准化处理方法第一实施例的流程示意图。
在本实施例中,该信息标准化处理方法包括:
步骤S10,获取待识别保单图像,对所述待识别保单图像进行识别,得到初始保单信息,其中,所述初始保单信息包括识别字符及其位置信息;
本实施例的信息标准化处理方法是由信息标准化处理设备实现的,该设备以服务器为例进行说明。
在本实施例中,先获取待识别保单图像,对待识别保单图像进行识别,得到初始保单信息,其中,所述初始保单信息包括识别字符及位置信息,识别字符包括初始保单字段和初始保单字段值,位置信息即为识别字符在图像中的位置,可以以坐标的形式进行表征。在进行图像识别时,可采用OCR(Optical Character Recognition,光学字符识别)技术进行识别,具体的识别方法可参照现有技术,此处不作赘述。
步骤S20,根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段;
然后,根据预设非标准保单字段与标准保单字段之间的映射关系,从识别字符中匹配得到初始保单字段及其对应的标准保单字段。
其中,预设非标准保单字段与标准保单字段之间的映射关系的构建过程包括但不限于:1)先获取保单样本图像,对保单样本图像进行识别,得到目标保单字段信息;对目标保单字段信息进行统计分析,得到统计分析结果;根据统计分析结果构建预设非标准保单字段与标准保单字段之间的映射关系。2)先获取保单样本图像,对保单样本图像进行识别,得到目标保单字段信息;对目标保单字段信息进行统计分析,得到统计分析结果;获取预设标准保单字段和非标准保单字段的同义词;根据统计分析结果和同义词构建预设非标准保单字段与标准保单字段之间的映射关系;3)获取保单样本图像及其对应的第一产品类型和保险条款信息,对保单样本图像进行识别,得到保单样本字段信息;获取第一产品类型对应的第一目标保单字段,根据保险条款信息确定各第一产品类型对应的第一非标准保单字段及其第一标准保单字段;根据第一目标保单字段和第一标准保单字段得到第二标准保单字段,根据第一产品类型、第二标准保单字段对保单样本字段信息进行统计分析,得到统计分析结果;根据统计分析结果、第一非标准保单字段及其第一标准保单字段,构建预设非标准保单字段与标准保单字段之间的映射关系;其中,预设非标准保单字段与标准保单字段之间的映射关系包括各第一产品类型对应的非标准保单字段与标准保单字段子映射关系;4)获取保单样本图像及其对应的第一产品类型和保险条款信息,对保单样本图像进行识别,得到保单样本字段信息;获取第一产品类型对应的第一目标保单字段,根据保险条款信息确定各第一产品类型对应的第一非标准保单字段及其第一标准保单字段;根据第一目标保单字段和第一标准保单字段得到第二标准保单字段,根据第一产品类型、第二标准保单字段对保单样本字段信息进行统计分析,得到统计分析结果;获取第二标准保单字段和第二非标准保单字段的同义词;根据统计分析结果、同义词、第一非标准保单字段及其第一标准保单字段,构建预设非标准保单字段与标准保单字段之间的映射关系;其中,预设非标准保单字段与标准保单字段之间的映射关系包括各第一产品类型对应的非标准保单字段与标准保单字段子映射关系。
上述第1种构建方式是统计不同公司、不同类型保单的不同保单字段的表达,根据统计分析结果构建预设非标准保单字段与标准保单字段之间的映射关系。而第2种构建方式则是在统计不同公司、不同类型保单的不同保单字段的表达的基础上,结合预设标准保单字段和非标准保单字段的同义词,来构建预设非标准保单字段与标准保单字段之间的映射关系。而第3种和第4种构建方式对应在第1种和第2种构建方式的基础上,先根据保单对应的保险条款信息确定了不同产品类型的部分保单字段在保单中所对应的表述(即第一标准保单字段所对应的第一非标准保单字段),进而在统计时,再根据产品类型和剩余标准保单字段(即第一目标保单字段中除第一标准保单字段外的第二标准保单字段)对保单样本字段信息进行统计,对应的,在构建映射关系时,虽然也是基于产品类型进行构建的,但是各产品类型对应的映射关系的其中一部分是基于保险条款信息进行构建的,相比于上述第1种和第2种构建方式,可缩小匹配范围,提高识别效率,同时可提高匹配准确率率。第3种和第4种构建方式的执行过程可参照下述第二实施例,此次不作赘述。
在进行匹配时,可先将识别字符与预设映射关系中的非标准保单字段与标准保单字段均进行匹配,如果匹配相同,则将识别字符中匹配相同的字符记为初始保单字段,进而根据预设非标准保单字段与标准保单字段之间的映射关系确定初始保单字段对应的标准保单字段。
进一步地,当预设标准保单字段与标准保单字段之间的映射关系是结合保险条款信息构建得到的时,即,预设标准保单字段与标准保单字段之间的映射关系包括不同产品类型的非标准保单字段与标准保单字段之间的子映射关系,且,各子映射关系又分为由保险条款信息得到的第一非标准保单字段与第一标准保单字段的子映射关系和由保单样本字段信息统计得到的第二非标准保单字段与第二标准保单字段的子映射关系。此时,可先根据预设非标准保单字段与标准保单字段之间的映射关系,从识别字符中匹配得到产品字段及其对应的标准产品字段;然后,从预设非标准保单字段与标准保单字段之间的映射关系中确定得到标准产品字段对应的目标子映射关系。进而根据目标子映射关系,从识别字符中匹配得到剩余保单字段及其对应的标准剩余保单字段,其中,标准保单字段包括标准产品字段和标准剩余保单字段。具体的匹配过程可参照下述第三实施例。
步骤S30,获取所述标准保单字段对应的字段值特征,根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值。
最后,获取标准保单字段对应的字段值特征,其中,字段值特征即为标准保单字段所对应的值的特征,可以包括一种或多种。例如,对于标准保单字段“保单号”,其字段值特征为数字和字母的组合、字符通常在5位以上;再例如,对于标准保单字段“身份证号”,其字段值特征为字符数为18位。
进而,根据字段值特征、位置信息对除初始保单字段外的识别字符进行匹配,得到标准保单字段对应的目标保单字段值。
具体的,步骤“根据字段值特征、位置信息对除初始保单字段外的识别字符进行匹配,得到标准保单字段对应的目标保单字段值”包括:
步骤a31,将除所述初始保单字段外的识别字符记为初始保单字段值,从所述位置信息中获取所述初始保单字段的第一位置信息及所述初始保单字段值的第二位置信息;
步骤a32,根据所述第一位置信息和所述第二位置信息计算得到各初始保单字段与各初始保单字段值之间的相对距离;
步骤a33,根据所述相对距离和预设范围,从所述初始保单字段值中筛选出所述初始保单字段对应的疑似字段值;
步骤a34,根据所述字段值特征从所述疑似字段值中匹配得到所述标准保单字段对应的目标保单字段值。
在本实施例中,标准保单字段对应的目标保单字段值的匹配过程如下:
为便于说明,将除初始保单字段外的识别字符记为初始保单字段值,先从位置信息中获取初始保单字段的第一位置信息及初始保单字段值的第二位置信息。
然后,根据第一位置信息和第二位置信息计算得到各初始保单字段与各初始保单字段值之间的相对距离。其中,相对距离的计算方式可以包括但不限于:1)直接计算第一位置信息与第二位置信息之间的距离,例如,第一位置信息和第二位置信息以坐标形式进行表征时,某一初始保单字段的坐标为(x1,y1),某一初始保单字段值的坐标为(x2,y2),则其距离d=[(x2-x1)2+(y2-y1)2]1/2;2)根据距离和方向来确定相对距离,例如,可先计算第一位置信息与第二位置信息之间的距离,根据距离和预设距离与得分之间的映射关系确定距离评分;同时根据第一位置信息和第二位置信息确定初始保单字段值相对于初始保单字段的方向,进而根据方向和预设方向与得分之间的映射关系确定方向评分,对距离评分和方向评分进行加和,将其加和值作为相对距离。
进而,根据相对距离和预设范围,从初始保单字段值中筛选出初始保单字段对应的疑似字段值。即,将与初始保单字段的相对距离处于预设范围内的初始保单字段值作为疑似字段值,以缩小后续的匹配范围,提高匹配效率。
最后,根据字段值特征从疑似字段值中匹配得到标准保单字段对应的目标保单字段值。在进行匹配时,可从疑似字段值中筛选出与当前匹配的标准保单字段的字段值特征所对应的值,作为目标保单字段值。
需要说明的是,在匹配完成后,检测是否存在标准保单字段未匹配到目标保单字段值(记为未匹配标准保单字段),若存在,则根据未匹配标准保单字段的字段值特征对除所述目标保单字段值和所述标准保单字段外的识别字符进行匹配,以扩大匹配范围,进行进一步的匹配。
此外,由于不同标准保单字段的保单字段值可能是相同的,因此,在存在标准保单字段未匹配到目标保单字段值(记为未匹配标准保单字段),可以检测未匹配标准保单字段是否存在有同一保单字段值的标准保单字段,若存在,则直接获取其保单字段值即可。例如,某保险产品的“保险期间”字段值为“同主险”,则将保单中主险产品的保险期间字段值复制至该保险产品的保险期间中。
进一步地,在具体实施时,字段值特征还可以设置为字段值关联信息的特征,以先匹配到其关联信息,进而根据该关联信息再确定目标保单字段值。例如,对于标准保单字段“出生日期”,其字段值特征可以设为****年**月**日、4位、6位或8位字符,其中,月份对应字符需小于或等于12、日期对应字符需小于或等于31,还可以设为其关联信息身份证号,即18位字符,进而根据身份证号推算出其出生日期。
本发明实施例提供一种信息标准化处理方法,先获取待识别保单图像,对待识别保单图像进行识别,得到初始保单信息,其中,初始保单信息包括识别字符及其位置信息;然后,根据预设非标准保单字段与标准保单字段之间的映射关系,从识别字符中匹配得到初始保单字段及其对应的标准保单字段;进而获取标准保单字段对应的字段值特征,根据字段值特征、位置信息对除初始保单字段外的识别字符进行匹配,得到标准保单字段对应的目标保单字段值。本发明实施例中,通过先识别出保单图像中的所有字符及其位置信息,然后根据预设非标准保单字段与标准保单字段之间的映射关系匹配得到标准保单字段,进而根据标准保单字段的字段值特征、位置信息匹配得到标准保单字段对应的目标保单字段值,通过上述方式,无需为各种类型的保单设置对应的保单模板来进行识别,只需借助简单的图像识别技术即可实现所有类型保单的信息识别,因此,本发明实施例可解决现有的模板图像识别技术无法实现各类型保单的信息识别的技术问题,同时还可以节省模板设置造成的人力成本。
进一步的,基于上述第一实施例,提出本发明信息标准化处理方法的第二实施例。
在本实施例中,在上述步骤S20之前,该信息标准化处理方法还包括:
步骤A,获取保单样本图像及其对应的第一产品类型和保险条款信息,对所述保单样本图像进行识别,得到保单样本字段信息;
在本实施例中,获取保单样本图像及其对应的产品类型(为与后续的待识别保单图像的产品类型进行区分,将其记为第一产品类型)和保险条款信息,其中,保单样本图像可以是经过挑选的不同产品类型的保单图像,以用于统计不同公司、不同产品类型保单的不同保单字段的表达。保险条款信息是保单对应的保险条款部分的信息,是经过结构化处理得到的,可以包括条款标签及其标签值。
然后对保单样本图像进行识别,得到保单样本字段信息。其中,保单样本字段信息即为标准保单字段对应的保单样本图像中的保单字段。在进行图像识别时,可采用OCR技术进行识别,具体的识别方法可参照现有技术,此处不作赘述。
步骤B,获取所述第一产品类型对应的第一目标保单字段,根据所述保险条款信息确定各第一产品类型对应的第一非标准保单字段及其第一标准保单字段;
然后,获取第一产品类型对应的目标保单字段(为与后续的待识别保单图像的目标保单字段进行区分,将其记为第一目标保单字段),其中,第一目标保单字段是指各第一产品类型对应的保单中存在的保单字段,也是第一产品类型对应的保单所需解析得到的关键字段,以用于保单录入或用户查看。
同时,根据保险条款信息确定各第一产品类型对应的第一非标准保单字段及其第一标准保单字段。即,根据保险条款信息确定出在保险条款中已包括的标准保单字段及其表达,这是由于,保险条款中往往对一些标准保单字段规定了对应的表达,例如,在某些保险产品中,对于标准保单字段“缴费期间”,在保险条款中表达为“交费期间”,对应的,保单中一般也将使用“交费期间”,因此,基于保险条款中涉及的标准保单字段的表达辅助后续的匹配,可更快更准地匹配得到,提高信息标准化处理效率和准确率。
步骤C,根据所述第一目标保单字段和所述第一标准保单字段得到第二标准保单字段,根据所述第一产品类型、所述第二标准保单字段对所述保单样本字段信息进行统计分析,得到统计分析结果;
接着,根据第一目标保单字段和第一标准保单字段得到第二标准保单字段,其中,第二标准保单字段即为第一目标保单字段中除第一标准保单字段外的保单字段。
进而,根据第一产品类型、第二标准保单字段对保单样本字段信息进行统计分析,得到统计分析结果。在统计分析时,是根据保单样本字段信息对同一第一产品类型的第二标准保单字段所对应的保单字段进行统计,对应的,统计分析结果包括第二标准保单字段对应的非标准保单字段。
步骤D,根据所述统计分析结果、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系;其中,所述预设非标准保单字段与标准保单字段之间的映射关系包括各第一产品类型对应的非标准保单字段与标准保单字段子映射关系。
最后,根据统计分析结果、第一非标准保单字段及其第一标准保单字段构建预设非标准保单字段与标准保单字段之间的映射关系。非标准保单字段与标准保单字段之间可以是多对一、或一对一的形式。
其中,统计分析结果包括第二标准保单字段及其对应的第二非标准保单字段,在构建映射关系时,是针对不同的第一产品类型,基于其第一非标准保单字段及其第一标准保单字段构建的第一子映射关系,同时基于第二非标准保单字段及其第二标准保单字段构建的第二子映射关系,预设非标准保单字段与标准保单字段之间的映射关系由上述第一子映射关系和第二子映射关系构成。即,该映射关系中实际上包括多个子映射关系,各子映射关系即为不同产品类型的非标准保单字段与标准保单字段之间的映射关系,其中,各子映射关系中的标准保单字段即为各第一产品类型的第一目标保单字段。具体的,各子映射关系又分为由保险条款信息得到的第一非标准保单字段与第一标准保单字段的子映射关系和由保单样本字段信息统计得到的第二非标准保单字段与第二标准保单字段的子映射关系。
进一步地,所述统计分析结果包括第二标准保单字段及其对应的非标准保单字段,步骤C还可以包括:
步骤C1,获取所述第二标准保单字段和所述第二非标准保单字段的同义词;
步骤C2,根据所述统计分析结果、所述同义词、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系。
进一步地,为扩大匹配范围,提高匹配效率和匹配结果的准确性,还可以获取第二标准保单字段和第二非标准保单字段的同义词,进而根据统计分析结果和同义词构建预设非标准保单字段与标准保单字段之间的映射关系。即,将同义词加入至第二非标准保单字段中。
本实施例中,通过构建预设标准保单字段对应的非标准保单字段,可便于后续进行保单字段的匹配,实现保单字段的标准化输出。
进一步地,基于上述第一和第二实施例,提出本发明信息标准化处理方法的第三实施例。
在本实施例中,上述步骤S20包括:
步骤a21,根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到产品字段及其对应的标准产品字段;
在本实施例中,当预设标准保单字段与标准保单字段之间的映射关系是结合保险条款信息构建得到的时,即,预设标准保单字段与标准保单字段之间的映射关系包括不同产品类型的非标准保单字段与标准保单字段之间的子映射关系,且,各子映射关系又分为由保险条款信息得到的第一非标准保单字段与第一标准保单字段的子映射关系和由保单样本字段信息统计得到的第二非标准保单字段与第二标准保单字段的子映射关系。此时,可先根据预设非标准保单字段与标准保单字段之间的映射关系,从识别字符中匹配得到产品字段及其对应的标准产品字段。其中,产品字段,记为产品类型所对应的字段,可以通过匹配产品名称、产品类型或保单名称等目标字段得到,进而再确定其对应的标准产品字段,即标准化的产品类型名称。
步骤a22,从所述预设非标准保单字段与标准保单字段之间的映射关系中确定得到所述标准产品字段对应的目标子映射关系;
然后,从预设非标准保单字段与标准保单字段之间的映射关系中确定得到标准产品字段对应的目标子映射关系。即,确定出匹配得到的产品类型所对应的子映射关系,记为目标子映射关系。
步骤a23,根据所述目标子映射关系和基于保险条款信息得到的特定保单字段值特征,从所述识别字符中匹配得到剩余保单字段及其对应的标准剩余保单字段,其中,标准保单字段包括所述标准产品字段和所述标准剩余保单字段。
作为一种实施方式,可根据目标子映射关系,从识别字符中匹配得到剩余保单字段及其对应的标准剩余保单字段,其中,标准保单字段包括标准产品字段和标准剩余保单字段,标准剩余保单字段即为除标准产品字段外、保单中所包括的其他保单字段。
在进行匹配时,可先根据目标子映射关系中的由保险条款信息得到的第一非标准保单字段与第一标准保单字段的子映射关系,先确定得到一部分剩余保单字段及其标准剩余保单字段,进而再根据目标子映射关系中的由保单样本字段信息统计得到的第二非标准保单字段与第二标准保单字段的子映射关系,确定得到另一部分剩余保单字段及其标准剩余保单字段。
作为另一种实施方式,还可以结合基于保险条款信息得到的特定保单字段值特征进行字段识别。具体的,根据目标子映射关系和基于保险条款信息得到的特定保单字段值特征,从识别字符中匹配得到剩余保单字段及其对应的标准剩余保单字段,其中,标准保单字段包括标准产品字段和标准剩余保单字段。其中,基于保险条款信息得到的特定保单字段值特征即为根据保险条款信息分析得到的某些特定保单字段对应的字段值特征。在识别时,可优先根据特定保单字段值特征识别出对应字段的字段值,然后根据其位置信息在一定范围时识别得到对应的一部分剩余保单字段,进而根据目标子映射关系确定得到该部分剩余保单字段对应的剩余标准保单字段,进而再根据目标子映射关系设备剩下的剩余保单字段及其标准剩余保单字段,具体的识别过程可参照上一实施方式。
通过上述方式,可提高保单字段的匹配效率,还可以提高保单字段匹配的准确率。
进一步的,基于上述第一和第二实施例,提出本发明信息标准化处理方法的第四实施例。
在本实施例中,在上述步骤S30之后,所述信息标准化处理方法还包括:
步骤D,获取所述待识别保单图像的第二产品类型,根据所述第二产品类型确定所述待识别保单图像的第二目标保单字段;
在本实施例中,由于各类型的保单存在一些必须录入的字段信息,在识别过程中,可能存在匹配不到等遗漏的情况,因此,在识别得到标准保单字段及其对应的目标保单字段值之后,可获取待识别保单图像的产品类型(为与保单样本图像的产品类型进行区分,将其记为第二产品类型),根据第二产品类型确定待识别保单图像的目标保单字段(为与上述第一目标保单字段进行区分,将其记为第二目标保单字段)。
在获取第二产品类型时,其获取方式可以包括但不限于:1)从识别到的标准保单字段中获取产品类型或保单名称等目标字段,进而根据该目标字段来确定产品类型;2)根据用户触发的待识别保单图像的处理请求,获取用户输入的待识别保单图像的产品类型;3)生成对应的提示信息,提示用户输入产品类型,进而获取用户基于该提示信息输入的产品类型。
步骤E,检测所述标准保单字段是否包括所述第二目标保单字段;
然后,检测标准保单字段是否包括第二目标保单字段,其中,第二目标保单字段可以包括一个或多个,当包括多个时,则需检测标准保单字段中是否包括所有的第二目标保单字段。
步骤F,若否,则将所述待识别保单图像、所述标准保单字段、所述目标保单字段值和所述识别字符发送至工作端,以供所述工作端对所述预设非标准保单字段与标准保单字段之间的映射关系进行更新。
若标准保单字段中不包括第二目标保单字段,说明有些第二目标保单字段未根据预设映射关系匹配得到,预设映射关系存在遗漏,此时,则将待识别保单图像、标准保单字段、目标保单字段值和识别字符发送至工作端,以供工作端对预设非标准保单字段与标准保单字段之间的映射关系进行更新,进而后续可基于更新后的预设非标准保单字段与标准保单字段之间的映射关系进行保单字段的匹配识别,以提高后续保单字段识别结果的准确性。
进一步地,在具体实施时,若标准保单字段中不包括第二目标保单字段,说明有些第二目标保单字段未根据预设映射关系匹配得到,预设映射关系存在遗漏,此时,还可以先获取未包括的第二目标保单字段的字段值的特征,记为目标字段值特征(其中,该目标字段值特征可以是基于保单样本图像统计得到的,也可以是结合保险条款信息确定得到的),然后根据该目标字段值特征对除初始保单字段外的识别字符进行匹配,以确定是否存在目标字段值特征所对应的保单字段值,若匹配得到,则再进一步基于该保单字段值的位置信息确定未包括的第二目标保单字段。
进一步的,基于上述第一和第二实施例,提出本发明信息标准化处理方法的第五实施例。
在本实施例中,在上述步骤S30之后,所述信息标准化处理方法还包括:
步骤G,检测所述目标保单字段值是否符合标准化格式要求;
由于不同的保单,相同的保单字段可能会使用不同的值格式,而不同值格式不便于后续使用。因此,在本实施例中,会对目标保单字段值进行标准化处理,以实现目标保单字段值的标准化输出,便于保单信息的录入、后续使用和用户的查看。
具体的,先检测目标保单字段值是否符合标准化格式要求。可预先设置各标准保单字段的标准化格式要求,然后获取目标保单字段值对应的标准保单字段的标准化格式要求,进而判断目标保单字段值是否符合该标准化格式要求。
若符合,则执行步骤H1:将所述标准保单字段与所述目标保单字段值进行关联保存,并输出;
若目标保单字段值符合标准化格式要求,则将标准保单字段与目标保单字段值进行关联保存,并输出。
若不符合,则执行步骤H2:对所述目标保单字段值进行标准化处理,得到标准保单字段值;
步骤H3,将所述标准保单字段与所述标准保单字段值进行关联保存,并输出,并输出。
若目标保单字段值符合标准化格式要求,则对目标保单字段值进行标准化处理,得到标准保单字段值;然后,将标准保单字段与标准保单字段值进行关联保存,并输出,并输出。
需要说明的是,目标保单字段值可以包括一个或多个,当目标保单字段值存在不符合对应的标准化格式要求时,则需对不符合对应标准化格式要求的目标保单字段值进行标准化处理。
进一步地,步骤“对所述目标保单字段值进行标准化处理”包括:
步骤H21,检测所述目标保单字段值中是否存在预设冗余字符;
步骤H22,若存在预设冗余字符,则删除所述目标保单字段值中存在的预设冗余字符;和/或,
步骤H23,检测所述目标保单字段值中是否存在缩写字符;
步骤H24,若存在缩写字符,则将所述目标保单字段值中存在的缩写字符替换为对应的中文全称;和/或,
步骤H25,检测所述目标保单字段值是否符合输出格式;
步骤H26,若不符合输出格式,则对所述目标保单字段值进行格式转换;和/或,
步骤H27,检测所述目标保单字段值是否存在最新表达方式;
步骤H28,若存在,则将所述目标保单字段值替换为所述最新表达方式。
在本实施例中,目标保单字段值的标准化处理方法包括但不限于以下四种:
1)检测目标保单字段值中是否存在预设冗余字符,其中,预设冗余字符包括但不限于:“【】”、“《》”等,若存在预设冗余字符,则删除目标保单字段值中存在的预设冗余字符;
2)检测目标保单字段值中是否存在缩写字符,其中,缩写字符包括缩写词、名称简称等;若存在缩写字符,则将目标保单字段值中存在的缩写字符替换为对应的中文全称。具体的,也预先收集各种缩写字符及其全称,构建缩写字符与中文全称之间的映射关系,以便于进行匹配替换。例如,对于标准保单字段“产品名称”,其匹配到的目标保单字段值为“XX意外(733)”,可将其替换为其全称“XXX意外伤害保险(分红型)”。
3)检测目标保单字段值是否符合输出格式,具体的,可先获取目标保单字段值对应的标准保单字段的输出格式,进而判断目标保单字段值是否符合该输出格式;若不符合输出格式,则对目标保单字段值进行格式转换,在进行格式转换时,是基于输出格式进行转换的。例如,对于中文大写数字,统一转换为阿拉伯数字;日期统一转换为“XXXX年XX月XX日”的形式。此外,在进行格式转换前,可能还需要先进行逻辑运算,进而将计算后的数值再按输出格式进行输出。例如,保险期间值为“从XXXX年XX月XX日XX时到XXXX年XX月XX日止”时,则需要根据日期先计算出时间,再转换成“XX年”的格式。
4)检测目标保单字段值是否存在最新表达方式,若存在,则将目标保单字段值替换为最新表达方式。例如,对于保险公司名称,因股权变更,使得不同时期的保单使用不同的保险公司名称,因此,可将该保险公司名称这一字段对应的值替换为最新表达方式,即,替换成最新的保险公司名称。
可以理解,在对目标保单字段值进行标准化处理时,可采用上述一种或多种方式进行标准化处理,以实现目标保单字段值的标准化输出,便于保单信息的录入、后续使用和用户的查看。
本发明还提供一种信息标准化处理装置。
参照图3,图3为本发明信息标准化处理装置第一实施例的功能模块示意图。
如图3所示,所述信息标准化处理装置包括:
第一识别模块10,用于获取待识别保单图像,对所述待识别保单图像进行识别,得到初始保单信息,其中,所述初始保单信息包括识别字符及其位置信息;
第一处理模块20,用于根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段;
第二处理模块30,用于获取所述标准保单字段对应的字段值特征,根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值。
进一步地,所述第二处理模块30包括:
获取单元,用于将除所述初始保单字段外的识别字符记为初始保单字段值,从所述位置信息中获取所述初始保单字段的第一位置信息及所述初始保单字段值的第二位置信息;
计算单元,用于根据所述第一位置信息和所述第二位置信息计算得到各初始保单字段与各初始保单字段值之间的相对距离;
筛选单元,用于根据所述相对距离和预设范围,从所述初始保单字段值中筛选出所述初始保单字段对应的疑似字段值;
第一匹配单元,用于根据所述字段值特征从所述疑似字段值中匹配得到所述标准保单字段对应的目标保单字段值。
进一步地,所述信息标准化处理装置还包括:
第二识别模块,用于获取保单样本图像及其对应的第一产品类型和保险条款信息,对所述保单样本图像进行识别,得到保单样本字段信息;
获取模块,用于获取所述第一产品类型对应的第一目标保单字段,根据所述保险条款信息确定各第一产品类型对应的第一非标准保单字段及其第一标准保单字段;
统计分析模块,用于根据所述第一目标保单字段和所述第一标准保单字段得到第二标准保单字段,根据所述第一产品类型、所述第二标准保单字段对所述保单样本字段信息进行统计分析,得到统计分析结果;
映射构建模块,用于根据所述统计分析结果、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系;其中,所述预设非标准保单字段与标准保单字段之间的映射关系包括各第一产品类型对应的非标准保单字段与标准保单字段子映射关系。
进一步地,所述统计分析结果包括所述第二标准保单字段及其对应的第二非标准保单字段,所述映射构建模块包括:
获取单元,用于获取所述第二标准保单字段和所述第二非标准保单字段的同义词;
构建单元,用于根据所述统计分析结果、所述同义词、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系。
进一步地,所述第一处理模块20包括:
第二匹配单元,用于根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到产品字段及其对应的标准产品字段;
确定单元,用于从所述预设非标准保单字段与标准保单字段之间的映射关系中确定得到所述标准产品字段对应的目标子映射关系;
第三匹配单元,用于根据所述目标子映射关系和基于保险条款信息得到的特定保单字段值特征,从所述识别字符中匹配得到剩余保单字段及其对应的标准剩余保单字段,其中,标准保单字段包括所述标准产品字段和所述标准剩余保单字段。
进一步地,所述信息标准化处理装置还包括:
确定模块,用于获取所述待识别保单图像的第二产品类型,根据所述第二产品类型确定所述待识别保单图像的第二目标保单字段;
第一检测模块,用于检测所述标准保单字段是否包括所述第二目标保单字段;
发送模块,用于若否,则将所述待识别保单图像、所述标准保单字段、所述目标保单字段值和所述识别字符发送至工作端,以供所述工作端对所述预设非标准保单字段与标准保单字段之间的映射关系进行更新。
进一步地,所述信息标准化处理装置还包括:
第二检测模块,用于检测所述目标保单字段值是否符合标准化格式要求;
第一关联模块,用于若符合,则将所述标准保单字段与所述目标保单字段值进行关联保存,并输出;
第三处理模块,用于若不符合,则对所述目标保单字段值进行标准化处理,得到标准保单字段值;
第一关联模块,用于将所述标准保单字段与所述标准保单字段值进行关联保存,并输出,并输出。
进一步地,所述第三处理模块具体用于:
检测所述目标保单字段值中是否存在预设冗余字符;
若存在预设冗余字符,则删除所述目标保单字段值中存在的预设冗余字符;和/或,
检测所述目标保单字段值中是否存在缩写字符;
若存在缩写字符,则将所述目标保单字段值中存在的缩写字符替换为对应的中文全称;和/或,
检测所述目标保单字段值是否符合输出格式;
若不符合输出格式,则对所述目标保单字段值进行格式转换;和/或,检测所述目标保单字段值是否存在最新表达方式;
若存在,则将所述目标保单字段值替换为所述最新表达方式。
其中,上述信息标准化处理装置中各个模块的功能实现与上述信息标准化处理方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有信息标准化处理程序,所述信息标准化处理程序被处理器执行时实现如以上任一项实施例所述的信息标准化处理方法的步骤。
本发明计算机可读存储介质的具体实施例与上述信息标准化处理方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种信息标准化处理方法,其特征在于,所述信息标准化处理方法包括:
获取待识别保单图像,对所述待识别保单图像进行识别,得到初始保单信息,其中,所述初始保单信息包括识别字符及其位置信息;
根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段;
获取所述标准保单字段对应的字段值特征,根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值。
2.如权利要求1所述的信息标准化处理方法,其特征在于,所述根据所述字段值特征、所述位置信息对除所述初始保单字段外的识别字符进行匹配,得到所述标准保单字段对应的目标保单字段值的步骤包括:
将除所述初始保单字段外的识别字符记为初始保单字段值,从所述位置信息中获取所述初始保单字段的第一位置信息及所述初始保单字段值的第二位置信息;
根据所述第一位置信息和所述第二位置信息计算得到各初始保单字段与各初始保单字段值之间的相对距离;
根据所述相对距离和预设范围,从所述初始保单字段值中筛选出所述初始保单字段对应的疑似字段值;
根据所述字段值特征从所述疑似字段值中匹配得到所述标准保单字段对应的目标保单字段值。
3.如权利要求1所述的信息标准化处理方法,其特征在于,所述根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段的步骤之前,还包括:
获取保单样本图像及其对应的第一产品类型和保险条款信息,对所述保单样本图像进行识别,得到保单样本字段信息;
获取所述第一产品类型对应的第一目标保单字段,根据所述保险条款信息确定各第一产品类型对应的第一非标准保单字段及其第一标准保单字段;
根据所述第一目标保单字段和所述第一标准保单字段得到第二标准保单字段,根据所述第一产品类型、所述第二标准保单字段对所述保单样本字段信息进行统计分析,得到统计分析结果;
根据所述统计分析结果、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系;其中,所述预设非标准保单字段与标准保单字段之间的映射关系包括各第一产品类型对应的非标准保单字段与标准保单字段子映射关系。
4.如权利要求3所述的信息标准化处理方法,其特征在于,所述统计分析结果包括所述第二标准保单字段及其对应的第二非标准保单字段,所述根据所述统计分析结果、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系的步骤包括:
获取所述第二标准保单字段和所述第二非标准保单字段的同义词;
根据所述统计分析结果、所述同义词、所述第一非标准保单字段及其第一标准保单字段,构建所述预设非标准保单字段与标准保单字段之间的映射关系。
5.如权利要求3所述的信息标准化处理方法,其特征在于,所述根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到初始保单字段及其对应的标准保单字段的步骤包括:
根据预设非标准保单字段与标准保单字段之间的映射关系,从所述识别字符中匹配得到产品字段及其对应的标准产品字段;
从所述预设非标准保单字段与标准保单字段之间的映射关系中确定得到所述标准产品字段对应的目标子映射关系;
根据所述目标子映射关系和基于保险条款信息得到的特定保单字段值特征,从所述识别字符中匹配得到剩余保单字段及其对应的标准剩余保单字段,其中,标准保单字段包括所述标准产品字段和所述标准剩余保单字段。
6.如权利要求1至5中任一项所述的信息标准化处理方法,其特征在于,所述信息标准化处理方法还包括:
获取所述待识别保单图像的第二产品类型,根据所述第二产品类型确定所述待识别保单图像的第二目标保单字段;
检测所述标准保单字段是否包括所述第二目标保单字段;
若否,则将所述待识别保单图像、所述标准保单字段、所述目标保单字段值和所述识别字符发送至工作端,以供所述工作端对所述预设非标准保单字段与标准保单字段之间的映射关系进行更新。
7.如权利要求1至5中任一项所述的信息标准化处理方法,其特征在于,所述信息标准化处理方法还包括:
检测所述目标保单字段值是否符合标准化格式要求;
若符合,则将所述标准保单字段与所述目标保单字段值进行关联保存,并输出;
若不符合,则对所述目标保单字段值进行标准化处理,得到标准保单字段值;
将所述标准保单字段与所述标准保单字段值进行关联保存,并输出,并输出。
8.如权利要求7所述的信息标准化处理方法,其特征在于,所述对所述目标保单字段值进行标准化处理的步骤包括:
检测所述目标保单字段值中是否存在预设冗余字符;
若存在预设冗余字符,则删除所述目标保单字段值中存在的预设冗余字符;和/或,
检测所述目标保单字段值中是否存在缩写字符;
若存在缩写字符,则将所述目标保单字段值中存在的缩写字符替换为对应的中文全称;和/或,
检测所述目标保单字段值是否符合输出格式;
若不符合输出格式,则对所述目标保单字段值进行格式转换;和/或,
检测所述目标保单字段值是否存在最新表达方式;
若存在,则将所述目标保单字段值替换为所述最新表达方式。
9.一种信息标准化处理设备,其特征在于,所述信息标准化处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息标准化处理程序,所述信息标准化处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的信息标准化处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息标准化处理程序,所述信息标准化处理程序被处理器执行时实现如权利要求1至8中任一项所述的信息标准化处理方法的步骤。
CN202011100336.7A 2020-10-14 2020-10-14 信息标准化处理方法、设备及计算机可读存储介质 Pending CN112270222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011100336.7A CN112270222A (zh) 2020-10-14 2020-10-14 信息标准化处理方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011100336.7A CN112270222A (zh) 2020-10-14 2020-10-14 信息标准化处理方法、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112270222A true CN112270222A (zh) 2021-01-26

Family

ID=74337399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011100336.7A Pending CN112270222A (zh) 2020-10-14 2020-10-14 信息标准化处理方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112270222A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436025A (zh) * 2021-05-18 2021-09-24 臻顺溜科技股份有限公司 非标准保单的投保系统及投保方法
CN115100670A (zh) * 2022-07-21 2022-09-23 中国平安人寿保险股份有限公司 保单信息处理方法及其系统、电子设备、存储介质
CN115114465A (zh) * 2022-07-19 2022-09-27 重庆紫光华山智安科技有限公司 图像记录关联存储方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189769A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 数据标准化处理方法、装置、计算机设备和存储介质
CN111180065A (zh) * 2018-11-09 2020-05-19 天津幸福生命科技有限公司 保险用户评估方法、装置、电子设备及计算机可读介质
CN111259648A (zh) * 2020-01-19 2020-06-09 北京众信易保科技有限公司 基于多数据源的保单数据智能解析方法和系统
CN111611990A (zh) * 2020-05-22 2020-09-01 北京百度网讯科技有限公司 用于识别图像中表格的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189769A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 数据标准化处理方法、装置、计算机设备和存储介质
CN111180065A (zh) * 2018-11-09 2020-05-19 天津幸福生命科技有限公司 保险用户评估方法、装置、电子设备及计算机可读介质
CN111259648A (zh) * 2020-01-19 2020-06-09 北京众信易保科技有限公司 基于多数据源的保单数据智能解析方法和系统
CN111611990A (zh) * 2020-05-22 2020-09-01 北京百度网讯科技有限公司 用于识别图像中表格的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436025A (zh) * 2021-05-18 2021-09-24 臻顺溜科技股份有限公司 非标准保单的投保系统及投保方法
CN115114465A (zh) * 2022-07-19 2022-09-27 重庆紫光华山智安科技有限公司 图像记录关联存储方法、装置、设备及存储介质
CN115100670A (zh) * 2022-07-21 2022-09-23 中国平安人寿保险股份有限公司 保单信息处理方法及其系统、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN112270222A (zh) 信息标准化处理方法、设备及计算机可读存储介质
US9870352B2 (en) Creating a dashboard for tracking a workflow process involving handwritten forms
US20060268352A1 (en) Digitized document archiving system
US20090265385A1 (en) Insurance document imaging and processing system
US9372721B2 (en) System for processing data received from various data sources
US10635886B2 (en) Managing system, portable terminal device, managing method, information processing method, and program
CN111815421B (zh) 税务政策处理方法、装置、终端设备及存储介质
US9483220B2 (en) Image processing system, management system, image processing apparatus and method of proofreading document
CN111062791A (zh) 一种报销填单方法、装置和设备
AU2019204444A1 (en) System and method for enrichment of ocr-extracted data
US9372916B2 (en) Document template auto discovery
US11727701B2 (en) Techniques to determine document recognition errors
CN110599319B (zh) 自动审计方法、装置、终端及存储介质
US20170132462A1 (en) Document checking support apparatus, document checking support system, and non-transitory computer readable medium
EP3217282A1 (en) System for using login information and historical data to determine processing for data received from various data sources
CN109214362B (zh) 单据处理方法及相关设备
US8136120B2 (en) Methods and systems of reconciling sources of print job processing information in a print processing environment
WO2020122894A1 (en) Scanning devices with zonal ocr user interfaces
CN107861931B (zh) 模板文件处理方法、装置、计算机设备和存储介质
CN111208999A (zh) 基于模板的指令生成方法、装置、终端设备和存储介质
US20110295629A1 (en) Monitoring system, monitoring method, and computer readable medium
CN113850923B (zh) 考勤统计方法、装置、设备及计算机可读存储介质
CN113792570A (zh) 理赔数据处理方法、装置、电子设备及可读介质
CN113837170A (zh) 车辆保险理赔申请的自动审核处理方法、装置及设备
CN112434997A (zh) 日期生成装置、控制方法和非暂时性计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination