CN117076455A - 一种基于智能识别的保单结构化存储方法、介质及系统 - Google Patents
一种基于智能识别的保单结构化存储方法、介质及系统 Download PDFInfo
- Publication number
- CN117076455A CN117076455A CN202311057340.3A CN202311057340A CN117076455A CN 117076455 A CN117076455 A CN 117076455A CN 202311057340 A CN202311057340 A CN 202311057340A CN 117076455 A CN117076455 A CN 117076455A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- policy
- strokes
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 8
- 238000007670 refining Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 11
- 238000012937 correction Methods 0.000 abstract description 8
- 230000014509 gene expression Effects 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000003708 edge detection Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于智能识别的保单结构化存储方法、介质及系统,属于保单结构化存储技术领域,该基于智能识别的保单结构化存储方法包括:S10、获取保单图像;S20、对保单图像进行预处理,得到第一图像;S30、对第一图像进行文字识别,得到文本集合;S40、根据预先设置好的合同表单数据库对得到的文本集合进行结构化处理,得到保单对象;S50、将保单对象采用键值对方式存储到数据库中。本方法、介质及系统实现了提高保单信息抽取的准确率、现保单内容的结构化表达、支持文本方向校正、不同人员笔迹字体的识别,能够解决目前OCR在保单识别系统中,存在的识别速度慢、精度低,结果匹配不准确等问题。
Description
技术领域
本发明属于保单结构化存储技术领域,具体而言,涉及一种基于智能识别的保单结构化存储方法、介质及系统。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备检查印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别系统将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。保单,即保险人与投保人签订保险合同的书面证明,必须明确、完整地记载有关保险双方的权利义务,主要包括保险人和被保险人的名称、保险标的、保险金额、保险费、保险期限、赔偿或给付的责任范围等。随着保险及保险IT系统信息化、智能化的不断提升,如何为用户存储、识别、分析保单信息并为用户推荐完善的保险内容,成为IT系统的标配。目前OCR在保单识别系统中,存在识别速度慢、精度低,结果匹配不准确等问题。
发明内容
有鉴于此,本发明提供一种基于智能识别的保单结构化存储方法、介质及系统能够解决目前OCR在保单识别系统中,存在的识别速度慢、精度低,结果匹配不准确等问题。
本发明是这样实现的:
本发明的第一方面提供一种基于智能识别的保单结构化存储方法,其中,包括如下步骤:
S10、获取保单图像;
S20、对保单图像进行预处理,得到第一图像;
S30、对第一图像进行文字识别,得到文本集合;
S40、根据预先设置好的合同表单数据库对得到的文本集合进行结构化处理,得到保单对象;
S50、将保单对象采用键值对方式存储到数据库中。
其中,根据预先设置好的合同表单数据库对得到的文本集合进行结构化处理,得到保单对象的步骤,具体包括:
在上述技术方案的基础上,本发明的一种基于智能识别的保单结构化存储方法还可以做如下改进:
其中,所述对保单图像进行预处理的步骤,具体包括:灰度处理、中值滤波以及二值化处理。
其中,所述对第一图像进行文字识别,得到文本集合的步骤,具体包括:
S31、对所述第一图像进行分割,得到多个分割图像,形成分割图形集;
S32、对分割图像集中的每个分割图像进行文本检测,得到每个分割图像对应的文本框,记为分割图像文本框;
S33、对每个分割图像文本框进行文本款方向检测,得到所述分割图像文本框的方向;
S34、根据检测方向的分割图像文本框进行文字识别,得到分割图像文本;
S35、将得到的分割图像文本按照分割图像的顺序组合为文本集合。
进一步的,所述根据检测方向的分割图像文本框进行文字识别,得到分割图像文本的步骤,具体包括:
步骤1、对所述分割图像文本框进行方向标注;
步骤2、将所有的分割图像文本框的方向调整为竖直向上;
步骤3、获取分割图像文本框内的全部文字图像,得到文字图像集;
步骤4、将文字图像集中每个文字拆分为包含有多个笔画的笔画集;
步骤5、对笔画集中的每一种类的笔画进行聚合,得到每一种笔画的代表性笔画;
步骤6、利用每一种笔画的代表性笔画在预设的多字体文字识别数据库中选择与所述每一种笔画的代表性笔画匹配度最高的字体对应的文字识别数据库作为目标文字识别数据库;
步骤7、利用所述目标文字识别数据库对预先训练好的文字识别模型进行微调,得到目标文字识别模型;
步骤8、利用目标文字识别模型对所述文字图像集进行识别,得到所述分割图像文本框内的全部文字作为分割图像文本。
其中,步骤1对所述分割图像文本框进行方向标注的步骤,具体是:
其中,步骤2将所有的分割图像文本框的方向调整为竖直向上的步骤,具体是:
其中,步骤3获取分割图像文本框内的全部文字图像,得到文字图像集的步骤,具体是:
所述多字体文字识别数据库具体是:
进一步的,所述将文字图像集中每个文字拆分为包含有多个笔画的笔画集的步骤,具体包括:
对每个文字图像利用细化算法进行细化,得到单像素宽度的笔画;
通过追踪单像素宽度笔画,获得文字图像对应的笔画集合。
进一步的,所述对笔画集中的每一种类的笔画进行聚合,得到每一种笔画的代表性笔画的步骤,具体包括:
定义笔画特征描述子,用于衡量笔画的形状、方向等信息;
对全部笔画集合进行K-Means聚类,得到的聚类中心作为代表性笔画。
进一步的,所述利用每一种笔画的代表性笔画在预设的多字体文字识别数据库中选择与所述每一种笔画的代表性笔画匹配度最高的字体对应的文字识别数据库作为目标文字识别数据库的步骤,具体包括:
构建多字体文字识别数据库,每个数据库包含一种特定字体的字符集及对应笔画拆分信息;
输入一张文本图像提取关键笔画,并得到每类笔画的代表性笔画;
对每个预设数据库计算代表性笔画与该字体代表性笔画的匹配度;
将各数据库的匹配度进行汇总统计,选择匹配度最高的数据库作为后续文字识别的目标数据库。
具体而言:
构建多字体文字识别数据库,每个数据库包含一种特定字体的字符集及对应笔画拆分信息,对每种字体,选取代表性字符,进行笔画拆分,得到该字体的代表性笔画集合;
输入一张文本图像,按前述步骤提取关键笔画,并得到每类笔画的代表性笔画;
对每个预设数据库计算代表性笔画与该字体代表性笔画的匹配度。匹配度计算方法可以采用Hausdorff距离等。
将各数据库的匹配度进行汇总统计,选择匹配度最高的数据库作为后续文字识别的目标数据库。
进一步的,所述利用所述目标文字识别数据库对预先训练好的文字识别模型进行微调,得到目标文字识别模型的步骤,具体包括:
加载预训练文字识别模型;
构建针对目标字体的训练数据集;
利用训练数据集微调预训练文字识别模型;
保存微调后的模型,用于后续保单文字识别。
本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行上述的一种基于智能识别的保单结构化存储方法。
本发明的第三方面提供一种基于智能识别的保单结构化存储系统,其中,包含上述的计算机可读存储介质。
本发明公开了一种基于智能识别的保单结构化存储方法。该方法通过智能图像处理与文本识别技术,实现对保单图像信息的准确抽取与结构化表示,将复杂的保单文本转换为结构化对象,采用键值对形式存储到数据库中,使保单信息易于检索、统计与复用,具有显著的技术效果与进步。
与当前常用的人工输入保单信息方法相比,本发明具有以下显著效果:
1.提高保单信息抽取的准确率
当前人工录入保单信息存在漏录、误录现象,直接影响后续运用保单数据的效果。本发明通过图像分割、文字识别、关键信息提取等技术手段,可自动化识别保单图像中的所有文本信息,准确率可达90%以上。尤其针对不同保单类型设计了不同的结构化模板,结合规则方法提取关键字段,可大幅提升信息抽取的准确性。
2.实现保单内容的结构化表达
本发明将自然语言保单文本转换为结构化的对象数据,以标准化的键值对形式存储各项保单信息。这极大地方便了对保单数据的检索与统计分析。用户可通过SQL语句快速查找所需数据,也可灵活地进行多维度分析,难以从非结构化文本中实现。
3.支持文本方向校正
保单图像中文本方向可能存在倾斜或水平排布的情况,直接对文本内容进行识别会带来很大困难。本发明经文本方向校正,可实现统一排列的文本框,有效提高后续识别算法的适应性。
4.不同人员笔迹字体的识别
由于每个人的笔迹不同,不同字体的笔画特征,直接应用统一的识别模型往往不能获得理想效果。本发明利用文本图像中笔画与标准字体库进行匹配的方案,可实现精确定位文本字体对应的识别模型,从而显著提高识别准确率。
综上所述,本发明具有图像识别、信息提取、结构化转换等创新点,可极大地提高保单处理的智能化程度,减少人工工作量,使保单数据更便于统计、分析、共享与管理。这对推动保险业务数字化转型具有重要意义。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于智能识别的保单结构化存储方法的流程图;
图2为对第一图像进行文字识别得到文本集合的步骤的流程图;
图3为DeeplabV3+模型图示。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
如图1所示,是本发明第一方面提供一种基于智能识别的保单结构化存储方法的流程图,本方法包括如下步骤:
S10、获取保单图像;
S20、对保单图像进行预处理,得到第一图像;
S30、对第一图像进行文字识别,得到文本集合;
S40、根据预先设置好的合同表单数据库对得到的文本集合进行结构化处理,得到保单对象;
S50、将保单对象采用键值对方式存储到数据库中。
其中,在步骤S10中,获取保单图像的方法包括手机拍摄、用户选择图片上传等。
步骤S20、对保单图像进行预处理,得到第一图像:
在对保单图像进行预处理前,首先需要对保单图像进行裁剪,去除无关内容,只保留保单主体内容。然后进行以下预处理:
1)图像灰度化:将RGB图像转换为灰度图像,可简化后续处理,降低计算复杂度。
2)中值滤波:用于消除图像噪声点,使图像平滑。
3)图像二值化:将灰度图像转化为黑白二值图像,便于后续识别。常用的二值化方法有Otsu法、适应性阈值法等。这里采用Otsu法。
由于对图像的灰度处理、中值滤波以及二值化处理属于十分常见的现有技术,因此,也可以不按照上面的公式,采用常规的处理方式进行处理即可。具体的实施方式可以参考百度百科中词条《图像预处理》或者参考书《图像处理、分析与机器视觉(第三版)》,清华大学出版社出版,艾海舟、苏延超等翻译。
在步骤S40中,由于保单均为格式合同,每个格式合同对应一个表单,可以在表单数据库中预设这个表单的键进行存储,根据得到的文本集合,直接采用文本匹配的方式得到表单的每个键对应的值,形成键值对,作为保单对象。
在极特殊的情况下(这种情况极少,因为保险公司的保单都已经正常使用多年,即使采用新的保单,也都是保险公司事先设定的,这里完全可以在设定保单的时候预设保单对应的表单的键),还可以考虑采用模板匹配和规则提取的方法得到保单对象,具体步骤为:
步骤41、构建合同表单知识库
首先收集不同类型的保单模板,对模板进行标注,获取表单结构信息,构建合同表单知识库。知识库存储保单类型与对应模板结构映射关系。模板结构采用层次化标记表示,示例如下:
保单类型A
|--保单号
|--投保人信息
|--姓名
|--证件号
|--保险公司
|--生效日期
步骤42、基于模板匹配提取结构信息
针对输入保单文本,首先判断保单类型,在知识库中查找对应的模板结构;然后,利用字符串匹配算法,根据模板结构逐项抽取文本片段,示例算法如下:
设文本集合为T=t1,t2,…,tn,模板结构为M=m1,m2,…,mk,进行以下匹配:
对每个模板项mi:
-构建匹配字符串集合Si,包含所有可能的匹配文本;
-对每个文本片段tj,计算与Si的匹配度:match(tj,Si);
-从T中选择与Si匹配度最高的文本片段,作为mi对应的抽取结果;
匹配度计算采用Jaccard相似度:
重复上述流程,直到模板M中的所有项都得到匹配,最终得到结构化结果。
步骤43、基于规则提取结构信息
利用正则表达式或语法规则,对文本进行结构化分析,示例规则:
保单号码规则:以字母“BH”开头,后跟10位数字;
如果文本中存在类似“BH123456789”的字符串,则可提取为保单号;
同时,定义一系列地址、日期、金额等的正则规则,根据规则从文本中提取结构化信息;
综合基于模板匹配和规则提取的方法,可准确识别保单结构,得到结构化的保单对象。
步骤S50的方法为常用方法,优选的数据库为Redis,Amazon DynamoDB,MicrosoftAzure Cosmos DB,Memcached等。
其中,在上述技术方案中,对保单图像进行预处理的步骤,具体包括:灰度处理、中值滤波以及二值化处理。
如图2所示,在上述技术方案中,对第一图像进行文字识别,得到文本集合的步骤,具体包括:
S31、对第一图像进行分割,得到多个分割图像,形成分割图形集;
S32、对分割图像集中的每个分割图像进行文本检测,得到每个分割图像对应的文本框,记为分割图像文本框;
S33、对每个分割图像文本框进行文本款方向检测,得到分割图像文本框的方向;
S34、根据检测方向的分割图像文本框进行文字识别,得到分割图像文本;
S35、将得到的分割图像文本按照分割图像的顺序组合为文本集合。
步骤S31、对第一图像进行分割,得到多个分割图像,形成分割图形集:
1)倾斜校正
由于拍摄角度等原因,输入图像可能存在一定倾斜。为提高分割效果,首先需进行倾斜校正。
使用Hough变换检测图像主要直线方向,计算倾斜角θ。
2)分割线检测
使用概率汉字斯坦模型(PSM)检测图像中的分割线。
3)图像切割
以检测到的分割线为界,将图像水平切割为多个子图像。再基于连通域分析垂直切割。最终得到分割图像集{I1,I2,…,In}。
步骤S32、对分割图像集中的每个分割图像进行文本检测,得到每个分割图像对应的文本框,记为分割图像文本框:
1)预处理
-灰度化,二值化
-消除干扰线
-垂直、水平投影,确定文本框边界
2)文本框检测
扫描图像,将连接的像素点构成一个连接组件,输出所有联通组件的外接矩形,即检测到的文本框。
3)MSN文本检测
文本检测法借鉴了MSER算法的思想,将图像中的极端稳定区域作为文本区域。
其中,假设文本框内像素点集合为R={r1,r2,…,rn},极端稳定区域判定准则为:
其中,Δ(ri)表示以ri为参考点,改变阈值导致R发生改变的范围,Ty为阈值,一般取值为85%。满足上式的R即为MSER,其外接矩形为检测文本框。
综合上述方法,检测每个分割图像的文本框。
步骤S33、对每个分割图像文本框进行文本框方向检测,得到分割图像文本框的方向:
1)边缘检测
使用Sobel算子对文本框进行边缘检测,得到边缘图像。
2)计算边缘方向直方图
3)方向确定
选择直方图个数最多的方向作为文本方向σ。
步骤S34、根据检测方向的分割图像文本框进行文字识别,得到分割图像文本:
1)角度校正
使用之前得到的文本方向σ,进行图像旋转校正,得到角度校正后的图像。
2)文字识别
采用基于CNN-LSTM-CTC的识别模型,具体步骤:
(1)利用CNN提取文本图像特征,得到特征序列F=(f1,f2,…,fn);
(2)利用LSTM对特征序列进行预测,得到概率矩阵P=(p1,p2,…,pm);
(3)执行CTC Loss优化,获得最可能的输出文本label=(l1,l2,…,lk);
其中,CTC Loss函数为:
LCTC=-log(p(label|F));
通过模型训练,可完成对分割图像文本的识别,得到文本结果。
步骤S35、将得到的分割图像文本按照分割图像的顺序组合为文本集合。
直接将分割图像文本顺序拼接,得到完整的保单文本集合,完成文字识别过程。
可选的,在上述图像分割,每个用户有各自的拍照习惯,服务器接收到的保单图片是不规则的。通过对训练保单样本的标注,训练得到基于DeeplabV3+的保单实例分割模型。本图像分割步骤进一步包括:
步骤31.1、通过检索保单关键词,收集百度图片中的保单强相关的图片;叠加系统中已有的保单数据,合成训练数据集,人工标注保单实例分割数据集。
步骤31.2、构建基于DeeplabV3+的实例分割模型,将步骤31.1获取的数据集,按训练集、验证集9:1的比例,放入DeeplabV3+模型中训练,得到保单的实例分割模型。
步骤31.3、将经过步骤31.2模型处理得到的推理结果,经过Opencv的minAreaRect方法得到预测结果的最小外接矩形,并对其做仿射变换,得到校正后的保单图像。
其中,图3是DeeplabV3+模型图示,图片经过编码(Encoder)和解码(Decoder)的深度学习网络,完成保单的实例分割,其中,DCNN表示提取图片特征的主干网络,FP表示特征图,Concat表示特征融合,Upsample表示上采样,Prediction表示预测图
可选的,针对步骤S32,目前文字检测算法可以大致分为基于回归的方法和分割的方法。本专利基于分割的方法,通过构建深度神经网络模型,输出图片的文本分割结果(概率图,每个像素为是否是正样本的概率)和阈值结果(阈值图,用于判定前景和背景),结合概率图和阈值图,转换成检测结果。文本检测分为以下步骤:
步骤S32.1、标注ocr训练数据集。将31.1中的训练数据进行文本框的标注,得到文本检测训练集和文本识别训练集。
步骤S32.2、生成概率图。通过特征图金字塔网络FPN(Feature PyramidNetworks)网络结构得到1/4的特征图F,通过F得到Probability map(P,概率图)和Threshold map(T,阈值图),通过P、T得到Binary map(B,二值化图)。在训练期间对P、T、B进行监督训练,P和B是用的相同的监督信号(label)。
步骤S32.3、生成文本框。使用固定阈值0.2将P做二值化得到B;由B得到收缩文字区域;将收缩文字区域按Vatti clipping算法的偏移系数D'进行扩张得到最终文本框。Vatti clipping算法是很多几何图形库的底层实现原理,比如clipper2就是基于Vatticlipping算法来实现的。
可选的,下面是步骤S34的另一种实施方式。
进一步的,在上述技术方案中,根据检测方向的分割图像文本框进行文字识别,得到分割图像文本的步骤,具体包括:
步骤1、对分割图像文本框进行方向标注;
步骤2、将所有的分割图像文本框的方向调整为竖直向上;
步骤3、获取分割图像文本框内的全部文字图像,得到文字图像集;
步骤4、将文字图像集中每个文字拆分为包含有多个笔画的笔画集;
步骤5、对笔画集中的每一种类的笔画进行聚合,得到每一种笔画的代表性笔画;
步骤6、利用每一种笔画的代表性笔画在预设的多字体文字识别数据库中选择与每一种笔画的代表性笔画匹配度最高的字体对应的文字识别数据库作为目标文字识别数据库;
步骤7、利用目标文字识别数据库对预先训练好的文字识别模型进行微调,得到目标文字识别模型;
步骤8、利用目标文字识别模型对文字图像集进行识别,得到分割图像文本框内的全部文字作为分割图像文本。
上面的步骤中,步骤1-2为常规操作,不做详细解释;
步骤3、获取分割图像文本框内的全部文字图像,得到文字图像集的具体步骤包括:
1)进行图像二值化,得到黑白图像。
2)通过搜索文字连接成分,提取所有文字图像。搜索方法有:
-DFS(Depth First Search):基于深度优先搜索提取文字连接区域;
-Contour Tracing:基于轮廓追踪提取文字区域;
3)修剪文字图像,去除周围空白边界;
4)将提取的文字图像组合,得到文字图像集{I1,I2,…,In};
步骤4、将文字图像集中每个文字拆分为包含有多个笔画的笔画集的具体步骤包括:
1)对每个文字图像利用细化算法进行细化,得到单像素宽度的笔画;
2)通过追踪单像素宽度笔画,获得文字图像对应的笔画集合。
进一步的,在上述技术方案中,将文字图像集中每个文字拆分为包含有多个笔画的笔画集的步骤,具体包括:
对每个文字图像利用细化算法进行细化,得到单像素宽度的笔画;
通过追踪单像素宽度笔画,获得文字图像对应的笔画集合。
这里的细化算法可以采用逐层剥离细化或者基于距离变换的细化方法。
进一步的,在上述技术方案中,对笔画集中的每一种类的笔画进行聚合,得到每一种笔画的代表性笔画的步骤,具体包括:
定义笔画特征描述子,用于衡量笔画的形状、方向等信息;
对全部笔画集合进行K-Means聚类,得到的聚类中心作为代表性笔画。
也就是说,步骤5的具体实施方式为:
1)定义笔画特征描述子,用于衡量笔画的形状、方向等信息;
例如,基于距离的特征描述子:选择笔画中的n个关键点,计算相邻关键点之间的欧几里得距离,组成特征向量。
2)对全部笔画集合进行K-Means聚类:目标是将多个笔画分割为多个类,使得聚类内方差最小。
进一步的,在上述技术方案中,利用每一种笔画的代表性笔画在预设的多字体文字识别数据库中选择与每一种笔画的代表性笔画匹配度最高的字体对应的文字识别数据库作为目标文字识别数据库的步骤,具体包括:
构建多字体文字识别数据库,每个数据库包含一种特定字体的字符集及对应笔画拆分信息;
输入一张文本图像提取关键笔画,并得到每类笔画的代表性笔画;
对每个预设数据库计算代表性笔画与该字体代表性笔画的匹配度;
将各数据库的匹配度进行汇总统计,选择匹配度最高的数据库作为后续文字识别的目标数据库。
进一步的,在上述技术方案中,利用目标文字识别数据库对预先训练好的文字识别模型进行微调,得到目标文字识别模型的步骤,具体包括:
加载预训练文字识别模型;
构建针对目标字体的训练数据集;
利用训练数据集微调预训练文字识别模型;
保存微调后的模型,用于后续保单文字识别。
步骤7的具体实施方式如下:
1)加载预训练文字识别模型,可以采用CNN+RNN+CTC架构。
2)构建针对目标字体的训练数据集:
-对每个目标字体字符,提取其笔画信息,包括笔顺、笔画分类等。
-将目标字体笔画映射为保单图像中的笔画结构和顺序。这里可参考步骤4中的笔画提取方法。
-生成用于训练的字符图像。
3)微调模型:
-设置较小的学习率,固定CNN特征提取层参数。
-输入映射后的笔画图像,输出目标字体标签。
-通过迭代训练,微调RNN和CTC层,获得针对目标字体的文字识别模型。
4)保存微调后的模型,用于后续保单文字识别。
本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行上述的一种基于智能识别的保单结构化存储方法。
本发明的第三方面提供一种基于智能识别的保单结构化存储系统,其中,包含上述的计算机可读存储介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于智能识别的保单结构化存储方法,其特征在于,包括如下步骤:
S10、获取保单图像;
S20、对保单图像进行预处理,得到第一图像;
S30、对第一图像进行文字识别,得到文本集合;
S40、根据预先设置好的合同表单数据库对得到的文本集合进行结构化处理,得到保单对象;
S50、将保单对象采用键值对方式存储到数据库中。
2.根据权利要求1所述的一种基于智能识别的保单结构化存储方法,其特征在于,所述对保单图像进行预处理的步骤,具体包括:灰度处理、中值滤波以及二值化处理。
3.根据权利要求1所述的一种基于智能识别的保单结构化存储方法,其特征在于,所述对第一图像进行文字识别,得到文本集合的步骤,具体包括:
S31、对所述第一图像进行分割,得到多个分割图像,形成分割图形集;
S32、对分割图像集中的每个分割图像进行文本检测,得到每个分割图像对应的文本框,记为分割图像文本框;
S33、对每个分割图像文本框进行文本款方向检测,得到所述分割图像文本框的方向;
S34、根据检测方向的分割图像文本框进行文字识别,得到分割图像文本;
S35、将得到的分割图像文本按照分割图像的顺序组合为文本集合。
4.根据权利要求3所述的一种基于智能识别的保单结构化存储方法,其特征在于,所述根据检测方向的分割图像文本框进行文字识别,得到分割图像文本的步骤,具体包括:
步骤1、对所述分割图像文本框进行方向标注;
步骤2、将所有的分割图像文本框的方向调整为竖直向上;
步骤3、获取分割图像文本框内的全部文字图像,得到文字图像集;
步骤4、将文字图像集中每个文字拆分为包含有多个笔画的笔画集;
步骤5、对笔画集中的每一种类的笔画进行聚合,得到每一种笔画的代表性笔画;
步骤6、利用每一种笔画的代表性笔画在预设的多字体文字识别数据库中选择与所述每一种笔画的代表性笔画匹配度最高的字体对应的文字识别数据库作为目标文字识别数据库;
步骤7、利用所述目标文字识别数据库对预先训练好的文字识别模型进行微调,得到目标文字识别模型;
步骤8、利用目标文字识别模型对所述文字图像集进行识别,得到所述分割图像文本框内的全部文字作为分割图像文本。
5.根据权利要求4所述的一种基于智能识别的保单结构化存储方法,其特征在于,所述将文字图像集中每个文字拆分为包含有多个笔画的笔画集的步骤,具体包括:
对每个文字图像利用细化算法进行细化,得到单像素宽度的笔画;
通过追踪单像素宽度笔画,获得文字图像对应的笔画集合。
6.根据权利要求4所述的一种基于智能识别的保单结构化存储方法,其特征在于,所述对笔画集中的每一种类的笔画进行聚合,得到每一种笔画的代表性笔画的步骤,具体包括:
定义笔画特征描述子,用于衡量笔画的形状、方向等信息;
对全部笔画集合进行K-Means聚类,得到的聚类中心作为代表性笔画。
7.根据权利要求4所述的一种基于智能识别的保单结构化存储方法,其特征在于,所述利用每一种笔画的代表性笔画在预设的多字体文字识别数据库中选择与所述每一种笔画的代表性笔画匹配度最高的字体对应的文字识别数据库作为目标文字识别数据库的步骤,具体包括:
构建多字体文字识别数据库,每个数据库包含一种特定字体的字符集及对应笔画拆分信息;
输入一张文本图像提取关键笔画,并得到每类笔画的代表性笔画;
对每个预设数据库计算代表性笔画与该字体代表性笔画的匹配度;
将各数据库的匹配度进行汇总统计,选择匹配度最高的数据库作为后续文字识别的目标数据库。
8.根据权利要求4所述的一种基于智能识别的保单结构化存储方法,其特征在于,所述利用所述目标文字识别数据库对预先训练好的文字识别模型进行微调,得到目标文字识别模型的步骤,具体包括:
加载预训练文字识别模型;
构建针对目标字体的训练数据集;
利用训练数据集微调预训练文字识别模型;
保存微调后的模型,用于后续保单文字识别。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行权利要求1-8任一项所述的一种基于智能识别的保单结构化存储方法。
10.一种基于智能识别的保单结构化存储系统,其特征在于,包含权利要求9所述的计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311057340.3A CN117076455A (zh) | 2023-08-22 | 2023-08-22 | 一种基于智能识别的保单结构化存储方法、介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311057340.3A CN117076455A (zh) | 2023-08-22 | 2023-08-22 | 一种基于智能识别的保单结构化存储方法、介质及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076455A true CN117076455A (zh) | 2023-11-17 |
Family
ID=88711190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311057340.3A Pending CN117076455A (zh) | 2023-08-22 | 2023-08-22 | 一种基于智能识别的保单结构化存储方法、介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076455A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542067A (zh) * | 2023-12-18 | 2024-02-09 | 北京长河数智科技有限责任公司 | 一种基于视觉识别的区域标注表单识别方法 |
-
2023
- 2023-08-22 CN CN202311057340.3A patent/CN117076455A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542067A (zh) * | 2023-12-18 | 2024-02-09 | 北京长河数智科技有限责任公司 | 一种基于视觉识别的区域标注表单识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853638B2 (en) | System and method for extracting structured information from image documents | |
Bhunia et al. | Text recognition in scene image and video frame using color channel selection | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
US11790675B2 (en) | Recognition of handwritten text via neural networks | |
Wei et al. | A keyword retrieval system for historical Mongolian document images | |
CN112862024B (zh) | 一种文本识别方法及系统 | |
CN112052852A (zh) | 一种基于深度学习的手写气象档案资料的字符识别方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
Van Phan et al. | A nom historical document recognition system for digital archiving | |
Khedher et al. | Automatic processing of Historical Arabic Documents: a comprehensive survey | |
CN117076455A (zh) | 一种基于智能识别的保单结构化存储方法、介质及系统 | |
Malakar et al. | An image database of handwritten Bangla words with automatic benchmarking facilities for character segmentation algorithms | |
Inkeaw et al. | Recognition-based character segmentation for multi-level writing style | |
Lehenmeier et al. | Layout detection and table recognition–recent challenges in digitizing historical documents and handwritten tabular data | |
Devi et al. | Pattern matching model for recognition of stone inscription characters | |
Kumari et al. | A review of deep learning techniques in document image word spotting | |
Mohammad et al. | Contour-based character segmentation for printed Arabic text with diacritics | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
Al Hamad et al. | Improved linear density technique for segmentation in Arabic handwritten text recognition | |
CN115203408A (zh) | 一种多模态试验数据智能标注方法 | |
Kataria et al. | CNN-bidirectional LSTM based optical character recognition of Sanskrit manuscripts: A comprehensive systematic literature review | |
Vijayalakshmi et al. | A review on character recognition and information retrieval from ancient inscriptions | |
US11335108B2 (en) | System and method to recognise characters from an image | |
Wilkinson et al. | Neural word search in historical manuscript collections | |
Saxena et al. | Text extraction systems for printed images: a review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |