CN113360451A - 基于自适应进化算法的保单数字化方法 - Google Patents

基于自适应进化算法的保单数字化方法 Download PDF

Info

Publication number
CN113360451A
CN113360451A CN202110586429.3A CN202110586429A CN113360451A CN 113360451 A CN113360451 A CN 113360451A CN 202110586429 A CN202110586429 A CN 202110586429A CN 113360451 A CN113360451 A CN 113360451A
Authority
CN
China
Prior art keywords
field
turning
policy
field name
empty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110586429.3A
Other languages
English (en)
Other versions
CN113360451B (zh
Inventor
李闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Quanzhanggui Technology Co ltd
Original Assignee
Qingdao Quanshopkeeper Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Quanshopkeeper Technology Co ltd filed Critical Qingdao Quanshopkeeper Technology Co ltd
Priority to CN202110586429.3A priority Critical patent/CN113360451B/zh
Publication of CN113360451A publication Critical patent/CN113360451A/zh
Application granted granted Critical
Publication of CN113360451B publication Critical patent/CN113360451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Algebra (AREA)

Abstract

本发明提供基于自适应进化算法的保单数字化方法,用于解决当前保单数字化方法OCR识别准确度和结构化准确度都较低的问题。方法使用改进的OCR方法,在Faster R‑CNN算法上添加新的神经网络,共计新增8层全连接神经网络,节点数目分别为16、16、8、16、8、4、2、1,构建改进的OCR程序;结构化部分使用自适应进化算法,在通用进化算法基础上,在步骤(2)和步骤(4)之间添加了步骤(3)计算函数g,将每份保单都抽象化为一个函数;并且修改了通用进化算法的步骤(6)、步骤(7),以自动适配不同的保单格式。极大提升了保单数字化的准确率。

Description

基于自适应进化算法的保单数字化方法
技术领域
本发明属于保险业单据数字化优化领域,具体涉及基于自适应进化算法(adaptive evolutional algorithm,AEA)的保单数字化方法。
背景技术
保单数字化是指将纸质保单通过OCR技术转化为无结构纯文本,然后将 无结构纯文本结构化,转化为计算机可识别的格式,供保险业的其他业务流 程调用。着我国经济的快速发展,国民收入水平的大幅提高,民众的保单持 有量也在快速飙升,对保险业的数字化管理水平提出了更高的要求。截止到 2020年,我国各类保单共计16.7亿张,人均1.19张。其中,数字化保单不足 1.9亿张,绝大部分保单依旧是纸质保单,没有实现数字化,造成了客户在理 赔、核保、预核保等诸多环节的不变。截止到2021年3月,我国各类纸质保 单平均理赔时长为2.03月,客户理赔过程投诉率0.21%;各类数字化保单平 均理赔时长为0.84月,客户理赔过程投诉率0.09%。由此可见,保单数字化 是提升保险业整体服务水平的关键。
在保单数字化的研究过程中,国内外学者提出了诸多方法。如使用经典 神经网络Faster R-CNN对纸质保单做OCR处理,而后通过OCR中的框体对 无结构纯文本进行结构化。该方法在通用保单格式中OCR准确率70%,结构 化准确率40%,综合准确率可达35%。针对结构化准确率低的问题,有学者 针对单一格式的保单,使用进化算法处理结构化部分,将结构化准确率提升 到86%。该方法严重依赖保单格式,无法适配通用保单格式,无法工业化。
鉴于当前保单数字化方法OCR识别准确度和结构化准确度都较低的问题, 有必要提供一种新的保单数字化方法,以解决上述问题。
发明内容
本发明的目的是:针对背景技术描述的问题,本发明提供一种基于AEA 的保单数字化方法,用于解决当前保单数字化方法OCR识别准确度和结构化 准确度都较低的问题。
为了解决上述问题,本发明所采用的技术方案是:
基于自适应进化算法的保单数字化方法,其特征在于,包括如下步骤:
(1)构建改进的OCR程序
在Faster R-CNN算法上添加新的神经网络,共计新增8层全连接神经网 络,节点数目分别为16、16、8、16、8、4、2、1,构建改进的OCR程序, 将图片化的纸质文本提取成无结构化的纯文本格式,提取的纯文本格式分为 文本字段集合A和框体坐标集合B,所述集合A包含OCR程序识别出的所 有字段;
(2)生成随机分配方案
在得到文本字段集合A和框体坐标集合B之后,生成随机分配方案;
(3)计算函数g
建立保单格式库,存储不同格式的保单,保单格式通过函数g进行描述
g=r(T) (4)
其中,T是210×297的矩阵,r是线性代数中求解矩阵的秩;矩阵T的现 实含义为将A4纸横向划分210等份,纵向划分297等份,每个矩形上有文字 则为1,无文字则为0;
Figure BDA0003087645890000021
矩阵T中的任意一个元素ai,j只能取值0或者1;ai,j=1表示第i行第j个 矩形上面有文字,ai,j=0表示第i行第j个矩形上面没有文字;
(4)计算评价函数
本过程同标准简化算法一致,简述如下:
所述适应度函数的公式如下:
Figure BDA0003087645890000031
公式中,α1为基础率,是被分配在基础字段名的字段值数量与总字段值 数量的比值;α2为偏离度,是所有字段值中右侧坐标与字段名左侧坐标差值 的方差;α3为距离,是补充字段的左侧到字段值右侧的距离之和;
(5)选择
本过程同标准进化算法一致,依照评价函数做锦标赛选择;
(6)交叉
本过程与标准进化是算法存在极大不同,包括如下步骤:
步骤1:随机选择2个分配方案,命名为F1,F2
步骤2:取i=0;
步骤3:如果i小于297的长度,转步骤4,否则转步骤9。所述297是根 据矩阵T的尺寸210*297确定的,可以遍历每一行;
步骤4:按照公式(3)计算交叉概率J;
步骤5:生成一个随机数a;
步骤6:判断a是否大于J,为真转步骤7,否则转步骤8;
步骤7:将F1中的第i行和F2中的第i行互换;
步骤8:i=i+1,转步骤3;
步骤9:结束;
经过步骤1到步骤9,得到了一个交叉的结果,因为共有5000个分配方 案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方 案都至少有一次交叉的机会;
(7)变异
本过程与标准进化是算法存在极大不同,包括如下步骤:
步骤1:随机选择1个分配方案,命名为F;
步骤2:取i=0;
步骤3:如果i小于297的长度,转步骤4,否则转步骤9;所述297是根 据矩阵T的尺寸210*297确定的,可以遍历每一行;
步骤4:按照公式(3)计算变异概率B;
步骤5:生成一个随机数a;
步骤6:判断a是否大于B,为真转步骤7,否则转步骤8;
步骤7:随机选择F中的任意两行进行互换;
步骤8:i=i+1,转步骤3;
步骤9:结束;
经过步骤1到步骤9,得到了一个变异的结果,因为共有5000个分配方 案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方 案都至少有一次变异的机会;
(8)获取结果
将步骤(7)中的结果代入步骤(3),重新开始步骤(3)到步骤(7),每重复一 次步骤(3)到步骤(7),公式(4)的f值都会不断变大;当连续5次公式(4)的f值 都不再增加的时候,本次保单数字化完全结束,取其中f值最大的一个分配方 案作为最终结果;
(9)结束
完成一次保单数字化过程。
进一步的,步骤(2)生成随机分配方案,坐标就是集合B中的坐标,字 段为集合A中的字段,该流程包括步骤如下:
步骤1:获取字段值的个数Z1
步骤2:选择字段值中右侧坐标小于字段名左侧坐标部分,结果的集合用 表示,置i=1;
步骤3:判断C是否为空,如果C为空集,转步骤4,如果C为空集,步骤9;
步骤4:C为空集说明字段值无法匹配基础字段名,那么从补充字段名里寻 找字段名给字段值匹配,从补充字段名中找到字段值可用的字段,集合用R表 示;
步骤5:判断R是否为空,如果R为空集,转步骤6,如果R不为空集,转步 骤8;
步骤6:R为空集说明没有空闲出来的补充字段名,那么取消第i字段值, 转步骤14;
步骤7:R不为空集,尚未分配的字段名,存入集合R1表示,如R1为空集, 转步骤8,如果R1不为空集,转步骤9;
步骤8:R1为空集,那么从集合R中随机找到一个字段名作为字段值i匹配 的字段名,转步骤14;
步骤9:R1不为空集,那么从集合R1中随机找到一个字段名作为字段值i匹 配的字段名,转步骤14;
步骤10:C不为空集,说明字段值中右侧坐标小于字段名左侧坐标,可以 从基础字段名集合里寻找匹配的字段名,用集合用U表示,如果U为空集,转 步骤11,如果U不为空集,步骤14;
步骤11:U为空集说明分配字段值时,所有基础字段名都没有空闲出来, 那么计算字段值左侧与字段名右侧距离小于40个像素之内,有字段值空闲出 来的基础字段名,字段名集合用N表示,如果N为空集的话,转步骤12,如果 不为空集,转步骤13;
步骤12:N为空集,那么字段值i匹配的字段名只能从补充字段名里寻找, 与上述的补充字段名搜寻方法一样,转步骤14;
步骤13:N不为空集,那么从N里随机选取字段名给字段值匹配,转步骤 15,U不为空集说明字段值对应的基础字段名有空闲的,那么从集合R中随机 找到一个字段名作为字段值i匹配的字段名,转步骤14;
步骤14:判断i≤Z1是否成立,如果成立,转步骤15,如果不成立,转步 骤12;
步骤15:输出可行解,即随机分配方案。
本发明的第一个核心创新点是改进的OCR方法。所述改进的OCR方法 是指在Faster R-CNN算法上添加新的神经网络,使之更加贴合保险业的用词、 用字习惯,提升OCR准确率。
如图1所示,共计新增8层全连接神经网络,节点数目分别为16、16、8、 16、8、4、2、1。该神经网络基于当规模数据经验提出,可以极大提升保险 单据OCR的准确率。本发明使用神经网络通用开发框架TensorFlow2.3完成 了模型的添加
本发明的第二个核心创新点是保单格式库的编码方法与相似度计算方法。
现行的保单格式存储化方式根据保司-险种依照文本的形式进行存储,但 文本占用空间大,无法像数字一样进行计算。本文将每份保单都抽象化为一 个函数,极大降低了存储空间,提高计算速度。
本发明建立保单格式库,存储不同格式的保单。保单格式通过函数g进行 描述
g=r(T) (7)
其中,T是210×297的矩阵,r是线性代数中求解矩阵的秩的意思。矩阵T的 现实含义为将A4纸横向划分210等份,纵向划分297等份,每个矩形上有文 字则为1,无文字则为0
Figure BDA0003087645890000071
矩阵T中的任意一个元素ai,j只能取值0或者1。ai,j=1表示第i行第j个 矩形上面有文字,ai,j=0表示第i行第j个矩形上面没有文字。
本发明的第三个核心创新点是自适应进化算法。所述自适应进化算法是 针对通用保单结构化的问题,通过修改进化算法的交叉变异部分,使得交叉 变异函数随着保单格式的不同进行自适应修正的一种方法。
在进化算法中,交叉和变异的概率都是固定的,无法根据不同的保单自 适应交叉概率和变异概率,导致算法可能适配一种保单,但对于其他保单的 效果极差。本发明将交叉概率和变异概率都标示为函数g的函数,使之随着不 同的保单进行自适应,具体算法如下:
Figure BDA0003087645890000072
其中J是交叉概率,B是变异概率,n是当前数据库中保单格式的总数量。
由上述公式可知,无论是交叉概率还是变异概率,都会根据不同的保单 的格式g进行自适应,可以有效提高算法的适配能力,提高保单结构化的准确 度。
本发明实施例提供的上述技术方案的有益效果至少包括:鉴于当前保单 数字化方法OCR识别准确度和结构化准确度都较低的问题,本发明在Faster R-CNN算法上添加新的神经网络,使之更加贴合保险业的用词、用字习惯, 提升OCR准确率;针对通用保单结构化的问题,本发明修改进化算法的交叉 变异部分,使得交叉变异函数随着保单格式的不同进行自适应修正,提出了 自适应进化算法。取20万份保单进行试验,OCR准确率为89%,通过保单的 结构化准确率为91%,整体准确率89%,极大提升了保单数字化的准确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说 明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优 点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实 现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本 发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例公开的基于自适应进化算法的保单数字化方法的新 增8层全连接神经网络的示意图。
图2为本发明实施例公开的基于自适应进化算法的保单数字化方法的生 成随机分配方案的流程图。
图3为本发明实施例公开的基于自适应进化算法的保单数字化方法的交 叉步骤流程图。
图4为本发明实施例公开的基于自适应进化算法的保单数字化方法的变 异步骤流程图。
具体实施例
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供一种基于AEA的保单数字化方法,用于解决当前保单数字化 方法OCR识别准确度和结构化准确度都较低的问题。基于自适应进化算法的 保单数字化方法,包括两个部分:
第一部分为OCR部分,是将图片化的纸质文本提取成无结构化的纯文本 格式;其中OCR部分使用改进的OCR方法,在Faster R-CNN算法上添加新 的神经网络,共计新增8层全连接神经网络,节点数目分别为16、16、8、16、 8、4、2、1,构建改进的OCR程序;
第二部分为结构化部分,结构化部分是将OCR部分得到的纯文本格式结 构化,得到保单的最终数字化形式;结构化部分使用自适应进化算法,通用 进化算法包含步骤(2)随机生成分配方案、步骤(4)计算评价函数、步骤(5)选择、 步骤(6)交叉、步骤(7)变异、步骤(8)获取结果,本发明的自适应进化算法在通 用进化算法基础上,在步骤(2)和步骤(4)之间添加了步骤(3)计算函数g,将每 份保单都抽象化为一个函数;并且修改了通用进化算法的步骤(6)、步骤(7), 以自动适配不同的保单格式。
下面对本发明方法进行详细描述。本发明的第一个核心创新点是改进的 OCR方法。所述改进的OCR方法是指在Faster R-CNN算法上添加新的神经 网络,使之更加贴合保险业的用词、用字习惯,提升OCR准确率。
如图1所示,共计新增8层全连接神经网络,节点数目分别为16、16、8、 16、8、4、2、1。该神经网络基于当规模数据经验提出,可以极大提升保险 单据OCR的准确率。本发明使用神经网络通用开发框架TensorFlow2.3完成 了模型的添加,具体代码如下:
def creat_model():
model=Sequential()
model.add(CuDNNLSTM(16,return_sequences=True))
model.add(CuDNNLSTM(16,return_sequences=True))
model.add(CuDNNLSTM(8,return_sequences=True))
model.add(CuDNNLSTM(16,return_sequences=True))
model.add(CuDNNLSTM(16,return_sequences=True))
model.add(CuDNNLSTM(8,return_sequences=True))
model.add(CuDNNLSTM(4,return_sequences=True))
model.add(CuDNNLSTM(2,return_sequences=True))
model.add(Dense(1,activation='linear'))
return model
将上述代码放入到TensorFlow2.3环境下,既可以编译得到本发明的新型 OCR方法模型。
本发明的第二个核心创新点是保单格式库的编码方法与相似度计算方法。
现行的保单格式存储化方式根据保司-险种依照文本的形式进行存储,但 文本占用空间大,无法像数字一样进行计算。本文将每份保单都抽象化为一 个函数,极大降低了存储空间,提高计算速度。
本发明建立保单格式库,存储不同格式的保单。保单格式通过函数g进行 描述
g=r(T) (10)
其中,T是210×297的矩阵,r是线性代数中求解矩阵的秩的意思。矩阵 T的现实含义为将A4纸横向划分210等份,纵向划分297等份,每个矩形上 有文字则为1,无文字则为0
Figure BDA0003087645890000101
矩阵T中的任意一个元素ai,j只能取值0或者1。ai,j=1表示第i行第j个矩 形上面有文字,ai,j=0表示第i行第j个矩形上面没有文字。
本发明的第三个核心创新点是自适应进化算法。所述自适应进化算法是 针对通用保单结构化的问题,通过修改进化算法的交叉变异部分,使得交叉 变异函数随着保单格式的不同进行自适应修正的一种方法。
在进化算法中,交叉和变异的概率都是固定的,无法根据不同的保单自 适应交叉概率和变异概率,导致算法可能适配一种保单,但对于其他保单的 效果极差。本发明将交叉概率和变异概率都标示为函数g的函数,使之随着不 同的保单进行自适应,具体算法如下:
Figure BDA0003087645890000111
其中J是交叉概率,B是变异概率,n是当前数据库中保单格式的总数量。
由上述公式可知,无论是交叉概率还是变异概率,都会根据不同的保单 的格式g进行自适应,可以有效提高算法的适配能力,提高保单结构化的准确 度。
实施例1
以下具体实施例以康泰人寿2020年某团险保单为例。
保单数字化分为两个部分,第一部分为OCR部分,是指将图片化的纸质 文本提取成无结构化的纯文本格式。第二部分为结构化部分,结构化部分是 指将OCR部分得到的纯文本格式结构化,也就是得到保单的最终数字化形式。 其中OCR部分使用了本发明的改进的OCR方法,为上文所述的第一个创新 点;结构化部分使用了自适应进化算法,包含了上文所述的第二、第三核心 创新点。以下做详细阐述,其中步骤(1)属于第一部分,也就是OCR部分;步 骤(2)-步骤(9)是属于第二部分,也就是结构化部分。通用进化算法分为随机生 成分配方案(步骤(2))、计算评价函数(步骤(4))、选择(步骤(5))、交叉(步骤(6))、 变异(步骤(7))、获得结果(步骤(8))。本发明在步骤(2)和步骤(4)之间添加了步 骤(3)(计算函数g),将每份保单都抽象化为一个函数,极大降低了存储空间, 提高计算速度;本发明修改了通用简化算法的步骤(6)、步骤(7),有效提高了 算法的自适应性,可以自动适配不同的保单格式。
(1)构建改进的OCR程序
基于本文提出的改进的OCR方法,使用通用神经网络开发框架 TensorFlow2.3和流行开发语言Python完成OCR程序的开发。核心框架代码 为:
def creat_model():
model=Sequential()
model.add(CuDNNLSTM(16,return_sequences=True))
model.add(CuDNNLSTM(16,return_sequences=True))
model.add(CuDNNLSTM(8,return_sequences=True))
model.add(CuDNNLSTM(16,return_sequences=True))
model.add(CuDNNLSTM(16,return_sequences=True))
model.add(CuDNNLSTM(8,return_sequences=True))
model.add(CuDNNLSTM(4,return_sequences=True))
model.add(CuDNNLSTM(2,return_sequences=True))
model.add(Dense(1,activation='linear'))
return model
同通用OCR程序使用方式一致,使用本发明的改进的OCR程序,将图 片化的纸质文本提取成无结构化的纯文本格式。提取的纯文本格式分为文本 字段集合A和框体坐标集合B。所述集合A包含OCR程序识别出的是所有 字段。所述字段包含字段名和字段值,“姓名”、“性别”、“出生日期”等表示字 段名称的称之为字段名,与字段名相对应的“端木某某”、“男”、“2010-03-24” 称之为字段值。
因存在客户敏感信息,下表为部分范例:
Figure BDA0003087645890000121
Figure BDA0003087645890000131
表中,集合B的每一列为文字四个定点的坐标,比如[217,259],[238,274], [272,207],[248,252]四个顶点组成了一个矩形(称之为文字框体),文字“泰康 人寿2020年**团险保单”就在该文字框体之中。所述文字框体对于结构化处 理极为重要。
在得到文本字段集合A和框体坐标集合B之后,本发明使用ASE算法对 集合A、B进行结构化处理,使得每个字段名、字段值都正确匹配。
(2)随机分配方案
在得到文本字段集合A和框体坐标集合B之后,所述随机分配方案是进 化算法的第一步。该步骤是尽可能的去搜索不同结构化的方法,不要求正确, 仅仅要求丰富。比如结构化过程中,“姓名”匹配到了“男”,“性别”匹配到了“端 木某某”,在该步骤中都是允许存在的。字段名分为基础字段名和补充字段名。 所述基础字段名是用户的基本信息,比如年龄、性别、身份证号等用户自然 基础信息;所述补充字段名是用户的购买信息,比如主要保单和附加保单等补 充购买信息。
生成一个随机分配方案的流程图如图2所示;所述流程图中,所述坐标 就是集合B中的坐标,所述字段为集合A中的字段,该流程即为处理步骤(1) 中OCR结果的第一步,具体解释如下:
步骤1:获取字段值的个数Z1,在康泰人寿2020年某团险保单中,Z1=77。
步骤2:选择字段值中右侧坐标小于字段名左侧坐标部分,结果的集合用 表示。置i=1;
步骤3:判断C是否为空,如果C为空集,转步骤4,如果C为空集,步骤9;
步骤4:C为空集说明字段值无法匹配基础字段名,那么从补充字段名里寻 找字段名给字段值匹配,从补充字段名中找到字段值可用的字段,集合用R表 示;
步骤5:判断R是否为空,如果R为空集,转步骤6,如果R不为空集,转步 骤8;
步骤6:R为空集说明没有空闲出来的补充字段名,那么取消第i字段值, 转步骤14;
步骤7:R不为空集,尚未分配的字段名,存入集合R1表示,如R1为空集, 转步骤8,如果R1不为空集,转步骤9;
步骤8:R1为空集,那么从集合R中随机找到一个字段名作为字段值i匹配 的字段名,转步骤14;
步骤9:R1不为空集,那么从集合R1中随机找到一个字段名作为字段值i匹 配的字段名,转步骤14;
步骤10:C不为空集,说明字段值中右侧坐标小于字段名左侧坐标,可以 从基础字段名集合里寻找匹配的字段名,用集合用U表示,如果U为空集,转 步骤11,如果U不为空集,步骤14;
步骤11:U为空集说明分配字段值时,所有基础字段名都没有空闲出来, 那么计算字段值左侧与字段名右侧距离小于40个像素之内,有字段值空闲出 来的基础字段名,字段名集合用N表示,如果N为空集的话,转步骤12,如果 不为空集,转步骤13;
步骤12:N为空集,那么字段值i匹配的字段名只能从补充字段名里寻找了, 与上述的补充字段名搜寻方法是一样的,转步骤14;
步骤13:N不为空集,那么从N里随机选取字段名给字段值匹配,转步骤 15,U不为空集说明字段值对应的基础字段名有空闲的,那么从集合R中随机 找到一个字段名作为字段值i匹配的字段名,转步骤14;
步骤14:判断i≤Z1是否成立,如果成立,转步骤15,如果不成立,转步 骤12;
步骤15:输出可行解(随机分配方案)。
在进化算法中,为了得到更加丰富的随机分配方案,需要按照上述流程 图生成5000份随机分配方案。所述5000份随机分配方案为经验所得,5000 份随机分配方案可以得到较为丰富的方案和足够小的计算初始量,是实际生 产过程中精度和速度均衡之后的取值。
(3)计算函数g
本过程与标准进化是算法存在极大不同,为本发明原创。
函数g描述了保单的格式,建立保单格式库,存储不同格式的保单。
本过程将A4纸横向划分210等份,纵向划分297等份,构建公式(2)中的 矩阵T。矩阵T中的任意一个元素ai,j只能取值0或者1。ai,j=1表示第i行第j个 矩形上面有文字,ai,j=0表示第i行第j个矩形上面没有文字。
函数g计算方式见公式(1)。
(4)计算评价函数
本过程同标准简化算法一致,简述如下。
所述适应度函数的公式如下:
Figure BDA0003087645890000151
公式中,
α1为基础率,是被分配在基础字段名的字段值数量与总字段值数量的比 值;
α2为偏离度,是所有字段值中右侧坐标与字段名左侧坐标差值的方差;
α3为距离,是补充字段的左侧到字段值右侧的距离之和。
分配矩阵出现以下任一情况,适应度为-1:
Q1:字段值-字段名不匹配,指字段值的高度大于字段名的情形;
Q2:冲突,字段值重合;
(5)选择
本过程同标准进化算法一致,依照评价函数做锦标赛选择。
(6)交叉
本过程与标准进化是算法存在极大不同,为本发明原创。如图3所示。
步骤1:随机选择2个分配方案,命名为F1,F2
步骤2:取i=0;
步骤3:如果i小于297的长度,转步骤4,否则转步骤9。所述297是根 据矩阵T的尺寸210*297确定的,可以遍历每一行;
步骤4:按照公式(3)计算交叉概率J;
步骤5:生成一个随机数a;
步骤6:判断a是否大于J,为真转步骤7,否则转步骤8;
步骤7:将F1中的第i行和F2中的第i行互换;
步骤8:i=i+1,转步骤3。
步骤9:结束。
经过步骤1到步骤9,得到了一个交叉的结果,因为共有5000个分配方 案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方 案都至少有一次交叉的机会。
(7)变异
如图4所示,本过程与标准进化是算法存在极大不同,为本发明原创。
步骤1:随机选择1个分配方案,命名为F。
步骤2:取i=0;
步骤3:如果i小于297的长度,转步骤4,否则转步骤9。所述297是根 据矩阵T的尺寸210*297确定的,可以遍历每一行;
步骤4:按照公式(3)计算变异概率B;
步骤5:生成一个随机数a;
步骤6:判断a是否大于B,为真转步骤7,否则转步骤8;
步骤7:随机选择F中的任意两行进行互换;
步骤8:i=i+1,转步骤3。
步骤9:结束。
经过步骤1到步骤9,得到了一个交叉的结果,因为共有5000个分配方 案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方 案都至少有一次交叉的机会。
(8)获取结果
将步骤(7)中的结果代入步骤(3),重新开始步骤(3)到步骤(7)。每重复一次 步骤(3)到步骤(7),公式(4)的f值都会不断变大。当连续5次公式(4)的f值都不 在增加的时候,本次保单数字化完全结束。取其中f值最大的一个分配方案作 为最终结果。
(9)结束
完成一次保单数字化过程。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。 基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本 公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺 序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化 本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护 的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。 相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施 方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细 描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻 辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。 为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、 模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成 硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条 件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功 能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由 处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、 ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、 CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储 介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存 储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存 储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存 储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例 如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器 执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种 情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公 知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例 而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员 应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的 实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改 和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方 式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的 那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表 示“非排它性的或者”。

Claims (2)

1.基于自适应进化算法的保单数字化方法,其特征在于,包括如下步骤:
(1)构建改进的OCR程序
在Faster R-CNN算法上添加新的神经网络,共计新增8层全连接神经网络,节点数目分别为16、16、8、16、8、4、2、1,构建改进的OCR程序,将图片化的纸质文本提取成无结构化的纯文本格式,提取的纯文本格式分为文本字段集合A和框体坐标集合B,所述集合A包含OCR程序识别出的所有字段;
(2)生成随机分配方案
在得到文本字段集合A和框体坐标集合B之后,生成随机分配方案;
(3)计算函数g
建立保单格式库,存储不同格式的保单,保单格式通过函数g进行描述
g=r(T) (1)
其中,T是210×297的矩阵,r是线性代数中求解矩阵的秩;矩阵T的现实含义为将A4纸横向划分210等份,纵向划分297等份,每个矩形上有文字则为1,无文字则为0;
Figure FDA0003087645880000011
矩阵T中的任意一个元素ai,j只能取值0或者1;ai,j=1表示第i行第j个矩形上面有文字,ai,j=0表示第i行第j个矩形上面没有文字;
(4)计算评价函数
本过程同标准简化算法一致,简述如下:
所述适应度函数的公式如下:
Figure FDA0003087645880000021
公式中,α1为基础率,是被分配在基础字段名的字段值数量与总字段值数量的比值;α2为偏离度,是所有字段值中右侧坐标与字段名左侧坐标差值的方差;α3为距离,是补充字段的左侧到字段值右侧的距离之和;
(5)选择
本过程同标准进化算法一致,依照评价函数做锦标赛选择;
(6)交叉
本过程与标准进化是算法存在极大不同,包括如下步骤:
步骤1:随机选择2个分配方案,命名为F1,F2
步骤2:取i=0;
步骤3:如果i小于297的长度,转步骤4,否则转步骤9。所述297是根据矩阵T的尺寸210*297确定的,可以遍历每一行;
步骤4:按照公式(3)计算交叉概率J;
步骤5:生成一个随机数a;
步骤6:判断a是否大于J,为真转步骤7,否则转步骤8;
步骤7:将F1中的第i行和F2中的第i行互换;
步骤8:i=i+1,转步骤3;
步骤9:结束;
经过步骤1到步骤9,得到了一个交叉的结果,因为共有5000个分配方案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方案都至少有一次交叉的机会;
(7)变异
本过程与标准进化是算法存在极大不同,包括如下步骤:
步骤1:随机选择1个分配方案,命名为F;
步骤2:取i=0;
步骤3:如果i小于297的长度,转步骤4,否则转步骤9;所述297是根据矩阵T的尺寸210*297确定的,可以遍历每一行;
步骤4:按照公式(3)计算变异概率B;
步骤5:生成一个随机数a;
步骤6:判断a是否大于B,为真转步骤7,否则转步骤8;
步骤7:随机选择F中的任意两行进行互换;
步骤8:i=i+1,转步骤3;
步骤9:结束;
经过步骤1到步骤9,得到了一个变异的结果,因为共有5000个分配方案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方案都至少有一次变异的机会;
(8)获取结果
将步骤(7)中的结果代入步骤(3),重新开始步骤(3)到步骤(7),每重复一次步骤(3)到步骤(7),公式(4)的f值都会不断变大;当连续5次公式(4)的f值都不再增加的时候,本次保单数字化完全结束,取其中f值最大的一个分配方案作为最终结果;
(9)结束
完成一次保单数字化过程。
2.如权利要求1所述的基于自适应进化算法的保单数字化方法,其特征在于,步骤(2)生成随机分配方案,坐标就是集合B中的坐标,字段为集合A中的字段,该流程包括步骤如下:
步骤1:获取字段值的个数Z1
步骤2:选择字段值中右侧坐标小于字段名左侧坐标部分,结果的集合用C表示,置i=1;
步骤3:判断C是否为空,如果C为空集,转步骤4,如果C为空集,步骤9;
步骤4:C为空集说明字段值无法匹配基础字段名,那么从补充字段名里寻找字段名给字段值匹配,从补充字段名中找到字段值可用的字段,集合用R表示;
步骤5:判断R是否为空,如果R为空集,转步骤6,如果R不为空集,转步骤8;
步骤6:R为空集说明没有空闲出来的补充字段名,那么取消第i字段值,转步骤14;
步骤7:R不为空集,尚未分配的字段名,存入集合R1表示,如R1为空集,转步骤8,如果R1不为空集,转步骤9;
步骤8:R1为空集,那么从集合R中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;
步骤9:R1不为空集,那么从集合R1中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;
步骤10:C不为空集,说明字段值中右侧坐标小于字段名左侧坐标,可以从基础字段名集合里寻找匹配的字段名,用集合用U表示,如果U为空集,转步骤11,如果U不为空集,步骤14;
步骤11:U为空集说明分配字段值时,所有基础字段名都没有空闲出来,那么计算字段值左侧与字段名右侧距离小于40个像素之内,有字段值空闲出来的基础字段名,字段名集合用N表示,如果N为空集的话,转步骤12,如果不为空集,转步骤13;
步骤12:N为空集,那么字段值i匹配的字段名只能从补充字段名里寻找,与上述的补充字段名搜寻方法一样,转步骤14;
步骤13:N不为空集,那么从N里随机选取字段名给字段值匹配,转步骤15,U不为空集说明字段值对应的基础字段名有空闲的,那么从集合R中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;
步骤14:判断i≤Z1是否成立,如果成立,转步骤15,如果不成立,转步骤12;
步骤15:输出可行解,即随机分配方案。
CN202110586429.3A 2021-05-27 2021-05-27 基于自适应进化算法的保单数字化方法 Active CN113360451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110586429.3A CN113360451B (zh) 2021-05-27 2021-05-27 基于自适应进化算法的保单数字化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110586429.3A CN113360451B (zh) 2021-05-27 2021-05-27 基于自适应进化算法的保单数字化方法

Publications (2)

Publication Number Publication Date
CN113360451A true CN113360451A (zh) 2021-09-07
CN113360451B CN113360451B (zh) 2022-04-05

Family

ID=77527919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110586429.3A Active CN113360451B (zh) 2021-05-27 2021-05-27 基于自适应进化算法的保单数字化方法

Country Status (1)

Country Link
CN (1) CN113360451B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436585A (zh) * 2011-09-07 2012-05-02 常州蓝城信息科技有限公司 对提取图像隐式语义特征进行修正的方法
CN106971566A (zh) * 2017-05-04 2017-07-21 无锡安邦电气股份有限公司 基于遗传算法的自适应控制方法
CN109408807A (zh) * 2018-09-11 2019-03-01 厦门商集网络科技有限责任公司 Ocr识别正确率的自动化测试方法及测试设备
CN109918416A (zh) * 2019-02-28 2019-06-21 生活空间(沈阳)数据技术服务有限公司 一种单据录入的方法、装置及设备
CN110889772A (zh) * 2018-11-21 2020-03-17 腾讯科技(深圳)有限公司 保单处理方法、装置、计算机设备及存储介质
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436585A (zh) * 2011-09-07 2012-05-02 常州蓝城信息科技有限公司 对提取图像隐式语义特征进行修正的方法
CN106971566A (zh) * 2017-05-04 2017-07-21 无锡安邦电气股份有限公司 基于遗传算法的自适应控制方法
CN109408807A (zh) * 2018-09-11 2019-03-01 厦门商集网络科技有限责任公司 Ocr识别正确率的自动化测试方法及测试设备
CN110889772A (zh) * 2018-11-21 2020-03-17 腾讯科技(深圳)有限公司 保单处理方法、装置、计算机设备及存储介质
CN109918416A (zh) * 2019-02-28 2019-06-21 生活空间(沈阳)数据技术服务有限公司 一种单据录入的方法、装置及设备
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置

Also Published As

Publication number Publication date
CN113360451B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
US11288324B2 (en) Chart question answering
CN108920720A (zh) 基于深度哈希和gpu加速的大规模图像检索方法
US20100150453A1 (en) Determining near duplicate "noisy" data objects
CN113590784B (zh) 三元组信息抽取方法、装置、电子设备、及存储介质
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN112560484A (zh) 一种改进bert训练模型及一种命名实体识别方法、系统
CN115761753A (zh) 一种融合知识图谱的检索式知识前缀引导视觉问答方法
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN112948601A (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN115935914A (zh) 一种入院记录缺失文本补充方法
CN115422372A (zh) 一种基于软件测试的知识图谱构建方法和系统
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN118172785A (zh) 文档信息抽取方法、装置、设备、存储介质和程序产品
CN109388808B (zh) 一种用于建立单词翻译模型的训练数据采样方法
CN117892014A (zh) 一种具有隐式反馈机制的上下文感知的api推荐方法
CN113360451B (zh) 基于自适应进化算法的保单数字化方法
CN112632406A (zh) 查询方法、装置、电子设备及存储介质
CN112667732B (zh) 一种基于任务感知元学习的持续关系抽取方法
CN111259650A (zh) 基于类标序列生成式对抗模型的文本自动生成方法
CN113821618B (zh) 一种电子病历是否类细项提取方法与系统
CN115081439B (zh) 一种基于多特征自适应增强的化学药品分类方法及系统
CN117971990B (zh) 一种基于关系感知的实体关系提取方法
CN117350294B (zh) 一种基于法律文书结构特点的案由识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: No.187 Jinshui Road, Licang District, Qingdao City, Shandong Province 266000

Patentee after: Zhongmiao innovation technology (Qingdao) Co.,Ltd.

Address before: No.187 Jinshui Road, Licang District, Qingdao City, Shandong Province 266000

Patentee before: Qingdao quanshopkeeper Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: No.187 Jinshui Road, Licang District, Qingdao City, Shandong Province 266000

Patentee after: Qingdao Quanzhanggui Technology Co.,Ltd.

Address before: No.187 Jinshui Road, Licang District, Qingdao City, Shandong Province 266000

Patentee before: Zhongmiao innovation technology (Qingdao) Co.,Ltd.

CP01 Change in the name or title of a patent holder