CN106557747B - 识别保险单号码的方法及装置 - Google Patents
识别保险单号码的方法及装置 Download PDFInfo
- Publication number
- CN106557747B CN106557747B CN201611005112.1A CN201611005112A CN106557747B CN 106557747 B CN106557747 B CN 106557747B CN 201611005112 A CN201611005112 A CN 201611005112A CN 106557747 B CN106557747 B CN 106557747B
- Authority
- CN
- China
- Prior art keywords
- insurance
- single numbers
- identification
- picture
- samples pictures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/23—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及一种识别保险单号码的方法及装置,所述识别保险单号码的方法包括:在接收到保险单图片后,识别所述保险单图片对应的保险类型,基于预定的保险类型与保险单号码在所述保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域;调用预先训练生成的第一识别模型对所述目标行字符区域进行字符识别,以识别出所述目标行字符区域中包含的保险单号码,并将识别出保险单号码与所述保险单图片进行关联存储。本发明整个操作过程几乎不需要人工参与,能够快速地从大量的保险单图片中获取保险单号码,大大减少工作量,提高工作效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种识别保险单号码的方法及装置。
背景技术
目前,保险公司中有很多保险单以图片的形式进行存储,每一份保险单或保险单图片均有唯一的保险单号码与其对应。对于保险单图片,保险单号码是关键信息,工作人员一般需要根据保险单号码进行保险信息的检索或查询等操作。如果要从多张保险单图片中获取保险单号码等图片信息时,一般是通过人工操作的方式一张张获取,当保险单图片的数量较多,工作人员无法快速地得到每一张保险单图片的保险单号码,导致工作量非常大,降低工作效率。
发明内容
本发明的目的在于提供一种识别保险单号码的方法及装置,旨在快速地从大量的保险单图片中获取保险单号码,减少工作量,提高工作效率。
为实现上述目的,本发明提供一种识别保险单号码的方法,所述识别保险单号码的方法包括:
S1,在接收到保险单图片后,识别所述保险单图片对应的保险类型,基于预定的保险类型与保险单号码在所述保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域;
S2,调用预先训练生成的第一识别模型对所述目标行字符区域进行字符识别,以识别出所述目标行字符区域中包含的保险单号码,并将识别出保险单号码与所述保险单图片进行关联存储。
优选地,所述步骤S1替换为:
S0,在接收到保险单图片后,调用预先训练生成的第二识别模型识别所述保险单图片中保险单号码所在的目标行字符区域。
优选地,所述第二识别模型为卷积神经网络模型,所述步骤S0之前还包括:
S01,获取预设数量的保险单样本图片,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集;
S02,从所述第一图片集和第二图片集中分别提取出第一预设比例的保险单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的保险单样本图片作为待验证的样本图片;
S03,利用各待训练的样本图片进行模型训练,以生成所述卷积神经网络模型,并利用各待验证的样本图片对所生成的卷积神经网络模型进行验证;
S04,若验证通过率大于等于预设阈值,则训练完成,否则增加所述保险单样本图片的数量,以重新进行训练及验证。
优选地,所述第一识别模型为时间递归神经网络模型,所述步骤S2之前还包括:
S21,获取预设数量的保险单号码样本图片,提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集;
S22,将所述训练集中的保险单号码样本图片输入至时间递归神经网络模型进行模型训练,每隔预设时间利用所述测试集中的保险单号码样本图片对所训练的时间递归神经网络模型进行测试,以评估所训练的时间递归神经网络模型的识别效果;
S23,在每次测试后,计算所训练的时间递归神经网络模型的识别误差,若所述识别误差收敛,则训练完成,否则调整所述时间递归神经网络模型的模型参数,以重新进行训练及测试。
优选地,所述步骤S2之后还包括:
S3,在接收到终端发出的携带保险单号码的检索请求后,查找与所述保险单号码关联的保险单图片,并将查找到的保险单图片发送给所述终端。
为实现上述目的,本发明还提供一种识别保险单号码的装置,所述识别保险单号码的装置包括:
第一提取模块,用于在接收到保险单图片后,识别所述保险单图片对应的保险类型,基于预定的保险类型与保险单号码在所述保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域;
第一识别模块,用于调用预先训练生成的第一识别模型对所述目标行字符区域进行字符识别,以识别出所述目标行字符区域中包含的保险单号码,并将识别出保险单号码与所述保险单图片进行关联存储。
优选地,所述第一提取模块替换为:第二识别模块,用于在接收到保险单图片后,调用预先训练生成的第二识别模型识别所述保险单图片中保险单号码所在的目标行字符区域。
优选地,所述第二识别模型为卷积神经网络模型,所述保险单号码的识别装置还包括:
获取模块,用于获取预设数量的保险单样本图片,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集;
第二提取模块,用于从所述第一图片集和第二图片集中分别提取出第一预设比例的保险单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的保险单样本图片作为待验证的样本图片;
第一训练模块,用于利用各待训练的样本图片进行模型训练,以生成所述卷积神经网络模型,并利用各待验证的样本图片对所生成的卷积神经网络模型进行验证;
第一处理模块,用于若验证通过率大于等于预设阈值,则训练完成,否则增加所述保险单样本图片的数量,以重新进行训练及验证。
优选地,所述第一识别模型为时间递归神经网络模型,所述保险单号码的识别装置还包括:
第三提取模块,用于获取预设数量的保险单号码样本图片,提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集;
第二训练模块,用于将所述训练集中的保险单号码样本图片输入至时间递归神经网络模型进行模型训练,每隔预设时间利用所述测试集中的保险单号码样本图片对所训练的时间递归神经网络模型进行测试,以评估所训练的时间递归神经网络模型的识别效果;
第二处理模块,用于在每次测试后,计算所训练的时间递归神经网络模型的识别误差,若所述识别误差收敛,则训练完成,否则调整所述时间递归神经网络模型的模型参数,以重新进行训练及测试。
优选地,所述保险单号码的识别装置还包括:
查找模块,用于在接收到终端发出的携带保险单号码的检索请求后,查找与所述保险单号码关联的保险单图片,并将查找到的保险单图片发送给所述终端。
本发明的有益效果是:本发明首先识别保险单图片的保险类型,通过保险类型与保险单号码在保险单图片中的位置关系,可以提取到保险单号码对应的目标行字符区域,然后再调用预先训练生成的第一识别模型来识别出该目标行字符区域中的保险单号码,整个操作过程几乎不需要人工参与,能够快速地从大量的保险单图片中获取保险单号码,大大减少工作量,提高工作效率。
附图说明
图1为本发明识别保险单号码的方法第一实施例的流程示意图;
图2为本发明识别保险单号码的方法第二实施例的流程示意图;
图3为本发明识别保险单号码的方法第三实施例的流程示意图;
图4为本发明识别保险单号码的方法第四实施例的流程示意图;
图5为本发明识别保险单号码的方法第五实施例的流程示意图;
图6为本发明识别保险单号码的装置第一实施例的结构示意图;
图7为本发明识别保险单号码的装置第二实施例的结构示意图;
图8为本发明识别保险单号码的装置第三实施例的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,图1为本发明识别保险单号码的方法一实施例的流程示意图,该识别保险单号码的方法包括以下步骤:
步骤S1,在接收到保险单图片后,识别所述保险单图片对应的保险类型,基于预定的保险类型与保险单号码在所述保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域。
本实施例中,保险单或保险单图片的类型有多种,例如有车险保险单、寿险保险单及意外伤害保险单等,每一种保险单为一种保险类型。对于不同类型的保险单,其保险单号码所处的位置并不相同,例如有些保险单号码位于保险单右上角偏上的位置,有些保险单号码位于保险单右上角偏左的位置。本实施例预先将不同类型的保险单与保险单号码所处的位置进行关联存储,在接收到保险单图片后,首先识别该保险单图片所属的保险类型,具体的识别过程为:通过对保险单的大小、颜色及内容布局等进行综合识别,以判断该保险单图片所属的保险类型,另外,也可以通过其他的方法识别该保险单图片所属的保险类型,例如通过识别该保险图片的内容信息来判断其所属的保险类型等。
在识别出其所属的保险类型后,基于该保险类型与保险单号码在保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域,在提取了保险单号码对应的目标行字符区域后,只需要进一步识别该目标行字符区域中的数字即可得到保险单号码。
步骤S2,调用预先训练生成的第一识别模型对所述目标行字符区域进行字符识别,以识别出所述目标行字符区域中包含的保险单号码,并将识别出保险单号码与所述保险单图片进行关联存储。
本实施例中,预先训练生成第一识别模型,第一识别模型可以是图像处理相关的多种模型中的一种,优选地,第一识别模型为时间递归神经网络模型。调用第一识别模型对目标行字符区域进行字符识别,以识别得到该目标行字符区域中的每一个字符,一般来说,保险单号码为数字,当所有的字符识别出来后,可以得到保险单号码。
在识别得到保险单号码后,将该保险单号码与该保险单图片进行关联存储,以便工作人员在通过该保险单号码进行查询或者检索时,可以通过该保险单号码查询或者检索到与其关联的保险单图片。
与现有技术相比,本实施例首先识别保险单图片的保险类型,通过保险类型与保险单号码在保险单图片中的位置关系,可以提取到保险单号码对应的目标行字符区域,然后再调用预先训练生成的第一识别模型来识别出该目标行字符区域中的保险单号码,整个操作过程几乎不需要人工参与,能够快速地从大量的保险单图片中获取保险单号码,大大减少工作量,提高工作效率。
在一优选的实施例中,如图2所示,在上述图1的实施例的基础上,上述步骤S1替换为:
步骤S0,在接收到保险单图片后,调用预先训练生成的第二识别模型识别所述保险单图片中保险单号码所在的目标行字符区域。
本实施例中,预先训练生成第二识别模型,第二识别模型可以是图像处理相关的多种模型中的一种,优选地,第二识别模型为卷积神经网络模型。在接收到保险单图片后,调用第二识别模型对保险单图片进行定位及识别,以识别得到保险单号码所在的目标行字符区域。
与上述实施例不同的是,本实施例通过调用第二识别模型识别保险单图片中保险单号码所在的目标行字符区域,由于第二识别模型是通过大量数据进行训练得到的,因此,能够更准确地识别出目标行字符区域。
在一优选的实施例中,如图3所示,在上述图2的实施例的基础上,在上述步骤S0之前还包括:
步骤S01,获取预设数量的保险单样本图片,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集;
步骤S02,从所述第一图片集和第二图片集中分别提取出第一预设比例的保险单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的保险单样本图片作为待验证的样本图片;
步骤S03,利用各待训练的样本图片进行模型训练,以生成所述卷积神经网络模型,并利用各待验证的样本图片对所生成的卷积神经网络模型进行验证;
步骤S04,若验证通过率大于等于预设阈值,则训练完成,否则增加所述保险单样本图片的数量,以重新进行训练及验证。
本实施例中,第二识别模型为卷积神经网络模型,在利用卷积神经网络模型识别目标行字符区域前,首先训练生成该卷积神经网络模型:
获取预设数量的保险单样本图片,例如获取10万张保险单样本图片,其中,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集。第一图片集及第二图片集中分别提取第一预设比例的保险单样本图片作为待训练的样本图片,例如第一图片集及第二图片集中分别提取80%的保险单样本图片作为待训练的样本图片,第一图片集及第二图片集中剩余的保险单样本图片作为待验证的样本图片。
在第一次训练卷积神经网络模型时,该卷积神经网络模型的参数采用默认的参数进行训练,在训练过程不断调整参数,在训练生成该卷积神经网络模型后,利用各待验证的样本图片对所生成的卷积神经网络模型进行验证,如果验证通过率大于等于预设阈值,例如通过率大于等于98%,则训练结束,以该训练得到的卷积神经网络模型为进行识别目标行字符区域的模型;如果验证通过率小于预设阈值,例如小于98%,则增加保险单样本图片的数量,并重新执行上述的步骤S01、步骤S02、步骤S03及步骤S04,直至验证通过率大于等于预设阈值。
在一优选的实施例中,如图4所示,在上述图1的实施例的基础上,在上述步骤S2之前还包括:
S21,获取预设数量的保险单号码样本图片,提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集;
S22,将所述训练集中的保险单号码样本图片输入至时间递归神经网络模型进行模型训练,每隔预设时间利用所述测试集中的保险单号码样本图片对所训练的时间递归神经网络模型进行测试,以评估所训练的时间递归神经网络模型的识别效果;
S23,在每次测试后,计算所训练的时间递归神经网络模型的识别误差,若所述识别误差收敛,则训练完成,否则调整所述时间递归神经网络模型的模型参数,以重新进行训练及测试。
本实施例中,第一识别模型为时间递归神经网络模型,在利用时间递归神经网络模型对目标行字符区域中的字符进行识别前,首先训练生成时间递归神经网络模型:
获取预设数量的保险单号码样本图片,例如获取10万张保险单号码样本图片,其中,保险单号码样本图片仅包含一行数字,该行数字为保险单号码,字体为黑色,背景为白色,并可将各个保险单号码样本图片的名称命名为所含的保险单号码。提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集,训练集中的保险单号码样本图片的数量大于测试集中的保险单号码样本图片的数量,例如将保险单号码样本图片中的80%的保险单号码样本图片作为训练集,将剩余的20%的保险单号码样本图片作为测试集。
在第一次训练时间递归神经网络模型时,该时间递归神经网络模型的参数采用默认的参数进行训练,将训练集中的保险单号码样本图片输入至该时间递归神经网络模型中进行训练,每隔预设时间利用测试集中的保险单号码样本图片对所训练的时间递归神经网络模型进行测试,例如训练集中每进行1000次迭代后利用测试集进行测试,以评估所训练的时间递归神经网络模型的识别效果。
在测试时,使用训练得到的模型对测试集中的保险单号码样本图片进行保险单号码识别,并将识别结果与该保险单号码样本图片的所用的名称进行对比(该保险单号码样本图片利用该保险单号码进行命名),以评估所训练的时间递归神经网络模型的识别效果。
具体地,在每次测试后,计算所训练的时间递归神经网络模型的识别误差,该识别误差为所识别得到的保险单号码与该保险单号码样本图片的命名所采用的保险单号码的编辑距离,若识别误差收敛,则训练完成,以所训练得到的时间递归神经网络模型作为识别目标行字符区域中的字符的模型;若识别误差发散,调整时间递归神经网络模型的模型参数,并重新执行上述的步骤S21、步骤S22及步骤S23,直至识别误差收敛。
在一优选的实施例中,如图5所示,在上述的实施例的基础上,所述步骤S2之后还包括:
S3,在接收到终端发出的携带保险单号码的检索请求后,查找与所述保险单号码关联的保险单图片,并将查找到的保险单图片发送给所述终端。
本实施例中,用户在检索或查看保险单中的信息时,首先向识别保险单号码所在的装置发送携带保险单号码的检索请求,该装置在接收到检索请求后,根据该检索请求中的保险单号码匹配存储的与其一致的保险单号码,在匹配到一致的保险单号码后,将与匹配到的保险单号码关联的保险单图片反馈给终端,以便终端用户查看该保险单图片中的详细信息。
如图6所示,图6为本发明识别保险单号码的装置一实施例的结构示意图,该识别保险单号码的装置包括:
第一提取模块101,用于在接收到保险单图片后,识别所述保险单图片对应的保险类型,基于预定的保险类型与保险单号码在所述保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域;
本实施例中,保险单或保险单图片的类型有多种,例如有车险保险单、寿险保险单及意外伤害保险单等,每一种保险单为一种保险类型。对于不同类型的保险单,其保险单号码所处的位置并不相同,例如有些保险单号码位于保险单右上角偏上的位置,有些保险单号码位于保险单右上角偏左的位置。本实施例预先将不同类型的保险单与保险单号码所处的位置进行关联存储,在接收到保险单图片后,首先识别该保险单图片所属的保险类型,具体的识别过程为:通过对保险单的大小、颜色及内容布局等进行综合识别,以判断该保险单图片所属的保险类型,另外,也可以通过其他的方法识别该保险单图片所属的保险类型,例如通过识别该保险图片的内容信息来判断其所属的保险类型等。
在识别出其所属的保险类型后,基于该保险类型与保险单号码在保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域,在提取了保险单号码对应的目标行字符区域后,只需要进一步识别该目标行字符区域中的数字即可得到保险单号码。
第一识别模块102,用于调用预先训练生成的第一识别模型对所述目标行字符区域进行字符识别,以识别出所述目标行字符区域中包含的保险单号码,并将识别出保险单号码与所述保险单图片进行关联存储。
本实施例中,预先训练生成第一识别模型,第一识别模型可以是图像处理相关的多种模型中的一种,优选地,第一识别模型为时间递归神经网络模型。调用第一识别模型对目标行字符区域进行字符识别,以识别得到该目标行字符区域中的每一个字符,一般来说,保险单号码为数字,当所有的字符识别出来后,可以得到保险单号码。
在识别得到保险单号码后,将该保险单号码与该保险单图片进行关联存储,以便工作人员在通过该保险单号码进行查询或者检索时,可以通过该保险单号码查询或者检索到与其关联的保险单图片。
在一优选的实施例中,如图7所示,在上述图6的实施例的基础上,上述第一提取模块101替换为:第二识别模块100,用于在接收到保险单图片后,调用预先训练生成的第二识别模型识别所述保险单图片中保险单号码所在的目标行字符区域。
本实施例中,预先训练生成第二识别模型,第二识别模型可以是图像处理相关的多种模型中的一种,优选地,第二识别模型为卷积神经网络模型。在接收到保险单图片后,调用第二识别模型对保险单图片进行定位及识别,以识别得到保险单号码所在的目标行字符区域。
与上述实施例不同的是,本实施例通过调用第二识别模型识别保险单图片中保险单号码所在的目标行字符区域,由于第二识别模型是通过大量数据进行训练得到的,因此,能够更准确地识别出目标行字符区域。
在一优选的实施例中,在上述的实施例的基础上,上述第二识别模型为卷积神经网络模型,所述保险单号码的识别装置还包括:
获取模块,用于获取预设数量的保险单样本图片,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集;
第二提取模块,用于从所述第一图片集和第二图片集中分别提取出第一预设比例的保险单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的保险单样本图片作为待验证的样本图片;
第一训练模块,用于利用各待训练的样本图片进行模型训练,以生成所述卷积神经网络模型,并利用各待验证的样本图片对所生成的卷积神经网络模型进行验证;
第一处理模块,用于若验证通过率大于等于预设阈值,则训练完成,否则增加所述保险单样本图片的数量,以重新进行训练及验证。
本实施例中,第二识别模型为卷积神经网络模型,在利用卷积神经网络模型识别目标行字符区域前,首先训练生成该卷积神经网络模型:
获取预设数量的保险单样本图片,例如获取10万张保险单样本图片,其中,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集。第一图片集及第二图片集中分别提取第一预设比例的保险单样本图片作为待训练的样本图片,例如第一图片集及第二图片集中分别提取80%的保险单样本图片作为待训练的样本图片,第一图片集及第二图片集中剩余的保险单样本图片作为待验证的样本图片。
在第一次训练卷积神经网络模型时,该卷积神经网络模型的参数采用默认的参数进行训练,在训练过程不断调整参数,在训练生成该卷积神经网络模型后,利用各待验证的样本图片对所生成的卷积神经网络模型进行验证,如果验证通过率大于等于预设阈值,例如通过率大于等于98%,则训练结束,以该训练得到的卷积神经网络模型为进行识别目标行字符区域的模型;如果验证通过率小于预设阈值,例如小于98%,则增加保险单样本图片的数量,直至验证通过率大于等于预设阈值。
在一优选的实施例中,在上述的实施例的基础上,保险单号码的识别装置还包括:
第三提取模块,用于获取预设数量的保险单号码样本图片,提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集;
第二训练模块,用于将所述训练集中的保险单号码样本图片输入至时间递归神经网络模型进行模型训练,每隔预设时间利用所述测试集中的保险单号码样本图片对所训练的时间递归神经网络模型进行测试,以评估所训练的时间递归神经网络模型的识别效果;
第二处理模块,用于在每次测试后,计算所训练的时间递归神经网络模型的识别误差,若所述识别误差收敛,则训练完成,否则调整所述时间递归神经网络模型的模型参数,以重新进行训练及测试。
本实施例中,第一识别模型为时间递归神经网络模型,在利用时间递归神经网络模型对目标行字符区域中的字符进行识别前,首先训练生成时间递归神经网络模型:
获取预设数量的保险单号码样本图片,例如获取10万张保险单号码样本图片,其中,保险单号码样本图片仅包含一行数字,该行数字为保险单号码,字体为黑色,背景为白色,并可将各个保险单号码样本图片的名称命名为所含的保险单号码。提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集,训练集中的保险单号码样本图片的数量大于测试集中的保险单号码样本图片的数量,例如将保险单号码样本图片中的80%的保险单号码样本图片作为训练集,将剩余的20%的保险单号码样本图片作为测试集。
在第一次训练时间递归神经网络模型时,该时间递归神经网络模型的参数采用默认的参数进行训练,将训练集中的保险单号码样本图片输入至该时间递归神经网络模型中进行训练,每隔预设时间利用测试集中的保险单号码样本图片对所训练的时间递归神经网络模型进行测试,例如训练集中每进行1000次迭代后利用测试集进行测试,以评估所训练的时间递归神经网络模型的识别效果。
在测试时,使用训练得到的模型对测试集中的保险单号码样本图片进行保险单号码识别,并将识别结果与该保险单号码样本图片的所用的名称进行对比(该保险单号码样本图片利用该保险单号码进行命名),以评估所训练的时间递归神经网络模型的识别效果。
具体地,在每次测试后,计算所训练的时间递归神经网络模型的识别误差,该识别误差为所识别得到的保险单号码与该保险单号码样本图片的命名所采用的保险单号码的编辑距离,若识别误差收敛,则训练完成,以所训练得到的时间递归神经网络模型作为识别目标行字符区域中的字符的模型;若识别误差发散,调整时间递归神经网络模型的模型参数,直至识别误差收敛。
在一优选的实施例中,如图8所示,在上述图6的实施例的基础上,所述保险单号码的识别装置还包括:
查找模块,用于在接收到终端发出的携带保险单号码的检索请求后,查找与所述保险单号码关联的保险单图片,并将查找到的保险单图片发送给所述终端。
本实施例中,用户在检索或查看保险单中的信息时,首先向识别保险单号码所在的装置发送携带保险单号码的检索请求,该装置在接收到检索请求后,根据该检索请求中的保险单号码匹配存储的与其一致的保险单号码,在匹配到一致的保险单号码后,将与匹配到的保险单号码关联的保险单图片反馈给终端,以便终端用户查看该保险单图片中的详细信息。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种识别保险单号码的方法,其特征在于,所述识别保险单号码的方法包括:
S1,在接收到保险单图片后,识别所述保险单图片对应的保险类型,基于预定的保险类型与保险单号码在所述保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域,识别过程为:通过对保险单图的大小、颜色及内容布局进行综合识别,以判断该保险单图片所属的保险类型,或者通过识别该保险图片的内容信息来判断其所属的保险类型;
S2,调用预先训练生成的第一识别模型对所述目标行字符区域进行字符识别,以识别出所述目标行字符区域中包含的保险单号码,并将识别出保险单号码与所述保险单图片进行关联存储;
其中,所述第一识别模型为时间递归神经网络模型,所述步骤S2之前还包括:
S21,获取预设数量的保险单号码样本图片,提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集;
S22,将所述训练集中的保险单号码样本图片输入至时间递归神经网络模型进行模型训练,每隔预设时间利用所述测试集中的保险单号码样本图片对所训练的时间递归神经网络模型进行测试,以评估所训练的时间递归神经网络模型的识别效果;
S23,在每次测试后,计算所训练的时间递归神经网络模型的识别误差,若所述识别误差收敛,则训练完成,否则调整所述时间递归神经网络模型的模型参数,以重新进行训练及测试;
其中,该识别误差为所识别得到的保险单号码与该保险单号码样本图片的命名所采用的保险单号码的编辑距离。
2.根据权利要求1所述的识别保险单号码的方法,其特征在于,所述步骤S1替换为:
S0,在接收到保险单图片后,调用预先训练生成的第二识别模型识别所述保险单图片中保险单号码所在的目标行字符区域。
3.根据权利要求2所述的识别保险单号码的方法,其特征在于,所述第二识别模型为卷积神经网络模型,所述步骤S0之前还包括:
S01,获取预设数量的保险单样本图片,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集;
S02,从所述第一图片集和第二图片集中分别提取出第一预设比例的保险单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的保险单样本图片作为待验证的样本图片;
S03,利用各待训练的样本图片进行模型训练,以生成所述卷积神经网络模型,并利用各待验证的样本图片对所生成的卷积神经网络模型进行验证;
S04,若验证通过率大于等于预设阈值,则训练完成,否则增加所述保险单样本图片的数量,以重新进行训练及验证。
4.根据权利要求1所述的识别保险单号码的方法,其特征在于,所述步骤S2之后还包括:
S3,在接收到终端发出的携带保险单号码的检索请求后,查找与所述保险单号码关联的保险单图片,并将查找到的保险单图片发送给所述终端。
5.一种识别保险单号码的装置,其特征在于,所述识别保险单号码的装置包括:
第一提取模块,用于在接收到保险单图片后,识别所述保险单图片对应的保险类型,基于预定的保险类型与保险单号码在所述保险单图片中的位置关系提取所述保险单号码在所述保险单图片中对应的目标行字符区域,识别过程为:通过对保险单图的大小、颜色及内容布局进行综合识别,以判断该保险单图片所属的保险类型,或者通过识别该保险图片的内容信息来判断其所属的保险类型;
第一识别模块,用于调用预先训练生成的第一识别模型对所述目标行字符区域进行字符识别,以识别出所述目标行字符区域中包含的保险单号码,并将识别出保险单号码与所述保险单图片进行关联存储;
所述第一识别模型为时间递归神经网络模型,所述识别保险单号码的装置还包括:
第三提取模块,用于获取预设数量的保险单号码样本图片,提取第二预设比例的保险单号码样本图片作为训练集,并将预设数量的保险单号码样本图片中剩余的保险单号码样本图片作为测试集;
第二训练模块,用于将所述训练集中的保险单号码样本图片输入至时间递归神经网络模型进行模型训练,每隔预设时间利用所述测试集中的保险单号码样本图片对所训练的时间递归神经网络模型进行测试,以评估所训练的时间递归神经网络模型的识别效果;
第二处理模块,用于在每次测试后,计算所训练的时间递归神经网络模型的识别误差,若所述识别误差收敛,则训练完成,否则调整所述时间递归神经网络模型的模型参数,以重新进行训练及测试;
其中,该识别误差为所识别得到的保险单号码与该保险单号码样本图片的命名所采用的保险单号码的编辑距离。
6.根据权利要求5所述的识别保险单号码的装置,其特征在于,所述第一提取模块替换为:第二识别模块,用于在接收到保险单图片后,调用预先训练生成的第二识别模型识别所述保险单图片中保险单号码所在的目标行字符区域。
7.根据权利要求6所述的识别保险单号码的装置,其特征在于,所述第二识别模型为卷积神经网络模型,所述识别保险单号码的装置还包括:
获取模块,用于获取预设数量的保险单样本图片,将包含保险单号码的保险单样本图片作为第一图片集,并将不包含保险单号码的保险单样本图片作为第二图片集;
第二提取模块,用于从所述第一图片集和第二图片集中分别提取出第一预设比例的保险单样本图片作为待训练的样本图片,并将第一图片集和第二图片集中剩余的保险单样本图片作为待验证的样本图片;
第一训练模块,用于利用各待训练的样本图片进行模型训练,以生成所述卷积神经网络模型,并利用各待验证的样本图片对所生成的卷积神经网络模型进行验证;
第一处理模块,用于若验证通过率大于等于预设阈值,则训练完成,否则增加所述保险单样本图片的数量,以重新进行训练及验证。
8.根据权利要求5所述的识别保险单号码的装置,其特征在于,所述识别保险单号码的装置还包括:
查找模块,用于在接收到终端发出的携带保险单号码的检索请求后,查找与所述保险单号码关联的保险单图片,并将查找到的保险单图片发送给所述终端。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611005112.1A CN106557747B (zh) | 2016-11-15 | 2016-11-15 | 识别保险单号码的方法及装置 |
PCT/CN2017/091308 WO2018090641A1 (zh) | 2016-11-15 | 2017-06-30 | 识别保险单号码的方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611005112.1A CN106557747B (zh) | 2016-11-15 | 2016-11-15 | 识别保险单号码的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106557747A CN106557747A (zh) | 2017-04-05 |
CN106557747B true CN106557747B (zh) | 2018-06-22 |
Family
ID=58444147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611005112.1A Active CN106557747B (zh) | 2016-11-15 | 2016-11-15 | 识别保险单号码的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106557747B (zh) |
WO (1) | WO2018090641A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557747B (zh) * | 2016-11-15 | 2018-06-22 | 平安科技(深圳)有限公司 | 识别保险单号码的方法及装置 |
CN107220648B (zh) * | 2017-04-11 | 2018-06-22 | 平安科技(深圳)有限公司 | 理赔单据的字符识别方法及服务器 |
CN107766809B (zh) * | 2017-10-09 | 2020-05-19 | 平安科技(深圳)有限公司 | 电子装置、票据信息识别方法和计算机可读存储介质 |
CN108564035B (zh) | 2018-04-13 | 2020-09-25 | 杭州睿琪软件有限公司 | 识别单据上记载的信息的方法及系统 |
CN110619252B (zh) * | 2018-06-19 | 2022-11-04 | 百度在线网络技术(北京)有限公司 | 识别图片中表单数据的方法、装置、设备及存储介质 |
CN109918984A (zh) * | 2018-12-15 | 2019-06-21 | 深圳壹账通智能科技有限公司 | 保险单号码识别方法、装置、电子设备及存储介质 |
CN111382297B (zh) * | 2018-12-29 | 2024-05-17 | 杭州海康存储科技有限公司 | 一种用户侧用户数据的上报方法及装置 |
CN109829444A (zh) * | 2019-02-28 | 2019-05-31 | 广州达安临床检验中心有限公司 | 单据录入方法、装置、计算机设备和存储介质 |
CN109903174B (zh) * | 2019-03-22 | 2023-11-24 | 成都肯定科技有限公司 | 一种基于移动终端摄像的保险单录入系统及方法 |
CN110110726A (zh) * | 2019-05-15 | 2019-08-09 | 深圳供电局有限公司 | 电力设备铭牌识别方法、装置、计算机设备和存储介质 |
CN110231939B (zh) * | 2019-05-16 | 2024-05-28 | 平安科技(深圳)有限公司 | 模型生成方法、系统、计算机设备和存储介质 |
CN111275039B (zh) * | 2020-01-17 | 2023-05-16 | 深圳信息职业技术学院 | 水尺字符定位方法、装置、计算设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077577A (zh) * | 2014-07-03 | 2014-10-01 | 浙江大学 | 一种基于卷积神经网络的商标检测方法 |
CN104298976A (zh) * | 2014-10-16 | 2015-01-21 | 电子科技大学 | 基于卷积神经网络的车牌检测方法 |
CN105095842A (zh) * | 2014-05-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种单据的信息识别的方法和装置 |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105678612A (zh) * | 2015-12-30 | 2016-06-15 | 远光软件股份有限公司 | 移动端原始凭证电子化智能填单系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150161B2 (en) * | 2008-09-22 | 2012-04-03 | Intuit Inc. | Technique for correcting character-recognition errors |
JP5640773B2 (ja) * | 2011-01-28 | 2014-12-17 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
CN102567764B (zh) * | 2012-01-13 | 2016-03-02 | 中国工商银行股份有限公司 | 一种提高电子影像识别效率的票据凭证及系统 |
CN103793846A (zh) * | 2014-01-20 | 2014-05-14 | 中国建设银行股份有限公司 | 业务凭证的要素信息的处理方法及装置 |
CN204576535U (zh) * | 2014-12-22 | 2015-08-19 | 深圳中兴网信科技有限公司 | 一种票据识别装置 |
CN105005793B (zh) * | 2015-07-15 | 2018-02-27 | 广州敦和信息技术有限公司 | 一种发票字条自动识别录入的方法及装置 |
CN105426356B (zh) * | 2015-10-29 | 2019-05-21 | 杭州九言科技股份有限公司 | 一种目标信息识别方法和装置 |
CN105825211B (zh) * | 2016-03-17 | 2019-05-31 | 世纪龙信息网络有限责任公司 | 名片识别方法、装置及系统 |
CN106557747B (zh) * | 2016-11-15 | 2018-06-22 | 平安科技(深圳)有限公司 | 识别保险单号码的方法及装置 |
-
2016
- 2016-11-15 CN CN201611005112.1A patent/CN106557747B/zh active Active
-
2017
- 2017-06-30 WO PCT/CN2017/091308 patent/WO2018090641A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095842A (zh) * | 2014-05-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种单据的信息识别的方法和装置 |
CN104077577A (zh) * | 2014-07-03 | 2014-10-01 | 浙江大学 | 一种基于卷积神经网络的商标检测方法 |
CN104298976A (zh) * | 2014-10-16 | 2015-01-21 | 电子科技大学 | 基于卷积神经网络的车牌检测方法 |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105678612A (zh) * | 2015-12-30 | 2016-06-15 | 远光软件股份有限公司 | 移动端原始凭证电子化智能填单系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018090641A1 (zh) | 2018-05-24 |
CN106557747A (zh) | 2017-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106557747B (zh) | 识别保险单号码的方法及装置 | |
CN109522304B (zh) | 异常对象识别方法及装置、存储介质 | |
CN109509021B (zh) | 基于行为轨迹的异常识别方法、装置、服务器及存储介质 | |
CN110401779B (zh) | 一种识别电话号码的方法、装置和计算机可读存储介质 | |
CN107566358A (zh) | 一种风险预警提示方法、装置、介质及设备 | |
CN112861648B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN108306864B (zh) | 网络数据检测方法、装置、计算机设备和存储介质 | |
KR20190026641A (ko) | 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체 | |
CN110222791A (zh) | 样本标注信息的审核方法及装置 | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN110110726A (zh) | 电力设备铭牌识别方法、装置、计算机设备和存储介质 | |
CN108766444A (zh) | 用户身份验证方法、服务器及存储介质 | |
CN110166991A (zh) | 用于定位电子设备的方法、设备、装置以及存储介质 | |
CN108038208A (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN112733146B (zh) | 基于机器学习的渗透测试方法、装置、设备及存储介质 | |
CN111160783B (zh) | 数字资产价值的评价方法、系统及电子设备 | |
CN107688590A (zh) | 保单核保的方法和装置 | |
CN112381092B (zh) | 跟踪方法、装置及计算机可读存储介质 | |
CN106878108A (zh) | 网络流量回放测试方法及装置 | |
CN111881948A (zh) | 神经网络模型的训练方法及装置、数据的分类方法及装置 | |
CN110688633A (zh) | 登录方式的推送方法、装置、存储介质及设备 | |
CN112419268A (zh) | 一种输电线路图像缺陷检测方法、装置、设备及介质 | |
CN108764369A (zh) | 基于数据融合的人物识别方法、装置和计算机存储介质 | |
US20170039484A1 (en) | Generating negative classifier data based on positive classifier data | |
CN104850540A (zh) | 进行语句识别的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |