CN115690819A - 一种基于大数据的识别方法及其系统 - Google Patents

一种基于大数据的识别方法及其系统 Download PDF

Info

Publication number
CN115690819A
CN115690819A CN202211340667.7A CN202211340667A CN115690819A CN 115690819 A CN115690819 A CN 115690819A CN 202211340667 A CN202211340667 A CN 202211340667A CN 115690819 A CN115690819 A CN 115690819A
Authority
CN
China
Prior art keywords
data
certificate
image
identification
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211340667.7A
Other languages
English (en)
Inventor
彭炳鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Yuncha Technology Co ltd
Original Assignee
Hebei Yuncha Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Yuncha Technology Co ltd filed Critical Hebei Yuncha Technology Co ltd
Priority to CN202211340667.7A priority Critical patent/CN115690819A/zh
Publication of CN115690819A publication Critical patent/CN115690819A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于大数据的识别方法及其系统,其中,基于大数据的识别系统,包括:多个上传装置和大数据识别中心;上传装置:发送业务办理请求;接收并执行数据获取指令,获取上传数据,并将上传数据发送至大数据识别中心;大数据识别中心:用于根据业务办理请求生成数据获取指令,接收根据数据获取指令获得的上传数据,根据业务办理请求和上传数据获得初始数据;对初始数据中所有的证件图像进行识别,获得识别数据包;获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并存储。本申请能够提前获得待办理数据,有效的减少了人工录入的误差、录入工作量和办理业务的时长。

Description

一种基于大数据的识别方法及其系统
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于大数据的识别方法及其系统。
背景技术
在办理业务时,政府部门和企业常需要将纸质文件/证件中的信息录入到计算机系统进行保存,用于办理后续的业务相关事宜。但现有的具有图像、文字、和/或表格的纸质文件/证件主要是通过人工识别的方式,基于信息录入人员的主观判断进行信息录入的,该方式过于依赖人工录入,人力资源投入量大,且主观能动性强,长时间的单一性工作容易导致录入人员产生疲惫与松懈,识别速度慢且增加了错误识别的风险。
此外,当前的录入方式只能在业务请求人办理业务的当场进行实时录入,该方式增加了办理业务的时长。因此,急需一种自动化/程序化的方法进行辅助识别和预先录入。
发明内容
本申请的目的在于提供一种基于大数据的识别方法及其系统,能够预先对需要进行录入工作的具有图像、表格和/或文字的文件或证件进行自动识别,从而提前获得待办理数据,有效的减少了人工录入的误差、录入工作量和办理业务的时长。
为达到上述目的,本申请提供一种基于大数据的识别系统,包括:多个上传装置和大数据识别中心;其中,上传装置:发送业务办理请求;接收并执行数据获取指令,获取上传数据,并将上传数据发送至大数据识别中心;大数据识别中心:用于执行如下步骤:根据业务办理请求生成数据获取指令,接收根据数据获取指令获得的上传数据,根据业务办理请求和上传数据获得初始数据,其中,初始数据至少包括:请求人名称、人脸图像和至少一个证件图像;对初始数据中所有的证件图像进行识别,获得识别数据包;获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并存储。
如上的,其中,识别中心包括:获取单元、识别单元、录入单元、数据库存储单元和待办存储单元;其中,获取单元:用于接收业务办理请求,根据业务办理请求发送数据获取指令,接收上传数据,并根据业务办理请求和上传数据生成初始数据,并将初始数据发送至识别单元;识别单元:用于对初始数据中所有的证件图像进行识别,获得识别数据包;录入单元:用于获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并将待办理数据发送至待办存储单元;待办存储单元:用于存储待办理数据;数据库存储单元:用于存储证件特征库和存储模板库。
如上的,其中,识别单元至少包括:访问子单元、分类子单元和处理子单元;其中,访问子单元:用于根据所需证件的名称确定所需的标准证件特征;分类子单元:用于根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包;处理子单元:用于对每个图像包中的每个子图像进行识别,获得识别数据包。
如上的,其中,处理子单元至少包括:图像获取子单元、表格获取子单元、文字获取子单元和分析子单元;其中,图像获取子单元:用于对子图像进行图像提取,获得图像数据;表格获取子单元:用于对子图像进行表格提取,获得表格数据;文字获取子单元:用于对子图像进行文字提取,获得文本数据;分析子单元:用于对图像数据、表格数据和文本数据中的一种或多种进行分析,获得识别数据包。
本申请还提供一种基于大数据的识别方法,包括如下步骤:根据业务办理请求生成数据获取指令,接收根据数据获取指令获得的上传数据,根据业务办理请求和上传数据获得初始数据,其中,初始数据至少包括:请求人名称、人脸图像和至少一个证件图像;对初始数据中所有的证件图像进行识别,获得识别数据包;获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并存储。
如上的,其中,对初始数据中的证件图像进行识别,获得识别数据包的子步骤如下:根据所需证件的名称确定所需的标准证件特征,其中,所需的标准证件特征至少包括:标准关键词特征和标准排版特征;根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包,每个图像包中包括至少一个子图像;对每个图像包中的每个子图像进行识别,获得识别数据包。
如上的,其中,根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包的子步骤如下:根据所需证件的名称构建至少一个初始图像包;获取每个证件图像的关键词,根据所需的标准证件特征中的标准关键词特征对证件图像进行标记,获得第一标签;获取每个证件图像的排版特征,根据所需的标准证件特征中的标准排版特征对证件图像进行标记,获得第二标签;当第一标签和第二标签一致时,将证件图像作为子图像按照第二标签存储于相应的初始图像包中,获得图像包。
如上的,其中,获取每个证件图像的关键词,根据所需的标准证件特征中的标准关键词特征对证件图像进行标记,获得第一标签的子步骤如下:将证件图像输入至预先设置的关键词提取模型中,获得至少一个关键词;根据所需的标准证件特征中的标准关键词特征对关键词进行分析,获得第一分析结果,根据第一分析结果确定所属证件的名称;根据所属证件的名称对证件图像进行标记,获得第一标签,其中,第一标签包括:所属证件的名称。
如上的,其中,获取每个证件图像的排版特征,根据所需的标准证件特征中的标准排版特征对证件图像进行标记,获得第二标签的子步骤如下:将证件图像输入至预先设置的特征提取模型中,获得排版特征;根据所需的标准证件特征中的标准排版特征对排版特征进行分析,获得第二分析结果,根据第二分析结果确定所属证件的名称;根据所属证件的名称对证件图像进行标记,获得第二标签,其中,第二标签包括:所属证件的名称。
如上的,其中,根据所需的标准证件特征中的标准排版特征对排版特征进行分析,获得第二分析值,若第二分析值大于预设的排版相似阈值,则生成的第二分析结果为相同;若第二分析值小于或等于预设的排版相似阈值,则生成的第二分析结果为不同;当第二分析结果为相同时,确定该标准排版特征对应的证件名称为所属证件的名称;其中,第二分析值的表达式如下:
Figure BDA0003915823930000041
其中,Ptz(b,d)为第二分析值;tz(b)为标准排版特征的相位一致性;tz(d)为排版特征的相位一致性;μ为常量。
本申请能够预先对需要进行录入工作的具有图像、表格和/或文字的文件或证件进行自动识别,从而提前获得待办理数据,有效的减少了人工录入的误差、录入工作量和办理业务的时长。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为基于大数据的识别系统的结构示意图;
图2为基于大数据的识别方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本申请提供一种基于大数据的识别系统,包括:多个上传装置110和大数据识别中心120。
其中,上传装置110:发送业务办理请求;接收并执行数据获取指令,获取上传数据,并将上传数据发送至大数据识别中心。
大数据识别中心120:用于执行如下步骤:
根据业务办理请求生成数据获取指令,接收根据数据获取指令获得的上传数据,根据业务办理请求和上传数据获得初始数据,其中,初始数据至少包括:请求人名称、人脸图像和至少一个证件图像;
对初始数据中所有的证件图像进行识别,获得识别数据包;
获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并存储。
进一步的,识别中心包括:获取单元、识别单元、录入单元、数据库存储单元和待办存储单元。
其中,获取单元:用于接收业务办理请求,根据业务办理请求发送数据获取指令,接收上传数据,并根据业务办理请求和上传数据生成初始数据,并将初始数据发送至识别单元。
识别单元:用于对初始数据中所有的证件图像进行识别,获得识别数据包。
录入单元:用于获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并将待办理数据发送至待办存储单元。
待办存储单元:用于存储待办理数据。
数据库存储单元:用于存储证件特征库和存储模板库。
具体的,证件特征库包括多个子证件数据库,一个子证件数据库至少包括:证件名称和标准证件特征,其中,标准证件特征至少包括:标准关键词特征和标准排版特征。存储模板数据库中包括多个存储模板,一个存储模板用于存储一种证件的识别数据包。
进一步的,识别单元至少包括:访问子单元、分类子单元和处理子单元。
其中,访问子单元:用于根据所需证件的名称确定所需的标准证件特征。
分类子单元:用于根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包。
处理子单元:用于对每个图像包中的每个子图像进行识别,获得识别数据包。
进一步的,处理子单元至少包括:图像获取子单元、表格获取子单元、文字获取子单元和分析子单元。
其中,图像获取子单元:用于对子图像进行图像提取,获得图像数据。
表格获取子单元:用于对子图像进行表格提取,获得表格数据。
文字获取子单元:用于对子图像进行文字提取,获得文本数据。
分析子单元:用于对图像数据、表格数据和文本数据中的一种或多种进行分析,获得识别数据包。
如图2所示,本申请提供一种基于大数据的识别方法,包括如下步骤:
S210:根据业务办理请求生成数据获取指令,接收根据数据获取指令获得的上传数据,根据业务办理请求和上传数据获得初始数据,其中,初始数据至少包括:人脸图像和至少一个证件图像。
进一步的,根据业务办理请求生成数据获取指令,接收根据数据获取指令获得的上传数据,根据业务办理请求和上传数据获得初始数据的子步骤如下:
S2101:接收业务办理请求,其中,业务办理请求至少包括:请求人名称和业务名称。
具体的,上传装置通过现有的办理业务的小程序、APP或者公众号进行登录,完成登录后,向大数据识别中心发送业务办理请求,其中,业务办理请求至少包括:请求人名称和业务名称。
其中,业务名称至少包括:婚姻登记手续、购房/卖房手续、证明亲属关系手续、办理继承手续、赠与手续、孩子建档手续、办理出生证明手续、落户手续、入托手续、入学手续、新入人员的户口登记、兵役登记、办理申请出境手续、办理生育申请、办理机动车和办理个体营业执照等业务的名称。
S2102:根据业务办理请求生成数据获取指令,并发送,其中,数据获取指令至少包括:所需证件的名称。
具体的,大数据识别中心根据业务办理请求中的业务名称生成数据获取指令,并将数据获取指令发送至上传装置。
其中,所需证件的名称包括:身份证、户口薄、毕业证、学位证、职业资格证书等证件的名称。所需证件为办理请求办理的业务时需要进行录入的证件。
所需证件的名称可以为一个,可以为多个,所需证件的名称的具体数量根据业务办理请求中的业务的实际需求而定。
S2103:接收根据数据获取指令获得的上传数据,并将上传数据和请求人名称作为初始数据,其中,初始数据至少包括:请求人名称、人脸图像和至少一个证件图像。
具体的,上传装置根据数据获取指令获取人脸图像和至少一个证件图像,并将人脸图像和至少一个证件图像作为上传数据发送至大数据识别中心,大数据识别中心将请求人名称和上传数据作为初始数据。
其中,人脸图像为请求人的人脸图像。
至少一个证件图像为:所有的所需证件的图像。每个所需证件的证件图像为一个或多个。
S220:对初始数据中所有的证件图像进行识别,获得识别数据包。
进一步的,对初始数据中的证件图像进行识别,获得识别数据包的子步骤如下:
S2201:根据所需证件的名称确定所需的标准证件特征,其中,所需的标准证件特征至少包括:标准关键词特征和标准排版特征。
进一步的,根据所需证件的名称确定所需的标准证件特征的子步骤如下:
S22011:根据所需证件的名称生成第一访问请求,并发送,其中,第一访问请求至少包括:所需证件的名称。
具体的,访问子单元根据所需证件的名称生成第一访问请求,并将第一访问请求发送至数据库存储单元。
S22012:接收根据第一访问请求获得的所需的标准证件特征。
具体的,数据库存储单元根据第一访问请求允许访问子单元对证件特征库进行访问,并确定与所需证件的名称相同的子证件数据库中的标准证件特征为所需的标准证件特征。其中,子证件数据库的个数与所需证件的名称的个数相等。
S2202:根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包,每个图像包中包括至少一个子图像。
进一步的,根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包的子步骤如下:
S22021:根据所需证件的名称构建至少一个初始图像包。
具体的,根据所需证件的名称构建初始图像包,初始图像包的个数与所需证件的名称的个数相等。初始图像包的名称与所需证件的名称相同。一个初始图像包对应一个所需证件,用于存储对应的所需证件的所有的证件图像。
S22022:获取每个证件图像的关键词,根据所需的标准证件特征中的标准关键词特征对证件图像进行标记,获得第一标签。
进一步的,获取每个证件图像的关键词,根据所需的标准证件特征中的标准关键词特征对证件图像进行标记,获得第一标签的子步骤如下:
T1:将证件图像输入至预先设置的关键词提取模型中,获得至少一个关键词。
具体的,关键词提取模型为预先训练好的神经网络,将证件图像输入至关键词提取模型后,由关键词提取模型对证件图像中的关键词进行提取,获得至少一个关键词。
其中,关键词为证件中每个待填写的项目的名称(例如:姓名、性别、出生日期、证书编号和身份证号等)和证书中的必要字段(例如:职业资格证书和居民身份证等)。
T2:根据所需的标准证件特征中的标准关键词特征对关键词进行分析,获得第一分析结果,根据第一分析结果确定所属证件的名称。
进一步的,根据所需的标准证件特征中的标准关键词特征对关键词进行分析,获得第一分析值,若第一分析值大于预设的关键词相似阈值,则生成的第一分析结果为相同;若第一分析值小于或等于预设的关键词相似阈值,则生成的第一分析结果为不同;当第一分析结果为相同时,确定该标准关键词特征对应的证件名称为所属证件的名称。
具体的,根据所需的标准证件特征中的标准关键词特征对关键词进行分析,获得第一分析值,若第一分析值大于预设的关键词相似阈值,则生成的第一分析结果为相同;当第一分析结果为相同时,确定该标准关键词特征对应的证件名称为所属证件的名称。若第一分析值小于或等于预设的关键词相似阈值,则生成的第一分析结果为不同;当第一分析结果为不同时,结束进程,并向上传装置发送警报信息。
进一步的,第一分析值的表达式如下:
Figure BDA0003915823930000101
其中,Fx1为第一分析值;
Figure BDA0003915823930000102
表示关键词的第k种字符的总个数,k∈[1,K],K为关键词的字符的种类的总数;
Figure BDA0003915823930000103
表示标准关键词特征的第k种字符的总个数,k∈[1,K],K为标准关键词特征的字符的种类的总数;e为自然底数;H(lz)为标准关键词特征的关键词标注序列的分值;lz为标准关键词特征的标注序列;l∈[1,L],L为对关键词中的所有字符进行标注能获得的所有可能的标注序列;H(l)为关键词的关键词标注序列的分值。
具体的,不同的文字、字母、符号和数字均为一个字符种类。标准关键词特征的关键词标注序列即为真实的标注序列的关键词标注序列。作为一个实施例,通过现有的条件随机场模型获取H(lz)和H(l)的具体值。
T3:根据所属证件的名称对证件图像进行标记,获得第一标签,其中,第一标签包括:所属证件的名称。
具体的,所属证件的名称为证件图像所属的证件的名称,即:证件图像所展示的证件的名称。
S22023:获取每个证件图像的排版特征,根据所需的标准证件特征中的标准排版特征对证件图像进行标记,获得第二标签。
进一步的,获取每个证件图像的排版特征,根据所需的标准证件特征中的标准排版特征对证件图像进行标记,获得第二标签的子步骤如下:
T1’:将证件图像输入至预先设置的特征提取模型中,获得排版特征。
具体的,特征提取模型为预先训练好的神经网络,将证件图像输入至特征提取模型后,由特征提取模型对证件图像中的排版的特征进行提取,获得排版特征。
其中,排版特征为能够展示证件图像的排版样式的特征。
T2’:根据所需的标准证件特征中的标准排版特征对排版特征进行分析,获得第二分析结果,根据第二分析结果确定所属证件的名称。
进一步的,根据所需的标准证件特征中的标准排版特征对排版特征进行分析,获得第二分析值,若第二分析值大于预设的排版相似阈值,则生成的第二分析结果为相同;若第二分析值小于或等于预设的排版相似阈值,则生成的第二分析结果为不同;当第二分析结果为相同时,确定该标准排版特征对应的证件名称为所属证件的名称。
具体的,当第二分析结果为不同时,结束进程,并向上传装置发送警报信息。
进一步的,第二分析值的表达式如下:
Figure BDA0003915823930000111
其中,Ptz(b,d)为第二分析值;tz(b)为标准排版特征的相位一致性;tz(d)为排版特征的相位一致性;μ为常量。
具体的,常量μ根据实际情况设定。通过相位一致性判断标准排版特征和排版特征的相似性。
T3’:根据所属证件的名称对证件图像进行标记,获得第二标签,其中,第二标签包括:所属证件的名称。
S22024:当第一标签和第二标签一致时,将证件图像作为子图像按照第二标签存储于相应的初始图像包中,获得图像包。
具体的,一个图像包中包括至少一个子图像。一个图像包中的每个子图像均为同一个所需证件的证件图像。一个图像包的名称与子图像所展示的所需证件的名称相同。
S2203:对每个图像包中的每个子图像进行识别,获得识别数据包。
进一步的,对每个图像包中的每个子图像进行识别,获得识别数据包的子步骤如下:
S22031:对子图像进行图像提取,获得图像数据。
进一步的,对子图像进行图像提取,获得图像数据的子步骤如下:
U1:对子图像进行预判断,若子图像中具有人物的头像,则执行U2;若子图像中不具有人物的头像,则执行S22032。
具体的,人物的头像为持证人的头像。
U2:对人物的头像的区域进行提取,获得头像区域,并将头像区域作为图像数据。
具体的,通过预先训练好的区域提取网络对人物的头像的区域进行提取,获得头像区域,并将头像区域作为图像数据。
S22032:对子图像进行表格提取,获得表格数据。
进一步的,对子图像进行表格提取,获得表格数据的子步骤如下:
R1:对子图像中的线条进行提取,获得多个横向表格线和多个竖向表格线。
具体的,作为一个实施例,通过现有的软件或网络(例如:UNet网络)对子图像中的线条进行提取,获得多个横向表格线和多个竖向表格线。
R2:根据多个横向表格线和多个竖向表格线获得多个交点。
具体的,多个横向表格线和多个竖向表格线之间具有多个相交的位置,每个相交位置具有一个交点。
R3:根据多个交点获得多个单元格坐标,将多个单元格坐标作为表格数据。
具体的,获取每个交点的坐标。根据多个交点构成至少一个单元格,每个单元格均包括四个交点,且四个交点构成一个矩形框,即:通过四个交点能够获得每个单元格的单元格区域。构成一个单元格的四个交点的坐标即为单元格坐标。其中,单元格区域为单元格所在的区域。
S22033:对子图像进行文字提取,获得文本数据。
进一步的,对子图像进行文字提取,获得文本数据的子步骤如下:
Y1:对子图像进行文本行检测,获取每一行文本的区域,得到多个文本区域。
具体的,通过现有的神经网络(例如:DBNet神经网络)或软件对子图像进行检测,获得每行文本所在的区域,并对每行文本所在的区域进行提取,获得多个文本区域。
其中,填写于单元格内的文本的文本区域的面积小于单元格区域的面积。
Y2:获取每个文本区域的文本域坐标。
具体的,获取每个文本区域的四个顶点的坐标,并将该四个顶点坐标作为文本域坐标。由四个顶点坐标能够获取到每个文本区域的四个边界线。
Y3:对每个文本区域的内容进行识别,获得文本。
具体的,通过现有的文字识别模型对文本区域内的内容进行识别,获得每个文本区域的文本。
Y4:将文本域坐标和文本作为文本数据。
具体的,获得文本域坐标和文本后,将文本域坐标和文本作为文本数据。
S22034:对图像数据、表格数据和文本数据中的一种或多种进行分析,获得识别数据包。
进一步的,对图像数据、表格数据和文本数据中的一种或多种进行分析,获得识别数据包的子步骤如下:
H1:对表格数据和文本数据进行分析,获得归属关系。
具体的,根据单元格坐标对文本域坐标进行分析,若文本域坐标构成的文本区域位于单元格坐标构成的单元格区域内,则该文本区域对应的文本填写于该单元格区域对应的单元格内,该文本归属与该单元格;若文本域坐标构成的文本区域位于单元格坐标构成的单元格区域外,则该文本区域对应的文本不填写于该单元格区域对应的单元格内,该文本不归属与该单元格。
其中,一个单元格包括至少一个文本。
H2:根据归属关系,对位于同一个单元格内的多个文本域坐标进行分析,获得关联关系。
进一步的,根据归属关系,对位于同一个单元格内的多个文本域坐标进行分析,获得关联关系的子步骤如下:
H21:根据归属关系对文本数据进行分析,获得位于一个单元格内的所有文本域坐标。
具体的,若多个文本数据的文本域坐标均位于同一个单元格区域内,则表示多个文本数据均位于同一个单元格内。
H22:若一个单元格内具有多个文本域坐标,则对多个文本域坐标进行分析,获得关联关系,执行H3;若一个单元格内只有一个文本域坐标,则直接将该文本域坐标内的文本作为文本字段。
进一步的,对多个文本域坐标进行分析,获得关联关系的子步骤如下:
H221:对一个单元格内的多个文本域坐标进行两两对比,获得比对值,利用预设的比对阈值对比对值进行分析,若比对值大于比对阈值,则两个文本区域同行,若比对值小于或等于比对阈值,则两个文本区域不同行。
进一步的,比对值的表达式如下:
Figure BDA0003915823930000141
其中,Bd为比对值;Wtop(y1)表示文本区域y1的左上角顶点的坐标;Wgd(y1)表示文本区域y1的高度;Wtop(y2)表示文本区域y2的左上角顶点的坐标;Wgd(y2)表示文本区域y2的高度。
H222:对同行的多个文本域坐标进行两两对比,通过第一个文本区域的左上角顶点减第二个文本区域的左上角顶点获得X轴差值,若X轴差值大于零,则第一个文本区域位于第二个文本区域的前面;若X轴差值小于零,则第一个文本区域位于第二个文本区域的后面。
H3:根据关联关系,获得文本字段。
具体的,根据关联关系获得文本字段,对于不同行的多个文本,将位于下面一行的文本设置于位于下面一行的文本之后,对于同行的多个文本,将位于后面的文本设置于位于前面的文本之后,从而获得文本字段。
H4:将文本字段和/或图像数据作为识别数据包。
S230:获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并存储。
具体的,根据所需证件的名称从模板数据库中获取预先设置好的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,其中,待办理数据用于进行后续的业务办理事宜。
进一步的,待办理数据还包括人脸图像和请求人名称。
本申请能够预先对需要进行录入工作的具有图像、表格和/或文字的文件或证件进行自动识别,从而提前获得待办理数据,有效的减少了人工录入的误差、录入工作量和办理业务的时长。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,本申请的保护范围意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请保护范围及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于大数据的识别系统,其特征在于,包括:多个上传装置和大数据识别中心;
其中,上传装置:发送业务办理请求;接收并执行数据获取指令,获取上传数据,并将上传数据发送至大数据识别中心;
大数据识别中心:用于执行如下步骤:
根据业务办理请求生成数据获取指令,接收根据数据获取指令获得的上传数据,根据业务办理请求和上传数据获得初始数据,其中,初始数据至少包括:请求人名称、人脸图像和至少一个证件图像;
对初始数据中所有的证件图像进行识别,获得识别数据包;
获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并存储。
2.根据权利要求1所述的基于大数据的识别系统,其特征在于,识别中心包括:获取单元、识别单元、录入单元、数据库存储单元和待办存储单元;
其中,获取单元:用于接收业务办理请求,根据业务办理请求发送数据获取指令,接收上传数据,并根据业务办理请求和上传数据生成初始数据,并将初始数据发送至识别单元;
识别单元:用于对初始数据中所有的证件图像进行识别,获得识别数据包;
录入单元:用于获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并将待办理数据发送至待办存储单元;
待办存储单元:用于存储待办理数据;
数据库存储单元:用于存储证件特征库和存储模板库。
3.根据权利要求2所述的基于大数据的识别系统,其特征在于,识别单元至少包括:访问子单元、分类子单元和处理子单元;
其中,访问子单元:用于根据所需证件的名称确定所需的标准证件特征;
分类子单元:用于根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包;
处理子单元:用于对每个图像包中的每个子图像进行识别,获得识别数据包。
4.根据权利要求3所述的基于大数据的识别系统,其特征在于,处理子单元至少包括:图像获取子单元、表格获取子单元、文字获取子单元和分析子单元;
其中,图像获取子单元:用于对子图像进行图像提取,获得图像数据;
表格获取子单元:用于对子图像进行表格提取,获得表格数据;
文字获取子单元:用于对子图像进行文字提取,获得文本数据;
分析子单元:用于对图像数据、表格数据和文本数据中的一种或多种进行分析,获得识别数据包。
5.一种基于大数据的识别方法,其特征在于,包括如下步骤:
根据业务办理请求生成数据获取指令,接收根据数据获取指令获得的上传数据,根据业务办理请求和上传数据获得初始数据,其中,初始数据至少包括:请求人名称、人脸图像和至少一个证件图像;
对初始数据中所有的证件图像进行识别,获得识别数据包;
获取预先设置的存储模板,按照存储模板对识别数据包进行存储,获得待办理数据,并存储。
6.根据权利要求5所述的基于大数据的识别方法,其特征在于,对初始数据中的证件图像进行识别,获得识别数据包的子步骤如下:
根据所需证件的名称确定所需的标准证件特征,其中,所需的标准证件特征至少包括:标准关键词特征和标准排版特征;
根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包,每个图像包中包括至少一个子图像;
对每个图像包中的每个子图像进行识别,获得识别数据包。
7.根据权利要求6所述的基于大数据的识别方法,其特征在于,根据所需的标准证件特征对所有的证件图像进行分类,获得至少一个图像包的子步骤如下:
根据所需证件的名称构建至少一个初始图像包;
获取每个证件图像的关键词,根据所需的标准证件特征中的标准关键词特征对证件图像进行标记,获得第一标签;
获取每个证件图像的排版特征,根据所需的标准证件特征中的标准排版特征对证件图像进行标记,获得第二标签;
当第一标签和第二标签一致时,将证件图像作为子图像按照第二标签存储于相应的初始图像包中,获得图像包。
8.根据权利要求7所述的基于大数据的识别方法,其特征在于,获取每个证件图像的关键词,根据所需的标准证件特征中的标准关键词特征对证件图像进行标记,获得第一标签的子步骤如下:
将证件图像输入至预先设置的关键词提取模型中,获得至少一个关键词;
根据所需的标准证件特征中的标准关键词特征对关键词进行分析,获得第一分析结果,根据第一分析结果确定所属证件的名称;
根据所属证件的名称对证件图像进行标记,获得第一标签,其中,第一标签包括:所属证件的名称。
9.根据权利要求8所述的基于大数据的识别方法,其特征在于,获取每个证件图像的排版特征,根据所需的标准证件特征中的标准排版特征对证件图像进行标记,获得第二标签的子步骤如下:
将证件图像输入至预先设置的特征提取模型中,获得排版特征;
根据所需的标准证件特征中的标准排版特征对排版特征进行分析,获得第二分析结果,根据第二分析结果确定所属证件的名称;
根据所属证件的名称对证件图像进行标记,获得第二标签,其中,第二标签包括:所属证件的名称。
10.根据权利要求9所述的基于大数据的识别方法,其特征在于,根据所需的标准证件特征中的标准排版特征对排版特征进行分析,获得第二分析值,若第二分析值大于预设的排版相似阈值,则生成的第二分析结果为相同;若第二分析值小于或等于预设的排版相似阈值,则生成的第二分析结果为不同;当第二分析结果为相同时,确定该标准排版特征对应的证件名称为所属证件的名称;
其中,第二分析值的表达式如下:
Figure FDA0003915823920000041
其中,Ptz(b,d)为第二分析值;tz(b)为标准排版特征的相位一致性;tz(d)为排版特征的相位一致性;μ为常量。
CN202211340667.7A 2022-10-28 2022-10-28 一种基于大数据的识别方法及其系统 Withdrawn CN115690819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211340667.7A CN115690819A (zh) 2022-10-28 2022-10-28 一种基于大数据的识别方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211340667.7A CN115690819A (zh) 2022-10-28 2022-10-28 一种基于大数据的识别方法及其系统

Publications (1)

Publication Number Publication Date
CN115690819A true CN115690819A (zh) 2023-02-03

Family

ID=85045788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211340667.7A Withdrawn CN115690819A (zh) 2022-10-28 2022-10-28 一种基于大数据的识别方法及其系统

Country Status (1)

Country Link
CN (1) CN115690819A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110589333A (zh) * 2019-10-08 2019-12-20 北京航星永志科技有限公司 证件自动存取装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110589333A (zh) * 2019-10-08 2019-12-20 北京航星永志科技有限公司 证件自动存取装置

Similar Documents

Publication Publication Date Title
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
CN112231484B (zh) 一种新闻评论审核方法、系统、装置和存储介质
CN112016273A (zh) 文档目录生成方法、装置、电子设备及可读存储介质
US9483740B1 (en) Automated data classification
CN112380825B (zh) Pdf文档跨页表格合并方法、装置、电子设备及存储介质
CN112036147B (zh) 将图片转换为网页的方法、装置、计算机设备和存储介质
CN111881901A (zh) 截图内容检测方法、设备及计算机可读存储介质
CN112541443B (zh) 发票信息抽取方法、装置、计算机设备及存储介质
CN107358148B (zh) 一种基于手写识别的防作弊网络调研的方法及装置
CN110502694A (zh) 基于大数据分析的律师推荐方法及相关设备
CN113837151A (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
JP2019079347A (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
CN112801099B (zh) 一种图像处理方法、装置、终端设备及介质
Benalcazar et al. Synthetic ID card image generation for improving presentation attack detection
CN113673500A (zh) 证件图像识别方法、装置、电子设备及存储介质
CN115690819A (zh) 一种基于大数据的识别方法及其系统
CN116151233A (zh) 数据标注、生成方法、模型训练方法、设备和介质
US9516089B1 (en) Identifying and processing a number of features identified in a document to determine a type of the document
CN113888675A (zh) 用于生成证件图像的方法、系统、装置和介质
CN112800771A (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN113343970A (zh) 文本图像检测方法、装置、设备及存储介质
CN112989820A (zh) 法律文书定位方法、装置、设备及存储介质
CN111291726A (zh) 医疗票据分拣方法、装置、设备和介质
CN110751140A (zh) 字符批量识别方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230203

WW01 Invention patent application withdrawn after publication