CN110647832A - 获取证件中信息的方法和装置、电子设备和存储介质 - Google Patents

获取证件中信息的方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110647832A
CN110647832A CN201910871447.9A CN201910871447A CN110647832A CN 110647832 A CN110647832 A CN 110647832A CN 201910871447 A CN201910871447 A CN 201910871447A CN 110647832 A CN110647832 A CN 110647832A
Authority
CN
China
Prior art keywords
information
address
processed
certificate
sectional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910871447.9A
Other languages
English (en)
Inventor
杨必韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beike Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN201910871447.9A priority Critical patent/CN110647832A/zh
Publication of CN110647832A publication Critical patent/CN110647832A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本公开实施例公开了一种获取证件中信息的方法和装置、电子设备和存储介质,其中,获取证件中信息的方法包括:获取证件图片;对所述证件图片进行文字检测,得到至少一个文字区域;利用光学字符识别OCR算法,对所述至少一个文字区域进行文本识别,得到至少一项文本信息;利用神经网络,对所述至少一项文本信息进行修正,得到所述证件的信息。本公开实施例节省了人力资源,降低了成本,提高了效率和准确率,可以满足各种业务需求。尤其是对于房产证件中的房屋坐落地址信息,利用神经网络进行修正后,可大幅度提高房屋坐落地址字段的识别结果的准确率。

Description

获取证件中信息的方法和装置、电子设备和存储介质
技术领域
本公开涉及互联网技术,尤其是一种获取证件中信息的方法和装置、电子设备和存储介质。
背景技术
目前在金融借贷、房产交易等多个领域,通常会用到房产证件,这就需要客户上传房产证件图片。目前常用的做法是,在客户向服务器上传房产证件后,在服务器后台由人工读取房产证件图片中的各项信息,并将房产证件图片中记载的信息录入数据库。
在实现本公开的过程中,本发明人通过研究发现,人工读取并手工录入房产证件图片中记载的信息的方式,需要耗费大量的人力资源,成本较高,效率低下,且人工录入信息可能出现错误,准确率较低,无法满足业务需求。其中,尤其是房产证件中的房屋坐落地址信息,信息内容较多且坐落地址分布范围广,采用人工读取并手工录入的方式,耗费工作量大且极易出错。
发明内容
为解决上述技术问题,本公开实施例提供一种可用于对证件照片中的信息获取的技术方案。
根据本公开实施例的一个方面,提供的一种获取证件中信息的方法,包括:
获取证件图片;
对所述证件图片进行文字检测,得到至少一个文字区域;
利用光学字符识别OCR算法,对所述至少一个文字区域进行文本识别,得到至少一项文本信息;
利用神经网络,对所述至少一项文本信息进行修正,得到所述证件的信息。
可选地,在本公开任一实施例的获取证件中信息的方法中,所述证件包括以下任意一项或多项:房产证,身份证,驾驶证,护照。
可选地,在本公开任一实施例的获取证件中信息的方法中,所述至少一项文本信息包括:地址信息;
所述利用神经网络,对所述至少一项文本信息进行修正,包括:利用神经网络,对所述至少一项文本信息中的地址信息进行修正。
可选地,在本公开任一实施例的获取证件中信息的方法中,所述利用神经网络,对所述至少一项文本信息基于预设规则对所述地址信息进行切分,得到多个待处理分段信息;
利用神经网络,分别将所述多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到所述至少一个待处理分段信息的匹配结果;
以所述至少一个待处理分段信息的匹配结果相应代替所述多个待处理分段信息中的所述至少一个待处理分段信息,对得到的多个修正后分段信息进行拼接,得到修正后的地址信息。
可选地,在本公开任一实施例的获取证件中信息的方法中,所述多个分段信息包括以下任意一项或多项:省市分段信息,行政区域分段信息,道路分段信息,楼宇地址分段信息。
可选地,在本公开任一实施例的获取证件中信息的方法中,所述基于预设规则对所述地址信息进行切分,得到多个待处理分段信息,包括:
按照预设文字表述顺序读取所述地址信息;
响应于从所述地址信息读取到省市标识字段,将所述省市标识字段及之前的信息提取为省市分段信息;
响应于从待切分地址信息读取到行政区域标识字段,将所述行政区域标识字段及之前的信息提取为行政区域分段信息;其中,所述待切分地址信息包括:未读取到省市标识字段的所述地址信息,或者从所述地址信息抽取出所述省市分段信息后的其余地址信息;
按照所述预设文字表述顺序相反的顺序,读取从所述待切分地址信息提取出行政区域分段信息后的其余地址信息;
响应于从提取出行政区域分段信息后的其余地址信息中读取到楼宇地址标识字段,将所述楼宇地址标识字段及关联信息提取为楼宇地址分段信息;
将所述其余地址信息中所述行政区域分段信息与所述楼宇地址分段信息之间的信息作为道路分段信息。
可选地,在本公开任一实施例的获取证件中信息的方法中,利用神经网络,分别将所述多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到所述至少一个待处理分段信息的匹配结果,包括:
利用神经网络,分别将所述多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,与对应字段的信息数据库进行匹配,以相似度最高的字段,作为对应待处理分段信息的匹配结果。
可选地,在本公开任一实施例的获取证件中信息的方法中,利用神经网络,分别将所述多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到所述至少一个待处理分段信息的匹配结果,包括:
利用神经网络,分别对所述多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,进行特征提取与分类,以分类结果作为对应待处理分段信息的匹配结果;其中,所述神经网络预先基于对应字段的信息数据库训练得到。
根据本公开实施例的一个方面,提供的一种获取证件中信息的装置,包括:
获取模块,用于获取证件图片;
检测模块,用于对所述证件图片进行文字检测,得到至少一个文字区域;
识别模块,用于利用光学字符识别OCR算法,对所述至少一个文字区域进行文本识别,得到至少一项文本信息;
修正模块,用于利用神经网络,对所述至少一项文本信息进行修正,得到所述证件的信息。
可选地,在本公开任一实施例的获取证件中信息的装置中,所述证件包括以下任意一项或多项:房产证,身份证,驾驶证,护照。
可选地,在本公开任一实施例的获取证件中信息的装置中,所述至少一项文本信息包括:地址信息;
所述修正模块,用于利用神经网络,对所述至少一项文本信息中的地址信息进行修正。
可选地,在本公开任一实施例的获取证件中信息的装置中,所述修正模块包括:
切分单元,用于基于预设规则对所述地址信息进行切分,得到多个待处理分段信息;
匹配单元,用于利用神经网络,分别将所述多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到所述至少一个待处理分段信息的匹配结果;
拼接单元,用于以所述至少一个待处理分段信息的匹配结果相应代替所述多个待处理分段信息中的所述至少一个待处理分段信息,对得到的多个修正后分段信息进行拼接,得到修正后的地址信息。
可选地,在本公开任一实施例的获取证件中信息的装置中,所述多个分段信息包括以下任意一项或多项:省市分段信息,行政区域分段信息,道路分段信息,楼宇地址分段信息。
可选地,在本公开任一实施例的获取证件中信息的装置中,所述切分单元,用于:
按照预设文字表述顺序读取所述地址信息;
响应于从所述地址信息读取到省市标识字段,将所述省市标识字段及之前的信息提取为省市分段信息;
响应于从待切分地址信息读取到行政区域标识字段,将所述行政区域标识字段及之前的信息提取为行政区域分段信息;其中,所述待切分地址信息包括:未读取到省市标识字段的所述地址信息,或者从所述地址信息抽取出所述省市分段信息后的其余地址信息;
按照所述预设文字表述顺序相反的顺序,读取从所述待切分地址信息提取出行政区域分段信息后的其余地址信息;
响应于从提取出行政区域分段信息后的其余地址信息中读取到楼宇地址标识字段,将所述楼宇地址标识字段及关联信息提取为楼宇地址分段信息;
将所述其余地址信息中所述行政区域分段信息与所述楼宇地址分段信息之间的信息作为道路分段信息。
可选地,在本公开任一实施例的获取证件中信息的装置中,所述匹配单元,用于利用神经网络,分别将所述多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,与对应字段的信息数据库进行匹配,以相似度最高的字段,作为对应待处理分段信息的匹配结果。
可选地,在本公开任一实施例的获取证件中信息的装置中,所述匹配单元,用于利用神经网络,分别对所述多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,进行特征提取与分类,以分类结果作为对应待处理分段信息的匹配结果;其中,所述神经网络预先基于对应字段的信息数据库训练得到。
根据本公开实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述获取证件中信息的方法。
根据本公开实施例的再一个方面,提供的一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开上述任一实施例所述获取证件中信息的方法。
基于本公开上述实施例提供的获取证件中信息的方法和装置、电子设备和存储介质,获取证件图片后,可以对证件图片进行文字检测,得到至少一个文字区域后,利用OCR算法对得到的文字区域进行文本识别,然后利用神经网络,对得到的至少一项文本信息进行修正,得到证件的信息。本公开实施例无需人工读取并手工录入证件图片中记载的信息,相对于现有技术节省了人力资源,降低了成本,提高了效率和准确率,可以满足各种业务需求。尤其是对于房产证件中的房屋坐落地址信息,利用神经网络进行修正后,可大幅度提高房屋坐落地址字段的识别结果的准确率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开获取证件中信息的方法一个实施例的流程图。
图2为本公开获取证件中信息的方法另一个实施例的流程图。
图3为本公开实施例中基于预设规则对地址信息进行切分的一个示例性流程图。
图4为本公开获取证件中信息的方法实施例的一个应用示意图。
图5为本公开获取证件中信息的装置一个实施例的结构示意图。
图6为本公开获取证件中信息的装置另一个实施例的结构示意图。
图7为本公开电子设备实施例的一个示例性框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本公开获取证件中信息的方法一个实施例的流程图。如图1所示,该实施例获取证件中信息的方法包括:
102,获取证件图片。
本公开实施例中的证件,可以是各种可能的证件,例如可以是房产证、身份证、驾驶证、护照等任意能够证明身份或者财产所属关系的证件。
104,对证件图片进行文字检测,得到至少一个文字区域。
106,利用光学字符识别(OCR)算法,对上述至少一个文字区域进行文本识别,得到上述至少一个文字区域对应的至少一项文本信息。
108,利用神经网络,对上述至少一项文本信息进行修正,得到证件的信息。
本公开实施例中的神经网络可以是,循环神经网络(RNN)、卷积神经网络(CNN)等,本公开实施例对此不做限制。
基于本公开上述实施例提供的获取证件中信息的方法,获取证件图片后,可以对证件图片进行文字检测,得到至少一个文字区域后,利用OCR算法对得到的文字区域进行文本识别,然后利用神经网络,对得到的至少一项文本信息进行修正,得到证件的信息。本公开实施例无需人工读取并手工录入证件图片中记载的信息,相对于现有技术节省了人力资源,降低了成本,提高了效率和准确率,可以满足各种业务需求。尤其是对于房产证件中的房屋坐落地址信息,利用神经网络进行修正后,可大幅度提高房屋坐落地址字段的识别结果的准确率。
在其中一些实施方式中,通过操作106得到的至少一项文本信息中可以包括:地址信息。相应地,在该实施例的操作108中,利用神经网络,对上述至少一项文本信息中的地址信息进行修正。
图2为本公开获取证件中信息的方法另一个实施例的流程图。如图2所示,该实施例获取证件中信息的方法包括:
202,获取证件图片。
本公开实施例中的证件,可以是各种可能的证件,例如可以是房产证、身份证、驾驶证、护照等任意能够证明身份或者财产所属关系的证件。
204,对证件图片进行文字检测,得到至少一个文字区域。
206,利用OCR算法,对上述至少一个文字区域进行文本识别,得到上述至少一个文字区域对应的至少一项文本信息。
其中,上述至少一项文本信息中可以包括:地址信息。另外还可以包括其他信息,例如,姓名、房屋性质、编号等等,本公开实施例可以适用于任意的文本信息,对文字区域可以记载的文本信息不做限制。
208,基于预设规则对地址信息进行切分,得到多个待处理分段信息。
210,利用神经网络,分别将多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到上述至少一个待处理分段信息的匹配结果。
212,以上述至少一个待处理分段信息的匹配结果相应代替上述至少一个待处理分段信息,得到的多个分段信息称为修正后分段信息,对得到的多个修正后分段信息进行拼接,得到修正后的地址信息。
214,以修正后的地址信息代替上述至少一项文本信息中的地址信息,得到证件的信息。
在其中一些实施方式中,通过操作208得到的多个分段信息,例如可以包括但不限于以下任意一项或多项:省市分段信息,行政区域分段信息,道路分段信息,楼宇地址分段信息,等等。
本公开实施例将房产证件中的房屋坐落地址信息切分为多个分段信息,利用神经网络,分别将多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到上述至少一个待处理分段信息的匹配结果,以上述至少一个待处理分段信息的匹配结果相应代替上述至少一个待处理分段信息,对得到的多个修正后分段信息进行拼接,得到修正后的地址信息,大幅度提高了房屋坐落地址字段的识别结果的准确率。
图3为本公开实施例中基于预设规则对地址信息进行切分的一个示例性流程图。如图3所示,在图2所示实施例的基础上,操作208可以包括:
2081,按照预设文字表述顺序读取地址信息。
本公开实施例中,预设文字表述顺序即预设的地址信息的表述顺序,例如,从左往右、从上到下的顺序,等等。
2082,响应于从地址信息读取到省市标识字段,将该省市标识字段及之前的信息提取为省市分段信息。
其中的省市标识字段用于标识省或者市,可以预先设置,并且可以根据实际需求更新,例如可以是“省”、“市”等。
例如,假设一地址信息表示为:北京市海淀区韩庄子西里XX号楼YY单元ZZ室,则基于该操作2082,从该地址信息读取到省市标识字段“市”,则将“北京市”提取为省市分段信息,抽取出省市分段信息后的其余地址信息为:海淀区韩庄子西里XX号楼YY单元ZZ室。
该操作2082为条件触发操作,即满足条件“从地址信息读取到省市标识字段”时,触发执行将该省市标识字段及之前的信息提取为省市分段信息的操作。若从地址信息中未读取到省市标识字段,则不执行上述操作,继续按照预设文字表述顺序继续读取地址信息。
例如,假设另一地址信息表示为:海淀区韩庄子西里XX号楼YY单元ZZ室,则从地址信息未读取到省市标识字段,继续向后读取地址信息。
2083,响应于从待切分地址信息读取到行政区域标识字段,将该行政区域标识字段及之前的信息提取为行政区域分段信息。
其中,上述待切分地址信息可以是:从地址信息中未读取到省市标识字段的地址信息,或者从地址信息抽取出省市分段信息后的其余地址信息。
其中的行政区域标识字段用于标识行政区域标识字段,可以预先设置,并且可以根据实际需求更新,例如可以是“区”等。
继续以操作2082中的地址信息为例,则基于该操作2083,从该地址信息读取到行政区域标识字段“区”,则将“海淀区”提取为行政区域分段信息,抽取出行政区域分段信息后的其余地址信息为:韩庄子西里XX号楼YY单元ZZ室。
2084,按照预设文字表述顺序相反的顺序,读取提取出行政区域分段信息后的其余地址信息。
续以操作2082中的地址信息为例,则基于该操作2084,按照从右往左的顺序读取其余地址信息:韩庄子西里XX号楼YY单元ZZ室。
2085,响应于从提取出行政区域分段信息后的其余地址信息中读取到楼宇地址标识字段,将该楼宇地址标识字段及关联信息提取为楼宇地址分段信息。
其中的楼宇地址标识字段用于标识具体的楼宇地址,可以预先设置,并且可以根据实际需求更新,例如可以是“栋”、“楼”、“号楼”、“层”、“单元”、“室”等。楼宇地址标识字段的关联信息可以预先设置,例如,将楼宇地址标识字段前、后的数字、字母等作为楼宇地址标识字段的关联信息,本公开实施例不对此进行限制。
继续以操作2082中的地址信息为例,则基于该操作2085,从提取出行政区域分段信息后的其余地址信息中读取到楼宇地址标识字段“号楼”、“单元”、“室”,则将该楼宇地址标识字段“号楼”、“单元”、“室”及关联信息“XX号楼YY单元ZZ室”提取为楼宇地址分段信息。
2086,将其余地址信息中行政区域分段信息与楼宇地址分段信息之间的信息作为道路分段信息。
继续以操作2082中的地址信息为例,将行政区域分段信息“海淀区”与楼宇地址分段信息“XX号楼YY单元ZZ室”之间的信息“韩庄子西里”作为道路分段信息。基于上述实施例,得到的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息即为上述实施例中的多个待处理分段信息。
在其中一些实施例中,操作210可以通过如下方式实现:利用神经网络,分别将多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,与对应字段的信息数据库进行匹配,以相似度最高的字段,作为对应待处理分段信息的匹配结果。
其中,可以计算各分段信息与对应字段的信息数据库中各字段之间的余弦距离或者最大编辑距离作为二者之间的相似度,选取余弦距离或者最大编辑距离最小的字段作为相似度最高的字段,本公开实施例对相似度的具体计算方式不做具体限制。
或者,在另一些实施例中,操作210也可以通过如下方式实现:利用神经网络,分别对多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,进行特征提取与分类,以分类结果作为对应待处理分段信息的匹配结果。其中,该神经网络预先基于对应字段的信息数据库训练得到。
图4为本公开获取证件中信息的方法实施例的一个应用示意图。如图4所示,以房产证中的房屋坐落地址为本公开上述实施例中的地址信息,基于本公开实施例对地址信息进行切分,得到行政区域分段信息、道路分段信息和楼宇地址分段信息,通过道路分段信息数据库对其中的道路分段信息进行匹配,得到道路分段信息的匹配结果,然后对行政区域分段信息、道路分段信息的匹配结果和楼宇地址分段信息进行拼接,得到修正后的地址信息。
本公开实施例提供的任一种获取证件中信息的方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种获取证件中信息的方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种获取证件中信息的方法。下文不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图5为本公开获取证件中信息的装置一个实施例的结构示意图。该实施例获取证件中信息的装置可用于实现本公开上述各获取证件中信息的装置实施例。如图5所示,该实施例获取证件中信息的装置包括:获取模块,检测模块,识别模块和修正模块。其中:
获取模块,用于获取证件图片。
本公开实施例中的证件,可以是各种可能的证件,例如可以是房产证、身份证、驾驶证、护照等任意能够证明身份或者财产所属关系的证件。
检测模块,用于对证件图片进行文字检测,得到至少一个文字区域。
识别模块,用于利用OCR算法,对至少一个文字区域进行文本识别,得到至少一项文本信息。
修正模块,用于利用神经网络,对至少一项文本信息进行修正,得到证件的信息。
基于本公开上述实施例提供的获取证件中信息的装置,获取证件图片后,可以对证件图片进行文字检测,得到至少一个文字区域后,利用OCR算法对得到的文字区域进行文本识别,然后利用神经网络,对得到的至少一项文本信息进行修正,得到证件的信息。本公开实施例无需人工读取并手工录入证件图片中记载的信息,相对于现有技术节省了人力资源,降低了成本,提高了效率和准确率,可以满足各种业务需求。尤其是对于房产证件中的房屋坐落地址信息,利用神经网络进行修正后,可大幅度提高房屋坐落地址字段的识别结果的准确率。
在其中一些实施方式中,上述至少一项文本信息中可以包括:地址信息,另外还可以包括姓名、房屋性质、编号等信息,本公开实施例对此不做限制。相应地,在该实施例中,修正模块,具体用于利用神经网络,对至少一项文本信息中的地址信息进行修正。
图6为本公开获取证件中信息的装置另一个实施例的结构示意图。如图6所示,在图5所示实施例的基础上,修正模块包括:切分单元,匹配单元和拼接单元。其中:
切分单元,用于基于预设规则对地址信息进行切分,得到多个待处理分段信息。其中的多个待处理分段信息包,例如可以包括但不限于以下任意一项或多项:省市分段信息,行政区域分段信息,道路分段信息,楼宇地址分段信息。
匹配单元,用于利用神经网络,分别将多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到上述至少一个待处理分段信息的匹配结果。
拼接单元,用于以至少一个待处理分段信息的匹配结果相应代替多个待处理分段信息中的至少一个待处理分段信息,对得到的多个修正后分段信息进行拼接,得到修正后的地址信息。
在其中一些实施方式中,切分单元,具体用于:按照预设文字表述顺序读取地址信息;响应于从地址信息读取到省市标识字段,将省市标识字段及之前的信息提取为省市分段信息;响应于从待切分地址信息读取到行政区域标识字段,将行政区域标识字段及之前的信息提取为行政区域分段信息;中,待切分地址信息包括:未读取到省市标识字段的地址信息,或者从地址信息抽取出省市分段信息后的其余地址信息;按照预设文字表述顺序相反的顺序,读取从待切分地址信息提取出行政区域分段信息后的其余地址信息;响应于从提取出行政区域分段信息后的其余地址信息中读取到楼宇地址标识字段,将楼宇地址标识字段及关联信息提取为楼宇地址分段信息;将其余地址信息中行政区域分段信息与楼宇地址分段信息之间的信息作为道路分段信息。
在其中一些实施方式中,匹配单元,具体用于利用神经网络,分别将多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,与对应字段的信息数据库进行匹配,以相似度最高的字段,作为对应待处理分段信息的匹配结果。
在另一些实施方式中,匹配单元,具体用于利用神经网络,分别对多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,进行特征提取与分类,以分类结果作为对应待处理分段信息的匹配结果;其中,神经网络预先基于对应字段的信息数据库训练得到。
另外,本公开实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述获取证件中信息的方法。
图7为本公开电子设备实施例的一个示例性框图。下面,参考图7来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。如图7所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。处理器可被配置为执行图1-图4中所述方法的处理步骤。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本公开的各个实施例的获取证件中信息的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备或第二设备时,该输入装置可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本本公开上述各实施例的获取证件中信息的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开说明书上述各实施例的获取证件中信息的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种获取证件中信息的方法,其特征在于,包括:
获取证件图片;
对所述证件图片进行文字检测,得到至少一个文字区域;
利用光学字符识别OCR算法,对所述至少一个文字区域进行文本识别,得到至少一项文本信息;
利用神经网络,对所述至少一项文本信息进行修正,得到所述证件的信息。
2.根据权利要求1所述的方法,其特征在于,所述证件包括以下任意一项或多项:房产证,身份证,驾驶证,护照。
3.根据权利要求1或2所述的方法,其特征在于,所述至少一项文本信息包括:地址信息;
所述利用神经网络,对所述至少一项文本信息进行修正,包括:利用神经网络,对所述至少一项文本信息中的地址信息进行修正。
4.根据权利要求1-3任一所述的方法,其特征在于,所述利用神经网络,对所述至少一项文本信息中的地址信息进行修正,包括:
基于预设规则对所述地址信息进行切分,得到多个待处理分段信息;
利用神经网络,分别将所述多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到所述至少一个待处理分段信息的匹配结果;
以所述至少一个待处理分段信息的匹配结果相应代替所述多个待处理分段信息中的所述至少一个待处理分段信息,对得到的多个修正后分段信息进行拼接,得到修正后的地址信息。
5.根据权利要求4所述的方法,其特征在于,所述多个分段信息包括以下任意一项或多项:省市分段信息,行政区域分段信息,道路分段信息,楼宇地址分段信息。
6.根据权利要求5所述的方法,其特征在于,所述基于预设规则对所述地址信息进行切分,得到多个待处理分段信息,包括:
按照预设文字表述顺序读取所述地址信息;
响应于从所述地址信息读取到省市标识字段,将所述省市标识字段及之前的信息提取为省市分段信息;
响应于从待切分地址信息读取到行政区域标识字段,将所述行政区域标识字段及之前的信息提取为行政区域分段信息;其中,所述待切分地址信息包括:未读取到省市标识字段的所述地址信息,或者从所述地址信息抽取出所述省市分段信息后的其余地址信息;
按照所述预设文字表述顺序相反的顺序,读取从所述待切分地址信息提取出行政区域分段信息后的其余地址信息;
响应于从提取出行政区域分段信息后的其余地址信息中读取到楼宇地址标识字段,将所述楼宇地址标识字段及关联信息提取为楼宇地址分段信息;
将所述其余地址信息中所述行政区域分段信息与所述楼宇地址分段信息之间的信息作为道路分段信息。
7.根据权利要求5或6所述的方法,其特征在于,利用神经网络,分别将所述多个待处理分段信息中至少一个待处理分段信息中的各待处理分段信息与对应字段的信息数据库进行匹配,得到所述至少一个待处理分段信息的匹配结果,包括:
利用神经网络,分别将所述多个待处理分段信息中的省市分段信息、行政区域分段信息、道路分段信息、小区分段信息中的任意一项或多项,与对应字段的信息数据库进行匹配,以相似度最高的字段,作为对应待处理分段信息的匹配结果。
8.一种获取证件中信息的装置,其特征在于,包括:
获取模块,用于获取证件图片;
检测模块,用于对所述证件图片进行文字检测,得到至少一个文字区域;
识别模块,用于利用光学字符识别OCR算法,对所述至少一个文字区域进行文本识别,得到至少一项文本信息;
修正模块,用于利用神经网络,对所述至少一项文本信息进行修正,得到所述证件的信息。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-7任一所述的方法。
CN201910871447.9A 2019-09-16 2019-09-16 获取证件中信息的方法和装置、电子设备和存储介质 Pending CN110647832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910871447.9A CN110647832A (zh) 2019-09-16 2019-09-16 获取证件中信息的方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910871447.9A CN110647832A (zh) 2019-09-16 2019-09-16 获取证件中信息的方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN110647832A true CN110647832A (zh) 2020-01-03

Family

ID=69010491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910871447.9A Pending CN110647832A (zh) 2019-09-16 2019-09-16 获取证件中信息的方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110647832A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310434A (zh) * 2020-02-28 2020-06-19 北京金堤科技有限公司 文本生成方法和装置、电子设备和存储介质
CN111368697A (zh) * 2020-02-28 2020-07-03 中国建设银行股份有限公司 一种信息识别方法和装置
CN112016438A (zh) * 2020-08-26 2020-12-01 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN113344645A (zh) * 2021-07-07 2021-09-03 中国工商银行股份有限公司 房价预测的方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070242493A1 (en) * 2006-04-17 2007-10-18 Kuliyampattil Nisha P Match sensing circuit for a content addressable memory device
CN102402533A (zh) * 2010-09-13 2012-04-04 方正国际软件有限公司 地址匹配方法及系统
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109903771A (zh) * 2019-01-30 2019-06-18 科讯嘉联信息技术有限公司 一种快递场景智能录入地址方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070242493A1 (en) * 2006-04-17 2007-10-18 Kuliyampattil Nisha P Match sensing circuit for a content addressable memory device
CN102402533A (zh) * 2010-09-13 2012-04-04 方正国际软件有限公司 地址匹配方法及系统
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109903771A (zh) * 2019-01-30 2019-06-18 科讯嘉联信息技术有限公司 一种快递场景智能录入地址方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310434A (zh) * 2020-02-28 2020-06-19 北京金堤科技有限公司 文本生成方法和装置、电子设备和存储介质
CN111368697A (zh) * 2020-02-28 2020-07-03 中国建设银行股份有限公司 一种信息识别方法和装置
CN111310434B (zh) * 2020-02-28 2024-01-19 北京金堤科技有限公司 文本生成方法和装置、电子设备和存储介质
CN112016438A (zh) * 2020-08-26 2020-12-01 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN112016438B (zh) * 2020-08-26 2021-08-10 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN113344645A (zh) * 2021-07-07 2021-09-03 中国工商银行股份有限公司 房价预测的方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US11023682B2 (en) Vector representation based on context
KR102151328B1 (ko) 오더 클러스터링 및 악의적인 정보 퇴치 방법 및 장치
CN110647832A (zh) 获取证件中信息的方法和装置、电子设备和存储介质
US10817615B2 (en) Method and apparatus for verifying images based on image verification codes
US20200160050A1 (en) Layout-agnostic complex document processing system
US8838657B1 (en) Document fingerprints using block encoding of text
US20160092730A1 (en) Content-based document image classification
EP2693356B1 (en) Detecting pirated applications
US10339373B1 (en) Optical character recognition utilizing hashed templates
US20210174109A1 (en) Optical Character Recognition Error Correction Model
CN108921552B (zh) 一种验证证据的方法及装置
CN111209431A (zh) 一种视频搜索方法、装置、设备及介质
CN110929505B (zh) 房源标题的生成方法和装置、存储介质、电子设备
CN108897729B (zh) 一种交易模板共享方法、装置、电子设备及存储介质
US8750571B2 (en) Methods of object search and recognition
JP2019028984A (ja) 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法
US11227231B2 (en) Computational efficiency in symbolic sequence analytics using random sequence embeddings
US11934421B2 (en) Unified extraction platform for optimized data extraction and processing
US11687574B2 (en) Record matching in a database system
US11461411B2 (en) System and method for parsing visual information to extract data elements from randomly formatted digital documents
CN112115836A (zh) 信息校验方法和装置、计算机可读存储介质、电子设备
CN110516717B (zh) 用于生成图像识别模型的方法和装置
CN114170439A (zh) 姿态识别方法、装置、存储介质和电子设备
CN113742485A (zh) 一种处理文本的方法和装置
CN111401137A (zh) 证件栏位识别的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200103