CN117373030A - 一种基于ocr的用户材料识别方法、系统、装置及介质 - Google Patents

一种基于ocr的用户材料识别方法、系统、装置及介质 Download PDF

Info

Publication number
CN117373030A
CN117373030A CN202310726434.9A CN202310726434A CN117373030A CN 117373030 A CN117373030 A CN 117373030A CN 202310726434 A CN202310726434 A CN 202310726434A CN 117373030 A CN117373030 A CN 117373030A
Authority
CN
China
Prior art keywords
information
text information
content type
user
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310726434.9A
Other languages
English (en)
Other versions
CN117373030B (zh
Inventor
吴珂皓
杨光
刘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jianda Data Technology Co ltd
Original Assignee
Shanghai Jianda Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jianda Data Technology Co ltd filed Critical Shanghai Jianda Data Technology Co ltd
Priority to CN202310726434.9A priority Critical patent/CN117373030B/zh
Publication of CN117373030A publication Critical patent/CN117373030A/zh
Application granted granted Critical
Publication of CN117373030B publication Critical patent/CN117373030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Character Input (AREA)

Abstract

本说明书实施例提供一种基于OCR的用户材料识别方法、系统、装置和介质,该方法包括:获取用户材料;基于用户材料判断用户材料的内容类型;基于内容类型确定对应的用户材料的预处理方式,确定待处理材料信息;基于内容类型对待处理材料信息进行OCR识别,确定初步文本信息;对初步文本信息进行后处理,确定目标文本信息。

Description

一种基于OCR的用户材料识别方法、系统、装置及介质
技术领域
本说明书涉及识别技术领域,特别涉及基于OCR的用户材料识别方法、系统、装置及介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术是一种文字识别技术,目前OCR技术主要应用于车牌检测等较为单一、简单的场景中。当前,对着无纸化办公的提倡,电子材料逐渐增多,对于电子材料中文字的识别有了数量和质量的双重要求。
因此,希望提供一种基于OCR的用户材料识别方法,能够增加OCR技术的应用场景,并且提高检测的准确度和速度。
发明内容
本说明书提供一种基于OCR的用户材料识别方法,能够增加OCR技术的应用场景,并且提高各场景下检测的准确度和速度。
本说明书一个或多个实施例提供一种基于OCR的用户材料识别方法,该方法包括:获取用户材料;基于用户材料判断用户材料的内容类型;基于内容类型确定对应的用户材料的预处理方式,确定待处理材料信息;基于内容类型对待处理材料信息进行OCR识别,确定初步文本信息;对初步文本信息进行后处理,确定目标文本信息。
本说明书一个或多个实施例提供一种基于OCR的用户材料识别系统,该系统包括:获取模块,用于获取用户材料;判断模块,用于基于用户材料判断用户材料的内容类型;预处理模块,用于基于内容类型确定对应的用户材料的预处理方式,确定待处理材料信息;OCR处理模块,用于基于内容类型对待处理材料信息进行OCR识别,确定初步文本信息;后处理模块,用于对初步文本信息进行后处理,确定目标文本信息。
本说明书一个或多个实施例提供一种基于OCR的用户材料识别装置,该装置包括至少一个处理器以及至少一个存储器;该至少一个存储器用于存储计算机指令;该至少一个处理器用于执行该计算机指令中的至少部分指令以实现如上述的基于OCR的用户材料识别方法。
本说明书一个或多个实施例提供一种计算机可读存储介质,该存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如如上述的基于OCR的用户材料识别方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的基于OCR的用户材料识别系统的应用场景示意图;
图2是根据本说明书一些实施例所示的预处理过程的示例性示意图;
图3是根据本说明书一些实施例所示的确定初步文本信息的示例性示意图;
图4是根据本说明书一些实施例所示的确定目标文本信息的示例性示意图。
实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的基于OCR的用户材料识别系统的应用场景示意图。
本说明书中一些实施例中的基于OCR的用户材料识别系统可以应用于各种通用材料的文字识别,例如,在获取用户材料的图像后,可以通过基于OCR的用户材料识别方法确定用户材料中的文字信息。
如图1所示,本说明书实施例所涉及基于OCR的用户材料识别系统的应用场景100中可以包括服务器110、用户终端120、存储器130和网络140。
服务器110可以指具有计算能力的系统,可以包括各种计算机,比如服务器、个人计算机,也可以是由多台计算机以各种结构连接组成的计算平台。在一些实施例中,服务器110可以在云平台上实现。例如,云平台可以包括私有云、公共云、混合云、社区云、分布式云、跨云、多云等其中一种或几种的组合。
服务器110中可以包括处理器(图1未示出),处理器可以执行程序指令。处理器可以包括各种常见的通用中央处理器,图形处理器,微处理器,特殊应用集成电路,或其他类型的集成电路。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。
在一些实施例中,服务器110可以通过基于用户材料判断所述用户材料的内容类型。在一些实施例中,服务器110可以基于内容类型确定对应的用户材料的预处理方式,确定待处理材料信息。在一些实施例中,服务器110可以基于内容类型对待处理材料信息进行OCR识别,确定初步文本信息。在一些实施例中,服务器110可以对初步文本信息进行后处理,确定目标文本信息。
用户终端120可以提供与用户相关的信息和数据。在一些实施例中,用户终端120可以是移动设备、平板计算机、膝上型计算机、台式计算机等其他具有输入和/或输出功能的设备中的一种或其任意组合。在一些实施例中,用户可以通过用户终端120输入用户材料。在一些实施例中,用户终端120可以通过网络140和基于OCR的用户材料识别系统的应用场景100中的其他组件(例如,服务器110、存储器130)传输相关的信息和数据。在一些实施例中,用户终端120可以包括摄像装置,用于获取用户材料或者环境信息。
存储器130可以存储数据、指令和/或任何其他信息。在一些实施例中,存储器130可以存储从服务器110处获得的数据。例如,存储器可以存储解析步骤得到的待处理材料信息、初步文本信息等。在一些实施例中,存储器130可以存储服务器110可以执行或使用的数据和/或指令,以执行本说明书中描述的示例性方法。在一些实施例中,存储器130可包括大容量存储器、可移除存储器、易失性读写存储器、只读存储器(ROM)等其中一种或几种的组合。在一些实施例中,存储器130可以通过云平台实现。例如,云平台可以包括私有云、公共云、混合云、社区云、分布式云、跨云、多云等其中一种或几种的组合。在一些实施例中,存储器130可以是服务器110的一部分,也可以是独立的,与服务器110直接或间接相连。
网络140可以包括能够促进基于OCR的用户材料识别场景100中的组件的信息和/或数据交换的任何合适的网络。在一些实施例中,基于OCR的用户材料识别系统的应用场景100中的一个或多个组件(例如,服务器110、存储器130等)之间可以通过网络140交换信息和/或数据。网络140可以包括公共网络(如互联网)、私人网络(例如,局域网、广域网等)等其中一种或几种组合。例如,网络140可以包括有线网络、光纤网络、电信网络、局域网、无线局域网、ZigBeTM网络、近场通信(NFC)网络等其中一种或几种的组合。在一些实施例中,网络140可以包括一个或多个网络接入点。例如,网络140可以包括有线和/或无线网络接入点,例如基站和/或因特网交换点,通过该接入点,基于OCR的用户材料识别系统的应用场景100中的一个或多个组件可以连接网络140以交换数据和/或信息。
应当注意基于OCR的用户材料识别系统的应用场景100仅仅是为了说明的目的而提供的,并不意图限制本申请的范围。对于本领域的普通技术人员来说,可以根据本说明书的描述,做出多种修改或变化。例如,基于OCR的用户材料识别系统的应用场景100可以在其它设备上实现类似或不同的功能。然而,这些变化和修改不会背离本申请的范围。
在一些实施例中,流程200可以由处理器执行。流程200包括以下步骤:
步骤210,获取用户材料。
用户材料可以指需要识别的与用户有关的材料。用户材料可以为与用户有关的证件。用户材料可以为身份证、营业执照、信息表、开户证明、银行卡、备案涵、合同、证书、牌照等。用户材料可以以图像、文本、视频等形式提供。用户可以通过终端输入用户材料,服务器通过连接终端获取用户材料,或者服务器可以通过存储器、摄像设备直接获取用户材料。
步骤220,基于用户材料判断用户材料的内容类型。
用户材料的内容类型可以指按照用户材料所包含的内容和/或形式确定的类型。例如,用户材料所包含的内容可以为合同、身份证、营业执照等。用户材料的形式可以为材料内容呈现的形式,例如,用户材料的形式可以为印刷体、手写体、表格、图像、附件印记等。
在一些实施例中,用户材料的内容类型可以分为第一内容类型和第二内容类型。第一内容类型可以指带有附加印记的用户材料的类型。第二内容类型可以指没有带有附加印记的用户材料的类型。附加印记可以指用户材料具有特定用途的印记。例如,附加印记可以为红章、水印等。再例如,在身份证复印件上增加的“仅做此次使用”的人工附加印记。
处理器可以通过类型模型基于用户材料确定用户材料的内容类型。类型模型可以是机器学习模型,输入可以包括用户材料,输出可以包括用户材料的内容类型。类型模型可以通过使用第一训练样本训练得到。第一训练样本可以包括多个历史用户材料,第一训练样本的第一标签可以为历史用户材料的历史内容类型,第一训练样本可以基于历史数据获取,第一标签可以通过人工标注确定。
在一些实施例中,处理器可以只对用户材料的首页具有特殊特征的文字或者第一行文字进行识别,基于识别的内容可以确定用户材料的内容类型。例如,一般合同都会在第一页有“合同”字样,通过局部识别确定内容类型,可以提高识别的效率。
步骤230,基于内容类型确定对应的用户材料的预处理方式,确定待处理材料信息。
预处理可以包括指将用户材料转换成便于被OCR识别的文档的处理。预处理方式可以包括通道检测、去除步骤、校正步骤中的至少一项。
通道检测可以指去除用户材料中的印章信息的过程。去除步骤可以指去除用户材料中水印等附加印记的过程。通过通道检测、去除步骤可以去除对用户材料内容的附加印记,便于后续的OCR处理,提高OCR处理的准确性和效率。例如,当印章覆盖的部分呈现为用户材料中的“大”字下方的点,OCR识别后可能会将“大”字识别为“太”,通过去除步骤,减少附加印记带来的干扰,可以提高后续OCR识别的准确率。
校正步骤可以指对倾斜的用户材料进行校正的过程。由于在获取用户材料的过程中可能会受到拍摄环境、拍摄角度以及拍摄者等因素的影响,用户材料时常会出现倾斜的问题,通过倾斜校正可以调整用户材料在图像中的角度,便于后续的定位处理、OCR识别处理。倾斜校正的方式可以包括霍夫变换,示例性地,通过霍夫变换提取用户材料边缘,获得倾斜角度进行校正。在一些实施例中,当内容类型为第一内容类型,预处理方式依次包括通道检测、祛除步骤、校正步骤;当内容类型为第二内容类型,预处理方式依次包括祛除步骤、校正步骤。关于预处理方式的详细内容可以参见本说明书图2及其相关描述。
在一些实施例中,矫正步骤还可以包括基于用户材料的内容类型对文本进行裁剪。裁剪时可以基于用户材料所包含的内容和用户要求进行裁剪。其中,用户要求可以通过用户终端进行输入。示例性地,用户要求可以包括对合同中表格内容进行识别,则校正步骤可以包括较为粗略的对用户资料进行识别,确定表格区域,如果表格区域只是用户材料中的一部分,并且非正常摆放位置,比如,与用户资料的方向呈一定角度,可以基于该角度确定裁剪框的角度,保证裁剪框和满足用户要求的用户材料的部分内容角度一致,进而保证裁剪后的图像只通过倾斜校正就可以和用户材料方向保持一致。通过仅对用户材料的部分进行预处理,可以提高后续OCR识别速度和准确度,也减少了对存储器和处理器的要求。
由于获取用户材料对用户材料进行预处理后,可以去除对用户材料进行OCR识别的干扰因素,提高识别的准确率和效率,并且,由于用户材料在OCR识别前需要预处理做进一步的校正,可以降低对用户材料的提供形式的要求,适用范围较广。
待处理材料信息可以指预处理过后可以直接用于识别的用户材料。待处理材料只包含用户材料需要识别的文本信息。
步骤240,基于内容类型对待处理材料信息进行OCR识别,确定初步文本信息。
OCR识别可以指对用户材料进行识别对到其对应初步文本信息的过程。OCR识别可以包括DB(Differentiable Binarization,可微分二值化处理)算法、CRNN(ConvolutionalRecurrent Neural Network,卷积循环神经网络)、
初步文本信息可以指从用户材料中直接识别得到的文本信息。在一些实施例中,OCR识别可以基于用户材料的内容类型通过识别模型,对待处理材料信息进行OCR识别,确定初步文本信息。
在一些实施例中,处理器可以基于通过识别模型确定初步文本信息。在一些实施例中,关于识别模型的详细内容可以参见本说明书图3及其相关描述。
步骤250,对初步文本信息进行后处理,确定目标文本信息。
后处理可以指对识别的文本信息的核对校正过程。目标文本信息可以指校正后的用户文本对应的文本信息。
在一些实施例中,处理器可以基于初步文本信息,通过特征模型确定初步文本信息的特征信息;基于初步文本信息,通过分割模型确定初步文本信息的分割信息;基于特征信息和分割信息,通过正则表达式进行匹配,确定目标文本信息。关于特征模型、分割模型、正则表达式的详细内容可以参见本说明书图4及其相关描述。
在本说明书的一些实施例中,通过判断用户材料的内容类型进一步确定适合的文字识别方法,可以提高OCR识别速度和准确度,提升用户体验感。
图2是根据本说明书一些实施例所示的预处理过程的示例性示意图。
如图2所示,基于用户材料的内容类型310,通过判断步骤320,判断判断内容类型是否属于第一内容类型,当内容类型为第一内容类型,预处理方式依次包括通道检测330、去除步骤340、校正步骤350;当内容类型为第二内容类型,预处理方式依次包括去除步骤340、校正步骤350。
在一些实施例中,可以通过通道检测去除用户材料的红色印章,示例性地,通道检测可以包括:通过分离用户材料中的RGB值,提取图像的红色通道,再通过设置阈值来去除用户材料中红色的印章。
在一些实施例中,可以通过去除步骤对去除印章后的用户材料进一步处理,去除用户材料中的水印。在一些实施例中,去除步骤可以包括通过条件生成对抗网络(CGAN)来去除水印。条件生成对抗网络可以包括生成器和判别器。生成器可以用于基于带有印章的用户材料的图像生成去除了水印的用户材料的图像,输入为带有印章的用户材料的图像,输出为去除了水印的用户材料的图像。判别器可以用于判断生成器输出的去除了水印的用户材料的图像是否符合真实图像的分布。条件生成对抗网络可以通过反复迭代训练确定。CGAN可以学习到去除水印的图像生成模式,从而可以实现对水印的去除。
在一些实施例中,由于用户材料中的印章在一定程度上会影响后续的去除步骤的水印去除效果,因此需要先去除印章再去除用户材料中的水印,可以提高后续OCR识别的准确率和效率。
在一些实施例中,可以通过校正步骤对倾斜的用户材料进行校正。在一些实施例中,校正步骤可以包括通过霍夫变换对经过通道校正和去除步骤的用户文档进行倾斜校正。示例性地,对用户文档进行边缘检测,得到用户文档中的所有边缘,对每个边缘点进行霍夫变换,将其转换为一组参数,统计所有参数的频次,将频次最高的参数作为最佳直线参数,根据最佳直线参数,对图像进行选择,实现倾斜校正。
在本说明书的一些实施例中,通过霍夫变换可以减少对用户材料的角度修正的时间以及人工成本。
在本说明书的一些实施例中,通过确定用户材料的内容类型并进一步选择合适预处理方式,可以增加多样化复杂场景中的应用,做到有的放矢,并为后期OCR识别提供良好的处理基础,有效减少了后续对OCR识别的干扰,可以提高OCR识别的准确性和效率。
图2中所述的预处理方式意在说明,并不旨在限制,例如,图2中只是以去除印章为例进行说明,也可以以图2中的预处理方式对其他附加印记进行处理。
图3是根据本说明书一些实施例所示的确定初步文本信息的示例性示意图。
在一些实施例中,处理器可以基于用户材料的内容类型和待处理材料信息通过识别模型确定初步文本信息。识别模型的输入为用户材料的内容类型以及对应的待处理材料信息,输出为对应的初步文本信息。
在一些实施例中,识别模型可以包括多个识别子模块,每一个识别子模块可以具有不同的精度和/或功能。例如,识别子模块可以包括分区、图像处理、字符分割、表格边框检测、表格单元格划分、表头识别、基础文字识别、深度文字识别等功能。其中,深度文字识别的精度高于基础文字识别的功能。深度文字识别模型可以基于深度学习的机器学习模型,例如,循环神经网络(RNN)、卷积神经网络(CNN)等。相同功能的不同识别子模块可以具有不同的精度。
在一些实施例中,处理器可以基于用户材料的内容类型确定对应的至少一个识别子模块,通过选定的至少一个识别子模块对待处理材料信息进行OCR识别,得到对应的初步文本信息。在一些实施例中,当用户材料的内容类型为印刷体时,由于印刷体字体清晰、排列有序,对应的识别子模块可以包括分区、图像处理、字符分割、基础的文字识别、定位等功能对应的子模块。在一些实施例中,当用户材料的内容类型手写体,由于手写体的字迹不规则、排列无序,对应的识别子模块可以包括深度文字识别模型,其中。在一些实施例中,当用户材料的内容类型为表格数据(例如,有序表格、无序表格、复杂表格等),由于需要进行表格分析和文字识别,对应的识别子模块可以包括表格边框检测、表格单元格划分、表头识别、文字识别等功能对应的模块。在一些实施例中,当用户材料的内容类型为身份证、驾驶证等证件,由于证件中通常包含有固定的格式和结构,因此对应的识别子模块可以包括定位模块、基础的文字识别等功能对应的模块等。其中,定位模块用于定位证件区域中的识别姓名、性别、出生日期等信息所在的位置。
在一些实施例中,处理器可以基于用户材料的内容类型、待处理材料信息、场景信息通过识别模型确定初步文本信息。如图3所示,处理器可以基于场景信息420和用户材料的内容类型410确定OCR识别的精度要求430,基于精度要求430和用户材料的内容类型410确定精度要求430,并基于用户材料的内容类型410、精度要求430和待处理材料信息440通过识别模型450确定初步文本信息460。
场景信息可以指基于OCR的用户材料识别系统的使用场景信息。场景信息可以包括公共办公场所(例如,行政单位)、公共休闲场所(例如,公园)、私人场所(例如,家)等。场景信息可以通过场景所在的位置、场景中所包含的摄像装置拍摄到的场景的图像确定。
精度要求可以指对OCR识别的精度要求。精度要求可以与至少一个识别子模块对应。在一些实施例中,处理器可以预设用户材料的内容类型、场景信息中的至少一个与精度要求的对应关系。基于当前用户材料的内容类型、当前场景信息确定当前的精度要求。对于对于同一份用户材料的内容类型,场景信息不同,精度要求不同。例如,对于同一份用户材料,可以使用精度较高的识别子模块1和精度较低的识别子模块2进行识别,当场景信息为行政单位,精度要求较高,可以通过识别子模块1进行识别,当场景信息为家里,精度要求不高,可以通过识别子模块2进行识别。
在一些实施例中,精度要求可以用分值表示。示例性地,处理器可以预设用户材料的内容类型与精度要求的分值之间的对应关系,得到类型精度分值,处理器还可以预设场景信息与精度要求的分值之间的对应关系,得到场景精度分值。处理器基于类型精度分值和场景精度分值及其对应的权重确定当前的精度要求。示例性地,精度要求可以通过公式(1)进行确定。
(1)
其中,表示精度要求对应的分值,/>表示类型精度分值,/>表示场景精度分值,、/>分别表示类型精度分值和场景精度分值对应的权重。
其中,对应的权重可以人工设定。在一些实施例中,场景信息精度分值对应的权重可以高于类型精度分值对应的权重。
在一些实施例中,处理器可以基于精度要求确定对应的至少一个识别子模块,并通过该识别子模块对待处理材料信息进行OCR识别。处理器预设不同分值范围内的精度要求对应包括的识别子模块,通过当前精度要求确定对应的至少一个识别子模块。例如,当精度要求为90-100时,可以选择具有同等功能的但是精度较高的识别子模块。
通过本说明书的一些实施例,对于不同的用户材料的内容类型和场景信息,通过选用不同精度/功能的识别子模块,可以对用户材料的识别更加灵活,可以提高OCR识别的效率和准确度。
在一些实施例中,精度较高的识别子模块可以包括分区子模块、CRNN子模块以及LayoutXLM模型。
分区子模块可以用于文本检测,对待处理材料信息进行文字检测操作,以确定待处理材料信息中文本区域。分区层的输入可以包括待处理材料信息,输出可以包括待处理材料信息中文本区域。文本区域可以指用户材料中需要识别的文本所在的区域,例如,当用户材料为包含身份证的图像时,身份证所在的区域为文本区域。在一些实施例中,分区子模块可以包括DB算法。
CRNN子模块可以用于文本识别,对文本区域中的文字信息进行识别,得到与每一个文本区域对应的初步文本信息。CRNN子模块可以与分区子模块联合使用。CRNN子模块的输入可以包括用户材料的文本区域,输出可以包括对应的初步文本信息。CRNN子模块可以至少包括CNN(Convolutional Neural Network,卷积神经网络)层和BiLSTM(bidirectional long short-term memory,双向长短期记忆网络)层。
CNN层可以用于从文本区域中提取特征序列,输入可以包括文本区域,输出可以包括对于从中提取的特征序列,BiLSTM层可以用于预测特征序列的标签(真实值)分布,输入可以包括CNN层的输出结果,即特征序列,输出可以包括初步文本信息。
在一些实施例中,当用户材料为身份证、银行卡、合同、备案函等,可以选用DB算法、CRNN子模块对待处理材料信息进行处理得到对应的初步文本新。
在说明书的一些实施例中,通过DB算法和CRNN子模块,实现了快速的文字检测即检测文本的所在位置和范围及其布局。DB算法可以在分割网络中执行二值化的过程,简化后处理,并且提高了文本检测的性能。BiLSTM可以捕捉正向和反向的语义信息,可以提高处理较为复杂和/或长时间间隔的输入序列的准确率。
LayoutXLM模型可以基于用户材料对应的待处理材料信息确定对应的初步文本信息。LayoutXLM模型的输入为用户材料对应的待处理材料信息,输出为对应的初步文本信息。
LayoutXLM模型可以包括嵌入层和输出层,嵌入层中可以包括文本嵌入层、布局嵌入层和视觉嵌入层。LayoutXLM模型的输入可以包括待处理材料信息,基于待处理材料信息的三种不同模态信息(文本、布局、视觉),通过嵌入层将待处理材料信息分为文本、布局和图像并编码,将编码好的文本、布局和图像作为输出层的输入数据,输出可以包括初步文本信息。
在一些实施例中,当用户材料为信息表、营业执照、开户证明等,可以选用DB算法以及LayoutXLM模型对待处理材料信息进行处理得到对应的初步文本信息。
在本说明书的一些实施例中,通过DB算法及LayoutXLM模型,实现了快速的文字检测即检测文本的所在位置和范围及其布局。在本说明书的一些实施例中,CRNN子模块及LayoutXLM模型,在文字检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。识别出的文本通常需要再次核对,以保证其正确性。
在本说明书的一些实施例中,针对不同的场景信息选用不同的识别子模块,可以增加多样化复杂场景中的应用,做到有的放矢,提高OCR识别应用的广泛性和准确率。
图4是根据本说明书一些实施例所示的确定目标文本信息的示例性示意图。
如图4所示,对初步文本信息510进行后处理,确定目标文本信息570,包括:基于初步文本信息510,通过特征模型520确定初步文本信息的特征信息540;基于初步文本信息510,通过分割模型550确定初步文本信息的分割信息550;基于特征信息540和分割信息550,通过正则表达式560进行匹配,确定目标文本信息570。
特征模型用于提取初步文本信息的特征信息,特征模型的输入可以包括初步文本信息,输出可以包括对应的特征信息。特征模型可以是预训练模型ERNIE。预训练模型ERNIE可以通过训练获取。示例性地,将标准测试数据集输入至初始预训练模型ERNIE,ERNIE会首先会对权重进行初始化得到初始网络权重,基于用户材料的初步文本信息微调ERNIE得到最佳网络权重,进一步地,ERNIE会通过自动化测试对标准测试数据进行回归测试,当测试结果没有达到预设的准确率和召回率、处理速度要求时,可以重新进行训练,当测试结果达到预设的准确率和召回率、处理速度要求后,得到训练好的ERNIE。
在本说明书的一些实施例中,通过使用基于ERNIE 3.0预训练模型可以实现了快捷准确的材料关键信息提取。分割模型可以用于确定初步文本信息的分割信息。分割模型的输入可以包括初步文本信息,输出可以包括对应的分割信息。分割模型可以是Unet对称语义分割模型。
在一些实施例中,基于特征信息和分割信息可以基于正则表达式的方法获取目标文本信息。正则表达式可以提高对格式化字段解析的准确率。
在本说明书的一些实施例中,通过使用基于ERNIE 3.0预训练模型和经标注数据优化后的模型及Unet对称语义分割模型,实现了快捷准确的材料关键信息提取。预训练模型ERNIE及正则表达式处理实现了快速的特征信息提取及提取信息的核对校验,通过对语义信息进行统一建模,极大地增强了通用语义表示能力,有效确保提取信息的逻辑符合要求。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (10)

1.一种基于OCR的用户材料识别方法,其特征在于,所述方法包括:
获取用户材料;
基于所述用户材料判断所述用户材料的内容类型;
基于所述内容类型确定对应的所述用户材料的预处理方式,确定待处理材料信息;
基于所述内容类型对所述待处理材料信息进行OCR识别,确定初步文本信息;
对所述初步文本信息进行后处理,确定目标文本信息。
2.根据权利要求1所述的用户材料识别方法,其特征在于,所述内容类型包括第一内容类型和第二内容类型,所述基于所述内容类型确定对应的所述用户材料的预处理方式,确定待处理材料信息,包括:
当所述内容类型为第一内容类型,所述预处理方式依次包括通道检测、去除步骤、校正步骤;
当所述内容类型为第二内容类型,所述预处理方式依次包括所述去除步骤、所述校正步骤。
3.根据权利要求1所述的用户材料识别方法,其特征在于,所述基于所述内容类型对所述待处理材料信息进行OCR识别,确定初步文本信息,包括:
通过识别模型对所述待处理材料信息进行OCR识别,确定所述初步文本信息。
4.根据权利要求1所述的用户材料识别方法,其特征在于,所述对所述初步文本信息进行后处理,确定目标文本信息,包括:
基于所述初步文本信息,通过特征模型确定所述初步文本信息的特征信息;
基于所述初步文本信息,通过分割模型确定所述初步文本信息的分割信息;
基于所述特征信息和所述分割信息,通过正则表达式进行匹配,确定所述目标文本信息。
5.一种基于OCR的用户材料识别系统,其特征在于,所述系统包括:
获取模块,用于获取用户材料;
判断模块,用于基于所述用户材料判断所述用户材料的内容类型;
预处理模块,用于基于所述内容类型确定对应的所述用户材料的预处理方式,确定待处理材料信息;
OCR处理模块,用于基于所述内容类型对所述待处理材料信息进行OCR识别,确定初步文本信息;
后处理模块,用于对所述初步文本信息进行后处理,确定目标文本信息。
6.根据权利要求5所述的用户材料识别系统,其特征在于,
当所述内容类型为第一内容类型,所述预处理方式依次包括通道检测、去除步骤、校正步骤;
当所述内容类型为第二内容类型,所述预处理方式依次包括所述去除步骤、所述校正步骤。
7.根据权利要求5所述的用户材料识别系统,其特征在于,所述OCR处理模块包括识别模型,所述识别模型用于对所述待处理材料信息进行OCR识别,确定所述初步文本信息。
8.根据权利要求5所述的用户材料识别系统,其特征在于,所述后处理模块包括:
特征模块,用于基于所述初步文本信息,通过特征模型确定所述初步文本信息的特征信息;
分割模块,用于基于所述初步文本信息,通过分割模型确定所述初步文本信息的分割信息;
正则模块,用于基于所述特征信息和所述分割信息,通过正则表达式进行匹配,确定所述目标文本信息。
9.一种基于OCR的用户材料识别装置,其特征在于,所述装置包括至少一个处理器以及至少一个存储器;
所述至少一个存储器用于存储计算机指令;
所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1至4中任意一项所述的基于OCR的用户材料识别方法。
10.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1至4中任意一项所述的基于OCR的用户材料识别方法。
CN202310726434.9A 2023-06-19 2023-06-19 一种基于ocr的用户材料识别方法、系统、装置及介质 Active CN117373030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310726434.9A CN117373030B (zh) 2023-06-19 2023-06-19 一种基于ocr的用户材料识别方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310726434.9A CN117373030B (zh) 2023-06-19 2023-06-19 一种基于ocr的用户材料识别方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN117373030A true CN117373030A (zh) 2024-01-09
CN117373030B CN117373030B (zh) 2024-06-25

Family

ID=89391685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310726434.9A Active CN117373030B (zh) 2023-06-19 2023-06-19 一种基于ocr的用户材料识别方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN117373030B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001071579A (ja) * 1999-06-28 2001-03-21 Medeikku Engineering:Kk 割印処理方法及びそのための装置
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN110956450A (zh) * 2019-11-29 2020-04-03 北京明略软件系统有限公司 一种自助立案系统、方法及装置
CN112115907A (zh) * 2020-09-27 2020-12-22 北京捷通华声科技股份有限公司 固定版面证件结构化信息提取方法、装置、设备及介质
CN113239910A (zh) * 2021-07-12 2021-08-10 平安普惠企业管理有限公司 证件识别方法、装置、设备及存储介质
CN113554027A (zh) * 2021-08-09 2021-10-26 深圳市迪博企业风险管理技术有限公司 一种报销单据图像文本信息校准与提取方法
WO2021258634A1 (zh) * 2020-06-23 2021-12-30 南京南审审计大数据研究院有限公司 一种图像审计识别方法、装置及存储介质
CN114529932A (zh) * 2022-02-17 2022-05-24 北京译图智讯科技有限公司 一种征信报告识别方法
CN114782956A (zh) * 2022-04-25 2022-07-22 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114842478A (zh) * 2022-04-22 2022-08-02 平安国际智慧城市科技股份有限公司 文本区域的识别方法、装置、设备及存储介质
CN114936840A (zh) * 2022-05-16 2022-08-23 合肥优尔电子科技有限公司 基于图像分类和ocr技术的电力业务工单信息智能识别方法
CN115050042A (zh) * 2022-06-21 2022-09-13 中国平安人寿保险股份有限公司 一种理赔资料录入方法、装置、计算机设备及存储介质
CN115861787A (zh) * 2022-10-11 2023-03-28 大连锐视科技有限公司 面向复杂海事环境的舰艇识别算法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001071579A (ja) * 1999-06-28 2001-03-21 Medeikku Engineering:Kk 割印処理方法及びそのための装置
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN110956450A (zh) * 2019-11-29 2020-04-03 北京明略软件系统有限公司 一种自助立案系统、方法及装置
WO2021258634A1 (zh) * 2020-06-23 2021-12-30 南京南审审计大数据研究院有限公司 一种图像审计识别方法、装置及存储介质
CN112115907A (zh) * 2020-09-27 2020-12-22 北京捷通华声科技股份有限公司 固定版面证件结构化信息提取方法、装置、设备及介质
CN113239910A (zh) * 2021-07-12 2021-08-10 平安普惠企业管理有限公司 证件识别方法、装置、设备及存储介质
CN113554027A (zh) * 2021-08-09 2021-10-26 深圳市迪博企业风险管理技术有限公司 一种报销单据图像文本信息校准与提取方法
CN114529932A (zh) * 2022-02-17 2022-05-24 北京译图智讯科技有限公司 一种征信报告识别方法
CN114842478A (zh) * 2022-04-22 2022-08-02 平安国际智慧城市科技股份有限公司 文本区域的识别方法、装置、设备及存储介质
CN114782956A (zh) * 2022-04-25 2022-07-22 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质
CN114936840A (zh) * 2022-05-16 2022-08-23 合肥优尔电子科技有限公司 基于图像分类和ocr技术的电力业务工单信息智能识别方法
CN115050042A (zh) * 2022-06-21 2022-09-13 中国平安人寿保险股份有限公司 一种理赔资料录入方法、装置、计算机设备及存储介质
CN115861787A (zh) * 2022-10-11 2023-03-28 大连锐视科技有限公司 面向复杂海事环境的舰艇识别算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MAHMOUD KASEM 等: "Deep learning for table detection and structure recognition: A survey", ARXIV:2211.08469V1, 30 November 2022 (2022-11-30), pages 1 - 65 *
WENZHEN ZHU 等: "DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts", ARXIV:2202.01414V1, 28 February 2022 (2022-02-28), pages 1 - 7 *
杨恒杰 等: "基于循环神经网络的图像特定文本抽取方法", 激光与光电子学进展, vol. 56, no. 24, 31 December 2019 (2019-12-31), pages 1 - 8 *

Also Published As

Publication number Publication date
CN117373030B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
US11087125B2 (en) Document authenticity determination
CN109543690B (zh) 用于提取信息的方法和装置
RU2668717C1 (ru) Генерация разметки изображений документов для обучающей выборки
CN111191568B (zh) 翻拍图像识别方法、装置、设备及介质
CN111860525B (zh) 一种适用于端子排的自底向上光学字符识别方法
CN110751041A (zh) 证件真伪验证方法、系统、计算机设备及可读存储介质
EP4109332A1 (en) Certificate authenticity identification method and apparatus, computer-readable medium, and electronic device
CN110598019B (zh) 重复图像识别方法及装置
CN111507957B (zh) 身份证图片转换方法、装置、计算机设备及存储介质
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN112883980B (zh) 一种数据处理方法及系统
CN113111880B (zh) 证件图像校正方法、装置、电子设备及存储介质
CN111079571A (zh) 证卡信息识别及其边缘检测模型训练方法、装置
CN110795714A (zh) 一种身份验证方法、装置、计算机设备及存储介质
CN112766255A (zh) 一种光学文字识别方法、装置、设备及存储介质
CN110866457A (zh) 一种电子保单的获得方法、装置、计算机设备和存储介质
CN111898544B (zh) 文字图像匹配方法、装置和设备及计算机存储介质
CN114359553A (zh) 一种基于物联网的签章定位方法、系统及存储介质
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN111259894B (zh) 一种证件信息鉴别方法、装置及计算机设备
CN111881880A (zh) 一种基于新型网络的票据文本识别方法
CN117373030B (zh) 一种基于ocr的用户材料识别方法、系统、装置及介质
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN112396057A (zh) 一种字符识别方法、装置及电子设备
CN113569839B (zh) 证件识别方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant