CN112016553B - 光学字符识别(ocr)系统、自动ocr更正系统、方法 - Google Patents

光学字符识别(ocr)系统、自动ocr更正系统、方法 Download PDF

Info

Publication number
CN112016553B
CN112016553B CN202010314192.9A CN202010314192A CN112016553B CN 112016553 B CN112016553 B CN 112016553B CN 202010314192 A CN202010314192 A CN 202010314192A CN 112016553 B CN112016553 B CN 112016553B
Authority
CN
China
Prior art keywords
name
ocr
machine
text
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010314192.9A
Other languages
English (en)
Other versions
CN112016553A (zh
Inventor
李若愚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Publication of CN112016553A publication Critical patent/CN112016553A/zh
Application granted granted Critical
Publication of CN112016553B publication Critical patent/CN112016553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种光学字符识别OCR系统、自动OCR更正系统、方法。该OCR系统包括:被配置为获取物理文档的数字图像的获取装置;被配置为将所述物理文档的数字图像转换为相应的机器可读文本的图像转换装置;更正装置,被配置为:使用经过训练的长短期记忆(LSTM)神经网络语言模型评估所述机器可读文本,以确定所述机器可读文本是否需要更正;如果所述机器可读文本需要更正,则使用修改后的编辑距离技术从姓名和地址语料库中确定针对所述机器可读文本的最相似文本;用所确定的最相似文本更正所述机器可读文本;以及被配置为输出更正后的机器可读文本的输出装置。

Description

光学字符识别(OCR)系统、自动OCR更正系统、方法
技术领域
本发明通常涉及光学字符识别(OCR)系统、自动OCR更正系统、方法。
背景技术
电子了解您的客户(eKYC)是一种数字尽职调查过程,由企业执行以验证其客户的身份并评估在业务关系上是否存在非法意图(例如洗钱)的潜在风险。
光学字符识别(OCR)是一种识别物理文档中的文本并将识别出的文本转换为机器编码文本的技术。
当执行eKYC时,OCR可用于识别例如身份证、护照等官方身份(ID) 文件。当前的OCR技术可以达到相对较高的准确率,但是,有时也会发生错误。因此,确定OCR结果需要更正并自动进行更正是很有用的。
自动OCR更正可能涉及直接搜索姓名/地址语料库以找到最相似的姓名/地址进行更正。由于无法确保语料库的覆盖率,因此直接搜索可能会导致许多正确的结果被错误地修改。
发明内容
根据一个实施例,使用通过构建的姓名/地址语料库训练的语言模型来确定OCR结果是否需要更正。如果OCR结果需要更正,则可以使用修改后的编辑距离处理来确定文本的视觉相似性。将OCR结果(更正后的和未更正的)添加到语料库,以丰富语料库并改善语言模型和修改后的编辑距离处理的性能。
根据另一个实施例,提供了一种光学字符识别(OCR)系统,包括:被配置为获得物理文档的数字图像的获取装置;被配置为将所述物理文档的数字图像转换为相应的机器可读文本的图像转换装置;更正装置,被配置为:使用经过训练的长短期记忆(LSTM)神经网络语言模型评估所述机器可读文本,以确定所述机器可读文本是否需要更正;如果所述机器可读文本需要更正,则使用修改后的编辑距离技术从姓名和地址语料库中确定针对所述机器可读文本的最相似文本;用所确定的最相似文本更正所述机器可读文本;以及被配置为输出所述更正后的机器可读文本的输出装置。
该OCR系统还可以包括:存储有与目标域相关联的姓名和地址集合的数据库装置,其中,所述数据库装置被配置为基于所存储的与所述目标域相关联的姓名和地址集合来构建所述姓名和地址语料库;训练装置,被配置为使用所述姓名和地址语料库训练所述LSTM神经网络语言模型。输出装置可以进一步被配置为至少将更正后的机器可读文本添加到存储在数据库装置中的姓名和地址集合中。
数据库装置可以进一步被配置为基于包括更正后的机器可读文本的姓名和地址集合来重新构建姓名和地址语料库。训练装置可以进一步被配置为使用重新构建的姓名和地址语料库重新训练LSTM神经网络语言模型。更正装置可以进一步被配置为评估历史中编辑对频率的对数、即log(历史中编辑对的频率)以确定针对要更正的机器可读文本的最相似文本。
根据另一个实施例,提供了一种用于自动光学字符识别(OCR)更正系统,该系统包括:处理器装置和包括计算机程序代码的存储装置;存储装置和计算机程序代码被配置为,与处理器装置一起使系统至少:使用经过训练的LSTM神经网络语言模型评估OCR结果,以确定该OCR结果是否需要更正;如果OCR结果需要更正,则使用修改后的编辑距离技术从姓名和地址语料库中确定针对OCR结果的最相似文本;并使用确定的最相似文本更正OCR结果。
根据另一实施例,提供了一种自动光学字符识别(OCR)更正方法,包括:使用经过训练的LSTM神经网络语言模型评估OCR结果,以确定 OCR结果是否需要更正;如果OCR结果需要更正,则使用修改后的编辑距离技术从姓名和地址语料库确定针对OCR结果的最相似文本;并使用确定的最相似文本更正OCR结果。
附图说明
实施例仅以示例的方式提供,根据以下文字描述并结合附图,本领域的普通技术人员将更好地理解、更加清楚这些实施例:
图1是例示根据实施例的自动OCR更正方法的流程图。
图2是根据实施例的OCR系统的示意图。
图3是例示根据实施例的自动OCR更正的计算机实现方法的流程图。
图4示出了适用于执行自动OCR更正方法的至少一些步骤的计算机系统的示意图。
具体实施方式
将参考附图、仅以示例的方式来描述实施例。附图中相同的附图标记和字符表示相同的要素或等同要素。
按照对计算机存储器内数据进行运算的算法和功能或符号表示的方式,来明确地或隐含地呈现以下部分描述。这些算法描述和功能或符号表示是数据处理领域的技术人员用来向本领域其他技术人员最有效地传达其工作实质的手段。这里,算法通常被认为是导致期望结果的自相容的顺序步骤。这些步骤是需要对物理量进行物理处理的步骤,该物理量例如为能够存储、传输、组合、比较和以其他方式处理的电、磁或光信号。
除非另有特别说明,并且从以下内容显现,否则可以理解,在整个说明书中,利用诸如“接收”、“扫描”、“计算”、“确定”、“替换”、“生成”、“初始化”、“输出”之类的术语的讨论,是指计算机系统或类似电子设备的操作和过程,通过该操作和过程,将呈现为该计算机系统内物理量的数据,处理和转换为类似地呈现为该计算机系统、或其他信息存储、传输或显示设备内物理量的其他数据。
本说明书还公开了用于执行所述方法的操作的设备。该设备可以被专门构建用于所需目的,或者可以包括计算机或由存储在计算机中的计算机程序选择性地激活或重新配置的其他装置。本文提出的算法和显示与任何特定计算机或其他设备没有固有的关联。可以根据本文的教导利用程序来使用各种机器。在一种可选实施方式中,可以适当构建用于执行所需方法步骤的更专业的设备。将在下面的描述中示出适用于执行本文所述的各种方法/过程的计算机的结构。
另外,本说明书还隐含地公开了计算机程序,因为对于本领域技术人员而言,本文所述方法的各个步骤显然可以通过计算机代码来实现。该计算机程序不旨在限于任何特定的编程语言及其实现。可以理解,各种编程语言及其编码可以用于实现本文所包含的本发明的教导。此外,该计算机程序并不旨在限于任何特定的控制流。计算机程序还有许多其他变体,这些变体可以使用不同的控制流而不会背离本发明的主旨或范围。
此外,计算机程序的一个或多个步骤可以并行而不是顺序地执行。该计算机程序可以存储在任何计算机可读介质上。该计算机可读介质可以包括诸如磁盘或光盘、存储芯片的存储装置,或适合于与计算机交互的其他存储装置。该计算机可读介质还可以包括诸如在因特网系统中例示的硬连线介质,或者诸如在GSM移动电话系统中例示的无线介质。当在这样的计算机上加载并执行该计算机程序时,有效地产生了实现优选方法的步骤的装置。
当前的光学字符识别(OCR)技术可以达到较高的准确率;但是,有时会发生错误。因此,实施例试图确定需要更正的OCR结果,并提供自动更正OCR结果的机制。
姓名和地址构成eKYC OCR结果的主要部分,它们分别具有相同的趋向性(即,姓名可以具有相同的趋向性,且地址可以具有相同的趋向性)。例如,马来西亚的穆斯林人通常起名为Mohammad或Muhammad。因此,实施例试图提供基于神经语言模型和修改后的编辑距离技术的自动OCR更正方法。神经语言建模用于对姓名和地址的内在规则进行建模,以找出需要更正的OCR结果。特别地,语言模型可以在给定上下文的情况下预测特定单词及其对应的概率;且在给定序列的情况下生成分数以评估预测的输出是否符合内在规则。修改后的编辑距离技术用于根据历史姓名和地址语料库确定更正后的答案。
统计语言模型提供了单词按照序列的概率分布。因此,在给定上下文的情况下,可以预测特定单词的概率分布。在给定这样的序列(长度为m) 的情况下,可以为整个序列分配概率P(w_1,w_2,…,w_m)。例如,当给出上下文“猫正在院子里()”时,可以推断单词()为“奔跑”、“睡觉”等,并且可以确定每个单词的概率。同时,使用语言模型,可能会给例如“猫正在院子里冲浪”低的分数,这意味着它不符合语言的内在规则。姓名和地址可以看作是字符序列。例如,我们知道“Jack”是姓名,并且姓名“XXYYZZ”可能存在错误,可以通过由姓名语料库训练的语言模型来进行评估。总而言之,语言模型基于文本语料库(即大型结构化文本集)中的文本示例来学习单词出现的概率。当给定特定句子(单词序列) 时,语言模型可以在给定上下文的情况下预测下一个单词,或者在评估句子是否符合语言的内在规则时为整个句子打分。
作为另一个示例,在姓名和地址的上下文中,“句子”=“姓名”,“单词”=“字符”,因此当给定“Mari”时,可以预测下一个字符为具有高置信度分数的“a”。当给定“Maria”时,可以评估它是否是真实姓名。另一方面,如果在OCR处理中错误地识别了字符,则可以使用语言模型来确定识别出的字符不遵守语料库规则,例如姓名“Maaia”。
在示例性实施例中,通过构建的姓名/地址语料库训练的语言模型用于确定OCR结果是否需要更正。如果OCR结果需要更正,则用修改后的编辑距离处理来确定文本的视觉相似性。修改后的编辑距离处理以编辑距离作为基础,使用操作(添加、删除或转换字符)步骤评估两个字符序列之间的相似性,并考虑字符的视觉相似性。例如,将“B”转换为“R”比将“B”转换为“Z”更可能发生,因为前者在视觉上相对更相似。将OCR结果添加到语料库以丰富语料库并改善语言模型和修改后的编辑距离处理的性能。
图1是例示根据实施例的自动OCR更正方法的流程图100。
在步骤102,收集来自目标域(例如,来自特定国家或感兴趣的地理区域的人)的历史数据。历史数据包括与来自特定国家或感兴趣的地理区域的人相关联的姓名和地址。
在步骤104,根据在步骤102收集的历史数据构建姓名和地址语料库 (库)。具体地,历史数据中姓名和地址字段用于构建姓名和地址语料库。
在步骤106,使用长短期记忆(LSTM)神经网络,用在步骤104构建的姓名和地址语料库训练语言模型。LSTM神经网络是在深度学习领域中使用的人工循环神经网络(RNN)架构。与标准前馈神经网络不同,LSTM 神经网络具有反馈连接,以更好地处理整个数据序列,因此对于训练语言模型特别有用。LSTM单元通常包括神经元、输入门、输出门和遗忘门。神经元记住任意时间间隔内的值,并且这三个门控制进出神经元的信息流。
在步骤108,使用训练后的语言模型来评估OCR结果以确定评估分数。较高的分数对应该单词符合内在规则的较高概率(这意味着该单词被正确识别的概率较高)。如果评估分数低于预定阈值,则要更正OCR结果。
在步骤110,使用修改后的编辑距离技术,从在步骤104构建的姓名和地址语料库中确定最相似文本。“编辑距离”是通过计算将一个字符串转换为另一个字符串所需的最少操作次数来对两个字符串(例如单词)之间的差异度进行量化的方法。特别地,将编辑距离用作基础。根据编辑距离,可以用最少的步骤将序列A转换为序列B,并且每个步骤的每次操作可被称为编辑对。此后,为每个编辑对建模视觉相似度。视觉相似度的计算是基于用户在历史上对OCR结果进行更正的频率。可以通过对历史编辑对的频率进行对数运算、即log(历史中编辑对的频率)来确定视觉相似度。对于每个需要更正的OCR结果,访问姓名和地址语料库,并基于修改后的编辑距离结果找到最相似的单词。
例如,对于姓名“MICHAEI”,语料库具有“MICHAEL”和“MICHAEM”。但是,尽管两者都具有相同的原始编辑距离1,但还是选择了前者,原因是相比“M”与“I”,“L”与“I”在视觉上更为相似,因此,通过修改后的编辑距离技术,认为“L”与“I”更相似。
在步骤112,返回更正后的OCR结果。还返回已正确识别的OCR结果 (即未更正的OCR结果)。在步骤114,将更正后的(以及可选地,未更正的)OCR结果添加到历史数据中,以丰富姓名和地址语料库。
在一个实施例中,提供了OCR系统,包括用于将物理文档转换成机器可读代码/文本的硬件和软件的组合。硬件包括光学扫描仪/图像捕获模块/ 装置和专用电路板,用于复制或读取物理文档中的文本。OCR软件将已扫描的文档图像转换为相应的机器可读代码/数据。
图2是根据实施例的OCR系统200的示意图。OCR系统200包括获取装置202、图像转换装置204、更正装置206和输出装置208。
获取装置202可以为光学扫描仪、照相机、图像捕获装置等形式,获取物理文档201的数字图像。图像转换装置204与合适的OCR软件一起将物理文档201的数字图像的至少一部分转换为相应的机器可读文本(或代码)。
更正装置206使用经过训练的LSTM神经网络语言模型来评估机器可读文本,以确定是否需要对机器可读文本进行更正。LSTM也被视为具有长短期记忆单元的双向循环神经网络。如果需要对机器可读文本进行更正,则更正装置206使用修改后的编辑距离技术,从姓名和地址语料库中确定与机器可读文本最相似的文本。更正装置206可以进一步评估历史中编辑对频率的对数、即log(历史中编辑对的频率)以确定与要更正的机器可读文本最相似的文本。另一方面,如果机器可读文本不需要更正,更正装置206 将机器可读文本不做任何修改而传递给输出装置208。
更正装置206可以进一步用确定的最相似文本更正机器可读文本。换句话说,用确定的最相似文本替换错误的机器可读文本。
输出装置208输出更正后的机器可读文本。例如,输出装置208可以将更正后的机器可读文本输出到数字显示装置、处理器(未示出)以进一步处理或输出到外部装置。
OCR系统200可以进一步包括数据库装置210,该数据库装置210中存储有与目标域(例如,来自特定国家或感兴趣的地理区域的人)相关联的姓名和地址集合。数据库装置210基于所存储的与目标域关联的姓名和地址集合构建姓名和地址语料库。
OCR系统200可以进一步包括训练装置212,其被配置为使用姓名和地址语料库训练LSTM神经网络语言模型。训练装置212还可以被配置为执行对修改后的编辑距离的预处理。该预处理可以至少包括:(i)对每个编辑对的视觉相似度进行建模,以及(ii)基于用户历史上对编辑对的OCR 结果更正的频率,即对历史中编辑对的频率求对数、log(历史中编辑对的频率),计算视觉相似度。
输出装置208可以进一步被配置为将更正后的机器可读文本添加到存储在数据库装置210中的姓名和地址集合中。已被正确识别的机器可读文本也被添加到存储在数据库装置210中的姓名和地址集合中。数据库装置 210可以进一步被配置为基于还包括更正后的机器可读文本的姓名和地址集合来重新构建姓名和地址语料库。训练装置212可以进一步被配置为使用重新构建的姓名和地址语料库来重新训练LSTM神经网络语言模型。训练装置212还可被配置为更新修改后的编辑距离计算。
图3是例示根据实施例的自动OCR更正的计算机实现方法300的流程图。方法300包括步骤306,该步骤306涉及使用经训练的LSTM神经网络语言模型评估OCR结果,以确定该OCR结果是否需要更正。
如果该OCR结果需要更正,则方法300包括步骤308,步骤308涉及使用修改后的编辑距离技术,从姓名和地址语料库中确定与OCR结果最相似的文本。修改后的编辑距离技术包括评估历史中编辑对频率的对数、即 log(历史中编辑对频率)以确定与OCR结果最相似的文本。
接下来,步骤310涉及用所确定的最相似文本更正OCR结果。
在步骤306、308和310之前,方法300还可以包括步骤302:基于与目标域(例如,来自特定国家或感兴趣的地理区域的人)相关联的姓名和地址集合构建姓名和地址语料库。在步骤302之后,方法300可以进一步包括步骤304:使用所构建的姓名和地址语料来训练LSTM神经网络语言模型。
在步骤310之后,方法300可以进一步包括步骤312:将更正的OCR 结果添加到与目标域相关联的姓名和地址集合中。也将已被正确识别的 OCR结果(即未更正的OCR结果)添加到与目标域关联的姓名和地址集合中。
在步骤312后,方法300还可以包括步骤302':基于还包括更正后的 OCR结果的姓名和地址集合来重新构建姓名和地址语料库。换言之,使用还包括更正后的OCR结果的更新后的姓名和地址集合来重复步骤302。
在步骤302'后,方法300还可以包括步骤304':使用重新构建的姓名和地址语料库来重新训练LSTM神经网络语言模型。换言之,使用重新构建的姓名和地址语料库来重复步骤304。
与步骤312、302'和304'相关联的反馈机制通过用更正后的结果持续补充和丰富姓名和地址语料库(因此更好地训练LSTM神经网络语言模型),从而改善了自动OCR更正的性能。
图4示出了适用于执行上述自动OCR更正方法的至少一些步骤的计算机系统的示意图。
仅通过示例的方式提供了对计算机系统/计算装置400的以下描述,而无意于限制本发明。
如图4所示,示例计算装置400包括用于执行软件例程的处理器404。尽管为了清楚起见示出了单个处理器,但是计算装置400也可以包括多处理器系统。处理器404连接到通信基础设施406,以与计算装置400的其他组件进行通信。通信基础设施406可以包括例如通信总线、交叉开关 (cross-bar)或网络。
计算装置400还包括诸如随机存取存储器(RAM)之类的主存储器408 和辅助存储器410。辅助存储器410可以包括例如硬盘驱动器412和/或可移动存储驱动器414,可移动存储驱动器414可以包括磁带驱动器、光盘驱动器等。可移动存储驱动器414以常规方式对可移动存储单元418进行读取和/或写入。可移动存储单元418可以包括被可移动存储驱动器414读取和写入的磁带、光盘等。相关领域技术人员可以理解,可移动存储单元418 包括其中存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。
在一种可选实施方式中,辅助存储器410可以额外包括或选择性包括用于允许计算机程序或其他指令加载到计算装置400中的其他类似装置。这样的装置可以包括例如可移动存储单元422和接口420。可移动存储单元 422和接口420的示例包括可移动存储芯片(例如EPROM或PROM)和相关联的插槽,以及其他可移动存储单元422和允许软件和数据从可移动存储单元422传输到计算机系统400的接口420。
计算装置400还包括至少一个通信接口424。通信接口424允许软件和数据经由通信路径426在计算装置400和外部装置之间传输。在各种实施例中,通信接口424允许数据在计算装置400和数据通信网络(诸如公共数据或私有数据通信网络)之间传输。通信接口424可用于在不同的计算装置400之间交换数据,这些计算装置400形成互连的计算机网络的一部分。通信接口424的示例可以包括调制解调器、网络接口(诸如以太网卡),通信端口、具有相关电路的天线等。通信接口424可以是有线的或者可以是无线的。软件和数据以信号的形式经由通信接口424传输,该信号可以是能够被通信接口424接收的电、电磁、光或其他信号。这些信号经由通信路径426被提供给通信接口。
在一种可选实施方式中,计算装置400进一步包括:显示器接口402,其执行用于将图像提供给关联的显示器430的操作;以及音频接口432,其执行用于经由关联的扬声器434播放音频内容的操作。
在本申请文件中,术语“计算机程序产品”部分程度上可以指代:可移动存储单元418、可移动存储单元422、安装在硬盘驱动器412中的硬盘,或通过通信路径426(无线链路或线缆)将软件传输到通信接口424的载波。计算机可读存储介质是指将记录的指令和/或数据提供给计算装置400以执行和/或处理的任何非暂时性有形存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、Blu-rayTM盘、硬盘驱动器、ROM或集成电路、 USB存储器、磁光盘或诸如PCMCIA卡之类的计算机可读卡,这些部件无论是在计算装置400的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向计算装置400提供软件、应用程序、指令和/或数据。瞬态或非有形计算机可读传输介质的示例包括无线电或红外传输信道以及与其他计算机或网络设备的网络连接,以及包括电子邮件传输和在网站等上记录的信息的因特网或内部网。
计算机程序(也称为计算机程序代码)存储在主存储器408和/或辅助存储器410中。也可以经由通信接口424来接收计算机程序。此类计算机程序在被执行时使计算装置400能够实现本文所提供实施例中的一个或多个特征。在各种实施例中,计算机程序在被执行时使处理器404能够实现上述实施例的特征。因此,这样的计算机程序可以代表计算机系统400的控制器。
软件可以存储在计算机程序产品中,并使用可移动存储驱动器414、硬盘驱动器412或接口420加载到计算装置400中。在一种可选实施方式中,可以通过通信路径426将计算机程序产品下载到计算机系统400。该软件在由处理器404执行时使计算装置400执行本文描述的实施例的功能。
应该理解,图4的实施例仅以示例的方式给出。因此,在一些实施例中,可以省略计算装置400的一个或多个特征。而且,在一些实施例中,计算装置400的一个或多个特征可以被组合在一起。另外,在一些实施例中,计算装置400的一个或多个特征可以被分成一个或多个组成部分。
在一个实施例中,提供了一种自动OCR更正系统。该系统包括处理器装置(例如处理器404)和包括计算机程序代码的存储装置(例如辅助存储器410)。存储装置和计算机程序代码被配置为,与处理器装置一起使该系统至少:使用经过训练的LSTM神经网络语言模型评估OCR结果,以确定该OCR结果是否需要更正。如果该OCR结果需要更正,该系统进一步被促使:使用修改后的编辑距离技术从姓名和地址语料库中确定针对该OCR 结果的最相似文本。
该系统还进一步被促使:用所确定的最相似文本更正该OCR结果。特别是,该系统可以评估历史中编辑对频率的对数、即log(历史中编辑对的频率)以确定针对该OCR结果的最相似文本。
该系统可进一步被促使:(i)基于与目标域相关联的姓名和地址集合来构建姓名和地址语料库;(ii)在训练阶段,使用姓名和地址语料库训练该LSTM神经网络语言模型。
修改后的编辑距离预处理可以在训练阶段执行。由于从历史数据中获得了“编辑对频率”结果,因此可以在训练阶段之前确定并存储该结果,并在准备好新的语料库时更新该结果。
为了实施反馈机制以提高性能,系统可以进一步被促使:(a)将更正后的OCR结果添加到与目标域关联的姓名和地址集合中;(b)基于包括更正后的OCR结果的姓名和地址集合,重新构建姓名和地址语料库;和(c) 使用重新构建的姓名和地址语料库重新训练LSTM神经网络语言模型。
本说明书中描述的技术产生一种或多种技术效果。特别是,使用通过姓名和地址语料库训练的语言模型,可以自动确定可能不正确的文本,并忽略正确的文本。语料库的更正结果更可靠,并且语料库大小的增加不断提高自动OCR更正的性能。
本领域技术人员将理解的是,如具体实施方式所示,在不背离本发明主旨和范围的前提下,可以对本发明进行多种变化和/或修改。因此,本实施例在各方面都应是说明性的而不是限制性的。
例如,可以应用其他方法来确定OCR结果是否需要更正。例如,文本分类算法可用于对要更正的结果进行分类。OCR系统的置信度分数也可以用于与预定阈值比较,以确定OCR结果是否需要更正。此外,除了修改后的编辑距离之外,其他距离方法,例如“Jaccard距离”也可以用于从语料库中确定最相似文本。

Claims (13)

1.一种光学字符识别OCR系统,包括:
获取装置,被配置为获取物理文档的数字图像;
图像转换装置,被配置为将所述物理文档的数字图像转换为相应的机器可读文本;
更正装置,被配置为:
使用经过训练的长短期记忆LSTM神经网络语言模型来评估所述机器可读文本,以确定所述机器可读文本是否需要更正;
如果所述机器可读文本需要更正,则使用修改后的编辑距离技术从姓名和地址语料库中确定针对所述机器可读文本的最相似文本;其中,所述修改后的编辑距离技术包括:在使用最少步骤将一个字符串转换为另一个字符串的过程中,将所述最少步骤中的每个步骤的每次操作作为一个编辑对,并为每个编辑对建模视觉相似度;所述视觉相似度通过对历史编辑对的频率进行对数运算、即log(历史中编辑对的频率)来确定;所述姓名和地址语料库根据来自目标域的历史数据中的姓名和地址字段确定;
以及用所确定的最相似文本更正所述机器可读文本;以及
输出装置,被配置为:
(i)输出更正后的机器可读文本,以及
(ii)将所述更正后的机器可读文本和未更正的机器可读文本添加到所述姓名和地址语料库。
2.根据权利要求1所述的OCR系统,其中,所述系统还包括:
数据库装置,存储有与目标域相关联的姓名和地址集合,其中,所述数据库装置被配置为基于所存储的与所述目标域相关联的姓名和地址集合来构建所述姓名和地址语料库;以及
训练装置,被配置为使用所述姓名和地址语料库训练所述LSTM神经网络语言模型。
3.根据权利要求2所述的OCR系统,其中,所述数据库装置进一步被配置为:
基于包含有所述更正后的机器可读文本和所述未更正的机器可读文本的所述姓名和地址集合,重新构建所述姓名和地址语料库。
4.根据权利要求3所述的OCR系统,其中,所述训练装置进一步被配置为:
使用重新构建的所述姓名和地址语料库重新训练所述LSTM神经网络语言模型。
5.根据前述任一项权利要求所述的OCR系统,其中,所述更正装置进一步被配置为:
评估历史中编辑对频率的对数、即log(历史中编辑对的频率)以确定针对要更正的机器可读文本的最相似文本。
6.一种自动光学字符识别OCR更正系统,所述系统包括:
处理器装置;以及
包括计算机程序代码的存储装置;
所述存储装置和所述计算机程序代码被配置为,与所述处理器装置一起促使所述系统至少:
使用经过训练的长短期记忆LSTM神经网络语言模型来评估OCR结果,以确定所述OCR结果是否需要更正;
如果所述OCR结果需要更正,则使用修改后的编辑距离技术从姓名和地址语料库中确定针对所述OCR结果的最相似文本;其中,所述修改后的编辑距离技术包括:在使用最少步骤将一个字符串转换为另一个字符串的过程中,将所述最少步骤中的每个步骤的每次操作作为一个编辑对,并为每个编辑对建模视觉相似度;所述视觉相似度通过对历史编辑对的频率进行对数运算、即log(历史中编辑对的频率)来确定;所述姓名和地址语料库根据来自目标域的历史数据中的姓名和地址字段确定;
用所确定的最相似文本更正所述OCR结果;以及
将更正后的OCR结果的和未更正的OCR结果添加到所述姓名和地址语料库。
7.根据权利要求6所述的系统,其中,所述系统进一步被促使:
基于与目标域相关联的姓名和地址集合来构建所述姓名和地址语料库;以及
使用所述姓名和地址语料库训练所述LSTM神经网络语言模型。
8.根据权利要求7所述的系统,其中,所述系统进一步被促使:
基于包含所述更正后的OCR结果和所述未更正的OCR结果的所述姓名和地址集合,重新构建所述姓名和地址语料库;以及
使用重新构建的所述姓名和地址语料库重新训练所述LSTM神经网络语言模型。
9.根据权利要求6至8中任一项所述的系统,其中,所述系统进一步被促使:
评估历史中编辑对频率的对数、即log(历史中编辑对的频率)以确定针对所述OCR结果的最相似文本。
10.一种自动光学字符识别OCR更正的计算机实现方法,包括:
使用经过训练的长短期记忆LSTM神经网络语言模型来评估OCR结果,以确定所述OCR结果是否需要更正;
如果所述OCR结果需要更正,则使用修改后的编辑距离技术从姓名和地址语料库中确定针对所述OCR结果的最相似文本;其中,所述修改后的编辑距离技术包括:在使用最少步骤将一个字符串转换为另一个字符串的过程中,将所述最少步骤中的每个步骤的每次操作作为一个编辑对,并为每个编辑对建模视觉相似度;所述视觉相似度通过对历史编辑对的频率进行对数运算、即log(历史中编辑对的频率)来确定;所述姓名和地址语料库根据来自目标域的历史数据中的姓名和地址字段确定;
用所确定的最相似文本更正所述OCR结果;以及
将更正后的OCR结果和未更正的OCR结果添加到所述姓名和地址语料库。
11.根据权利要求10所述的方法,还包括:
基于与目标域相关联的姓名和地址集合来构建所述姓名和地址语料库;以及
使用所述姓名和地址语料库训练所述LSTM神经网络语言模型。
12.根据权利要求11所述的方法,还包括:
基于包含所述更正后的OCR结果和所述未更正的OCR结果的所述姓名和地址集合,重新构建所述姓名和地址语料库;以及
使用重新构建的所述姓名和地址语料库重新训练所述LSTM神经网络语言模型。
13.根据权利要求10至12中任一项所述的方法,还包括:
评估历史中编辑对频率的对数、即log(历史中编辑对的频率)以确定针对所述OCR结果的最相似文本。
CN202010314192.9A 2019-05-28 2020-04-17 光学字符识别(ocr)系统、自动ocr更正系统、方法 Active CN112016553B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SG10201904825X 2019-05-28
SG10201904825X SG10201904825XA (en) 2019-05-28 2019-05-28 Automatic optical character recognition (ocr) correction

Publications (2)

Publication Number Publication Date
CN112016553A CN112016553A (zh) 2020-12-01
CN112016553B true CN112016553B (zh) 2022-01-25

Family

ID=68342310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010314192.9A Active CN112016553B (zh) 2019-05-28 2020-04-17 光学字符识别(ocr)系统、自动ocr更正系统、方法

Country Status (5)

Country Link
US (1) US11023766B2 (zh)
CN (1) CN112016553B (zh)
MY (1) MY189247A (zh)
PH (1) PH12019000478A1 (zh)
SG (1) SG10201904825XA (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464845B (zh) * 2020-12-04 2022-09-16 山东产研鲲云人工智能研究院有限公司 票据识别方法、设备及计算机存储介质
JP2022095391A (ja) * 2020-12-16 2022-06-28 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
CN112966681B (zh) * 2021-04-12 2022-05-10 深圳市秦丝科技有限公司 商品拍照智能识别建档检索的方法、设备及存储介质
CN113420546A (zh) * 2021-06-24 2021-09-21 平安国际智慧城市科技股份有限公司 文本纠错方法、装置、电子设备及可读存储介质
KR20230006203A (ko) 2021-07-02 2023-01-10 한국전력공사 딥러닝 기반 전력 광학 문자 인식 시스템 및 방법
US11763585B2 (en) 2021-07-14 2023-09-19 Bank Of America Corporation Multi-layer neural network and convolutional neural network for context sensitive optical character recognition
CN113704403A (zh) * 2021-08-25 2021-11-26 深圳市网联安瑞网络科技有限公司 基于词库的ocr语义校正方法、系统、介质、设备、终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046289A (zh) * 2015-08-07 2015-11-11 北京旷视科技有限公司 一种文字域类型识别方法和文字域类型识别系统
CN107480680A (zh) * 2017-07-28 2017-12-15 顺丰科技有限公司 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备
CN109271973A (zh) * 2018-11-09 2019-01-25 天津新开心生活科技有限公司 医学文本ocr方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370361B2 (en) * 2011-01-17 2013-02-05 Lnx Research, Llc Extracting and normalizing organization names from text
US9390460B2 (en) * 2011-11-04 2016-07-12 Document Security Systems, Inc. System and method for dynamic generation of embedded security features in a document
US9519641B2 (en) 2012-09-18 2016-12-13 Abbyy Development Llc Photography recognition translation
US9747281B2 (en) * 2015-12-07 2017-08-29 Linkedin Corporation Generating multi-language social network user profiles by translation
US10366283B2 (en) * 2016-03-18 2019-07-30 Siemens Industry, Inc. Systems and methods of reading and processing change-of-address forms in a cloud-based architecture
US9990544B1 (en) * 2016-03-31 2018-06-05 Intuit Inc. Data accuracy in OCR by leveraging user data and business rules to improve data accuracy at field level
US11151130B2 (en) 2017-02-04 2021-10-19 Tata Consultancy Services Limited Systems and methods for assessing quality of input text using recurrent neural networks
CN107220648B (zh) 2017-04-11 2018-06-22 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN107491730A (zh) 2017-07-14 2017-12-19 浙江大学 一种基于图像处理的化验单识别方法
US20190354919A1 (en) * 2018-08-06 2019-11-21 Farrukh Mahboob Methods and systems for automating package handling tasks through deep-learning based package label parsing
CN109034147B (zh) * 2018-09-11 2020-08-11 上海唯识律简信息科技有限公司 基于深度学习和自然语言的光学字符识别优化方法和系统
CN109376658B (zh) * 2018-10-26 2022-03-08 信雅达科技股份有限公司 一种基于深度学习的ocr方法
CN109389124B (zh) * 2018-10-29 2019-09-13 苏州派维斯信息科技有限公司 小票信息类目识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046289A (zh) * 2015-08-07 2015-11-11 北京旷视科技有限公司 一种文字域类型识别方法和文字域类型识别系统
CN107480680A (zh) * 2017-07-28 2017-12-15 顺丰科技有限公司 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备
CN109271973A (zh) * 2018-11-09 2019-01-25 天津新开心生活科技有限公司 医学文本ocr方法及系统

Also Published As

Publication number Publication date
SG10201904825XA (en) 2019-10-30
PH12019000478B1 (en) 2021-01-11
US11023766B2 (en) 2021-06-01
MY189247A (en) 2022-01-31
US20200380286A1 (en) 2020-12-03
PH12019000478A1 (en) 2021-01-11
CN112016553A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN112016553B (zh) 光学字符识别(ocr)系统、自动ocr更正系统、方法
US11468262B2 (en) Deep network embedding with adversarial regularization
US11062179B2 (en) Method and device for generative adversarial network training
CN110287479B (zh) 命名实体识别方法、电子装置及存储介质
CN111046152B (zh) Faq问答对自动构建方法、装置、计算机设备及存储介质
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113255755A (zh) 一种基于异质融合网络的多模态情感分类方法
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
CN111414946B (zh) 基于人工智能的医疗影像的噪声数据识别方法和相关装置
CN113850162B (zh) 一种视频审核方法、装置及电子设备
CN113705207A (zh) 语法错误识别方法及装置
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN112528653A (zh) 短文本实体识别方法和系统
Jung et al. Improving visual relationship detection using linguistic and spatial cues
CN112509559B (zh) 音频识别方法、模型训练方法、装置、设备及存储介质
CN116150311A (zh) 文本匹配模型的训练方法、意图识别方法及装置
CN111738248B (zh) 字符识别方法、字符译码模型的训练方法及电子设备
CN111695117B (zh) 一种webshell脚本检测方法及装置
CN114241279A (zh) 图文联合纠错方法、装置、存储介质及计算机设备
CN114911922A (zh) 一种情感分析方法、装置和存储介质
CN114596353B (zh) 一种题目处理方法、装置、设备及计算机可读存储介质
CN112528894B (zh) 一种差异项判别方法及装置
US20230042234A1 (en) Method for training model, device, and storage medium
CN113673236A (zh) 模型训练、表格识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042416

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant