CN101685499A - 用于纠正字符识别错误的技术 - Google Patents
用于纠正字符识别错误的技术 Download PDFInfo
- Publication number
- CN101685499A CN101685499A CN200910172883A CN200910172883A CN101685499A CN 101685499 A CN101685499 A CN 101685499A CN 200910172883 A CN200910172883 A CN 200910172883A CN 200910172883 A CN200910172883 A CN 200910172883A CN 101685499 A CN101685499 A CN 101685499A
- Authority
- CN
- China
- Prior art keywords
- financial information
- financial
- character
- expectation
- error measure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Character Discrimination (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及用于纠正字符识别错误的技术。具体地,描述了计算机系统、方法以及计算机程序产品(例如,软件)的实施方式。这些实施方式可以用来识别和纠正财务信息中的错误,其中财务信息已使用字符识别软件进行提取。具体地,通过将用户当前的财务交易的财务信息与根据用户以前的一个或多个财务交易获取的期望的财务信息进行比较,可以标识潜在错误。可以确定这些潜在错误的错误度量并将其用于纠正至少一些潜在错误。例如,可以基于上述比较来确定Levenshtein编辑距离,从而可以纠正与Levenshtein编辑距离的一个或多个最小值相关联的一个或多个潜在错误。
Description
技术领域
本发明涉及用于纠正在对文档执行字符识别操作时可能发生的错误的技术。
背景技术
字符识别技术被广泛使用,其通过将初始格式(诸如位图)中的数据转换为另一格式(诸如ASCII)来提取文档中的信息。例如,光学字符识别(OCR)通常用于将印刷文本转换为对应的数字值,而智能字符识别(ICR)通常用于将手写文本转换为对应的数字值。
遗憾的是,大部分字符识别技术所执行的转换都不够完美,总是存在有限的错误概率。这些错误可能显著地复杂化对已提取信息的后续处理并增加其代价。
发明内容
本发明的一种实施方式提供纠正财务信息中的错误的计算机系统。在操作期间,所述计算机系统接收与财务交易相关联的财务信息。此财务信息是之前使用字符识别软件(诸如光学字符识别(OCR)软件和/或智能字符识别(ICR)软件)提取的。然后,计算机系统取回与该财务交易相关联的用户的期望的财务信息。接着,计算机系统通过将所接收的财务信息与所述期望的财务信息进行比较,以及合计一个或多个错误度量,来标识所接收的财务信息中的潜在错误。此外,计算机系统基于所接收的财务信息中的一个或多个潜在错误的合计错误度量来纠正所接收的财务信息。
注意,所述期望的财务信息可以包括在用户的财务历史中(诸如一个或多个以前的财务交易)。例如,财务历史可以包括:用户的客户列表、客户地址、厂商列表、厂商地址、存货清单或发票。此外,财务历史可以与财务软件相关联。
附加地,财务交易可以与可流通票据(诸如支票)相关联。而且,财务信息可以根据扫描的收据或支票来确定。
在一个或多个合计度量中的给定合计错误度量可以包括在所接收的财务信息中的字符与所述期望的财务信息中的字符之间的Levenshtein编辑距离。而且,在确定给定合计错误度量时,对于不同的潜在错误可以使用不同的权重。例如,具有较低概率(基于在使用字符识别软件时通常发生的错误类型)的潜在错误可以被指派较高的权重。这些不同的潜在错误可以与不同的操作相关联,诸如:字符插入、字符删除、字符替换和/或字符换位。在有些实施方式中,对应于一个或多个潜在错误的合计错误度量是该合计错误度量的极值(诸如最小Levenshtein编辑距离)。
在有些实施方式中,计算机系统接收有关已纠正的财务信息的反馈,以及基于所述反馈,修改用于标识随后接收的财务信息中的潜在错误的过程。
另一实施方式提供了一种方法,包括上述操作中的至少一些操作。
另一实施方式提供了一种计算机程序产品,用于结合所述计算机系统一起使用。
附图说明
图1是示出了根据本发明的一种实施方式,使用字符识别软件确定的财务信息与期望的财务信息进行比较的图示;
图2是示出了根据本发明的一种实施方式,用于纠正财务信息中的错误的过程的流程图;
图3是示出了根据本发明的一种实施方式,纠正财务信息中的错误的联网计算机系统的框图;
图4是示出了根据本发明的一种实施方式,纠正财务信息中的错误的计算机系统的框图;
图5是示出了根据本发明的一种实施方式的数据结构的图示;
图6是示出了根据本发明的一种实施方式的数据结构的图示;
表1提供了针对光学字符识别软件的典型错误以及相关联的权重,其可以在通过将财务信息与期望的财务信息进行比较来确定错误度量时使用。
注意,贯穿全部附图,类似的参考标记指代相应的部分。
具体实施方式
提供以下描述以使得本领域任何技术人员能够制造和使用本发明,其中在特定应用及其需求的上下文中提供此描述。对所公开的实施方式的各种变形对于本领域技术人员来说将是很明显的,并且此处所定义的通用原理可以应用到其他实施方式和应用,而不偏离本发明的精神和范围。因此,其意图不在于将本发明限制在所示出的实施方式,而是按照与此处所公开的原理和特征相一致的最宽广的范围。
描述了计算机系统、方法以及与计算机系统一起使用的计算机程序产品(例如,软件)的实施方式。这些实施方式可以用来标识和纠正财务信息中的错误,其中财务信息已使用字符识别软件(诸如OCR软件和/或ICR软件)进行提取。具体地,通过将用户当前财务交易的财务信息与根据用户以前的一个或多个财务交易而获取的期望的财务信息进行比较,可以标识潜在错误。可以确定这些潜在错误的错误度量,并将其用于纠正至少一些潜在错误。例如,可以基于上述比较来确定Levenshtein编辑距离,从而可以纠正与Levenshtein编辑距离的一个或多个最小值相关联的一个或多个潜在错误。
通过标识和纠正财务信息中的潜在错误,此错误纠正技术可以提高使用字符识别软件提取信息的可靠性(也即,可以减小错误概率)。改善的可靠性可以减小随后处理财务信息的复杂性及其代价。
现在描述用于纠正财务信息中的错误的过程的实施方式。图1给出了示出使用字符识别软件确定的财务信息110与期望的财务信息112的比较的图示100。此财务信息可以与用户的财务交易相关联。例如,可能已经使用可流通票据(诸如支票)进行此财务交易,并且已经通过对扫描的支票执行字符识别而获得了财务信息。备选地,可能已经使用信用卡或借记卡进行此财务交易,并且已经通过对扫描的收据执行字符识别而获得了财务信息。
遗憾的是,诸如OCR软件和ICR软件的字符识别软件具有在财务信息110中产生错误114的有限概率。如下文参考图2所描述,这些错误可以通过将财务信息110与期望的财务信息112进行比较来加以标识和纠正,其中期望的财务信息可以基于该用户以前进行的一个或多个财务交易来确定。例如,财务交易可以是对厂商的例行支付,这种情况下,与以前对厂商的一个或多个支付的比较可以用来标识和纠正错误114。具体地,财务信息110中的潜在错误可以通过计算财务信息110与期望的财务信息112之间差别的Levenshtein编辑距离来标识,并且可以纠正与该Levenshtein编辑距离的最小值(或最小值的变动范围)相关联的一个或多个潜在错误。
注意,可以在用户的财务历史中存储期望的财务信息,诸如根据以前的一个或多个财务交易得到的财务信息。而且,财务历史可以与财务软件相关联,诸如支付账或会计软件,其由用户日常使用。
在接下来的讨论中,OCR应当理解为包括将手写的、打字的或印刷的文本的图像(其可以通过扫描仪捕获)机械式或电子式转换为机器可编辑文本(更一般地说,数字数据)。类似地,ICR应当被理解为包括将字形和不同手写字体转换为机器可编辑文本(更一般地说,数字数据)的手写识别系统。尽管这些字符识别技术用作示意性示例,但错误纠正技术可以应用于纠正使用图案识别技术从文档中提取的各种各样的信息(包括图像)中的错误。而且,尽管使用财务信息示出此错误纠正技术,但是在其他实施方式中,错误纠正技术可以应用于除财务信息之外的其他信息。
而且,Levenshtein编辑距离应当理解为包括针对两个序列之间的差别的概括性度量(也即,它是所谓的编辑距离)。具体地,两个字符串之间的Levenshtein编辑距离可以由将一个字符串转换为另一个字符串所需的最小操作次数给出。这些操作可以包括:插入字符(字符插入)、删除字符(字符删除)、替换字符(字符替换)和/或两个或更多字符换位(字符换位)。尽管Levenshtein编辑距离用作示意性示例,但可以使用各种各样的错误度量(诸如汉明距)来标识和纠正潜在错误。
图2提供了示出了可以由计算机系统执行的、用于纠正财务信息中的错误的过程200的流程图。在操作期间,计算机系统接收与财务交易相关联的财务信息(210)。此财务信息是之前使用字符识别软件(诸如OCR软件和/或ICR软件)提取的。然后,计算机系统取回与该财务交易相关联的用户的期望的财务信息(212)。
接着,计算机系统通过将所接收的财务信息与期望的财务信息进行比较,以及合计一个或多个错误度量,来标识所接收的财务信息中的潜在错误(214)。例如,一个或多个合计度量中的给定合计错误度量可以包括:接收到的财务信息中的字符与期望的财务信息中的字符之间的Levenshtein编辑距离。而且,当确定给定合计错误度量时,对于不同的潜在错误可以使用不同的权重。例如,具有较低概率(基于在字符识别期间通常发生的错误类型)的潜在错误可以被指派较高的权重。这些不同的潜在错误可以与不同的操作相关联,诸如:字符插入、字符删除、字符替换和/或字符换位。
进一步,计算机系统基于对应于所接收的财务信息中的一个或多个潜在错误的合计错误度量,来纠正所接收的财务信息(216)。例如,对应于一个或多个潜在误差的合计错误度量可能具有合计错误度量的极值(诸如最小Levenshtein编辑距离)。
在有些实施方式中,计算机系统可选地接收有关已纠正的财务信息的反馈(218),并且可选地基于这些反馈,修改用于标识随后接收的财务信息中的潜在错误的过程(220)。通过这种方式,计算机系统可以调整或知晓应当纠正哪些潜在错误。例如,基于标识在操作216期间未被纠正的潜在错误的反馈,计算机系统可以用合计度量的子集来替换该合计度量。该子集可以对应于一组Levenshtein编辑距离,诸如Levenshtein编辑距离的最小值。
在一种示例性实施方式中,对表示给厂商的支付的纸件文档进行扫描,以及使用OCR软件提取厂商名称‘Reqles’(财务信息)。此外,假设在该用户的财务历史中期望的厂商名称(期望的财务信息)包括‘Pogle’s’和‘Cebles’。如表1所示,其示出了当使用OCR软件时候可能发生的典型错误。继而,在基于财务信息与期望的财务信息的比较来计算Levenshtein编辑距离时,可以使用表1中所示的权重。在此示例中,针对任何其他错误(诸如添加、去除或替换字符)的权重是1.0。
典型错误 | 概率 | 权重 |
混淆‘P’和‘R’ | 高 | 0.1 |
混淆‘R’和‘C’ | 低 | 1.9 |
混淆‘o’和‘e’ | 高 | 0.1 |
混淆‘g’和‘q’ | 高 | 0.1 |
混淆‘q’和‘b’ | 低 | 1.9 |
添加或去除撇号 | 高 | 0.1 |
表1
由于在用户的财务历史中没有找到厂商名称‘Reqles’,因此基于在OCR处理中发生了一个或多个错误的假设来执行与类似厂商名称的比较。例如,总共通过四次操作可以将厂商名称‘Reqles’转换为厂商名称‘Pogle’s’,其合计错误度量或Levenshtein编辑距离(按照表1)是0.4。具体地,可以通过以下操作将‘Reqles’转换为‘Pogle’s’:用‘P’替换‘R’,其错误度量贡献(或权重)为0.1;用‘o’替换‘e’,其错误度量贡献为0.1;用‘g’替换‘p’,其错误度量贡献为0.1;以及添加撇号,其错误度量贡献为0.1。
然而,使用两次操作可以将厂商名称‘Reqles’转换为‘Cebles’,其合计错误度量或Levenshtein编辑距离(按照表1)为3.8。具体地,可以通过以下操作将‘Reqles’转换为‘Cebles’:用‘C’替换‘R’,其错误度量贡献(或权重)为1.9;用‘b’替换‘q’,其错误度量贡献(或权重)为1.9。
虽然需要更多的操作将厂商名称‘Reqles’转换为‘Pogle’s’,但是此厂商名称的可能性更大,因为其具有较低的Levenshtein编辑距离。因此,基于与最小Levenshtein编辑距离(其标识在OCR期间更有可能发生的潜在错误)相关联的操作,可以标识财务信息中的潜在错误(从而进行纠正)。
注意,如果在财务历史中不存在接收到的财务信息(210)与期望的财务信息之间的匹配,并且通过将接收到的财务信息与期望的财务信息进行比较而确定的Levenshtein编辑距离超过某阈值(诸如2.0),则可以认为此接收到的财务信息是正确的。例如,接收到的财务信息可能对应于与新厂商的财务交易,其被添加到财务历史中。
在其他实施方式中,字符识别技术混淆‘3’和‘8’的概率可能比较高。因此,低权重可以与此操作相关联。然而,字符识别技术混淆‘I’和‘W’的概率可能比较低,因而较高的权重可以与此操作相关联。类似地,不同的权重可以用于添加或删除不同的字符。例如,低权重可以用于添加或删除‘1’,而较大的权重可以用于添加或删除‘W’。而且,合计错误度量可以包括复合或多字符操作。例如,单个较低权重可以用于将‘w’代替‘vv’(而不是包括用于将‘w’替换‘v’继而添加另一个‘v’的两个权重)。
一般而言,可以基于字符识别技术混淆特定字符或针对特定字符出错的似然性或概率来选择权重。在有些实施方式中,所使用的权重可以特定于给定用户。因此,当处理给定用户的财务信息时,如果字符识别技术倾向于具有特定错误,则对应的权重可以为低,而与其他操作(因而其他潜在错误)相关联的权重可以较高。
在过程200的有些实施方式中,可以具有附加的或较少的操作。而且,操作的顺序可以改变,和/或两个或多个操作可以合并成单个操作。
现在描述执行过程200的计算机系统的实施方式。图3提供了示出了纠正财务信息中的错误的联网计算机系统300的框图。在该计算机系统中,支票处理中心310从多个用户接收支票或支票的扫描图像。接着,可以使用字符识别软件将这些支票(或支票图像)上的财务信息转换为数字格式。此字符识别软件可以驻留在支票处理中心310的计算机上,并且可以经由网络312将财务信息提供给服务器314。备选地,支票的扫描图像可以经由网络312传送给服务器314,其继而使用在服务器314上运行的字符识别软件将财务信息转换为数字格式。
然后,服务器314可以使用过程200(图2)来标识和纠正财务信息中的潜在错误。具体地,在服务器314上驻留和运行的错误分析软件可以访问用户的期望的财务信息。例如,期望的财务信息可以包括在财务历史中,诸如属于银行316(或更一般地,金融机构)的服务器上的用户账户记录,其经由网络312提供给服务器314。备选地或附加地,期望的财务信息可以包括在与财务软件相关联的财务历史中,其存储在服务器314上。
使用期望的财务信息,错误分析软件可以确定合计错误度量,并且可以纠正与具有极值的合计错误度量相关联的那些错误。然后,用户的已纠正财务信息可以提供给计算机系统300中的其他计算机或服务器,以进行后续处理。例如,可以基于已纠正财务信息来更新银行316的用户记录中的用户账户收支(例如,可以从用户账户收支中减去给厂商的支付)。
在有些实施方式中,计算机系统300的操作者提供有关错误分析软件的准确性和有效性的反馈。例如,操作者可以确定财务信息中的所有错误是否都已标识和纠正。基于此反馈,错误分析软件可以调整与不同潜在错误相关联的权重,从而改进与此用户和/或多个用户随后的财务交易相关联的财务信息的处理。
一般而言,诸如一个或多个用户的期望的财务信息之类的信息可以存储在计算机系统300中的一个或多个其他位置(也即,本地存储或远程存储)。而且,由于此信息以及财务信息可能是敏感信息,因此可以对其进行加密。例如,可以对所存储的信息和/或经由网络312传送的信息进行加密。
计算机系统300中的计算机和服务器可以包括能够操纵计算机可读数据或通过网络在两个或多个计算系统之间传送此类数据的各种设备中的一种,这些设备包括:个人计算机、膝上型计算机、大型机、便携式电子设备(诸如蜂窝电话或PDA)、服务器和/或客户端计算机(在客户端-服务器架构中)。而且,网络312可以包括:因特网、万维网(WWW)、内联网、LAN、WAN、MAN或网络的组合,或支持计算机系统之间的通信的其他技术。
在示例性实施方式中,财务软件包括如下软件,例如:QuickenTM和/或Turbo TaxTM(来自加利福尼亚州Mountain View的Intuit公司),Microsoft MoneyTM(来自华盛顿Redmond的Microsoft公司),SplashMoneyTM(来自加利福尼亚州Los Gatos的SplashData公司),MvelopesTM(来自犹他州Draper的In2M公司),和/或开源应用,诸如GnucashTM、PLCashTM、BudgetTM(来自明尼苏达州St.Paul的Snowmint Creative Solutions LLC)和/或其他能够处理财务信息的规划软件。
而且,财务软件可以包括如下软件,诸如:QuickBooksTM(来自加利福尼亚州Mountain View的Intuit公司),PeachtreeTM(来自英国的Newcastle Upon Tyne的The Sage Group PLC),PeachtreeCompleteTM(来自英国的Newcastle Upon Tyne的The Sage GroupPLC),MYOB Business EssentialsTM(来自新泽西州Rockaway的MYOB US公司),NetSuite Small Business AccountingTM(来自加利福尼亚州San Mateo的NetSuite公司),Cougar MountainTM(来自爱达荷州Boise的Cougar Mountain Software),Microsoft OfficeAccountingTM(来自华盛顿Redmond的Microsoft公司),SimplyAccountingTM(来自英国的Newcastle Upon Tyne的The Sage GroupPLC),CYMA IV AccountingTM(来自亚利桑那州Tempe的CYMASystems公司),DacEasyTM(来自佐治亚州Lawrenceville的SageSoftware SB公司),Microsoft MoneyTM(来自华盛顿Redmond的Microsoft公司),和/或其他能够处理支付账信息的支付账或会计软件。
图4给出了示出纠正财务信息中错误的计算机系统400的框图。计算机系统400包括一个或多个处理器410、通信接口412、用户接口414以及将这些部件耦合在一起的一个或多个信号线422。注意,一个或多个处理器410可以支持并行处理和/或多线程操作,通信接口412可以具有永久通信连接,一个或多个信号线422可以构成通信总线。而且,用户接口414可以包括:显示器416、键盘418和/或指点器420(诸如鼠标)。
计算机系统400中的存储器424可以包括易失性存储器和/或非易失性存储器。更具体地,存储器424可以包括:ROM、RAM、EPROM、EEPROM、闪存、一个或多个智能卡、一个或多个磁盘存储设备、和/或一个或多个光存储设备。存储器424可以存储操作系统426,其包括用于处理各种基本系统服务以执行硬件相关的任务的过程(或指令集合)。存储器424也可以在通信模块428中存储过程(或指令集合)。这些通信过程可以用于与一个或多个计算机和/或服务器通信,包括相对于计算机系统400位于远程的计算机和/或服务器。
存储器424还可以包括多个程序模块(或指令集合),包括:财务模块430(或指令集合)、错误分析模块432(或指令集合)、字符识别模块442(或指令集合),和/或可选的加密模块446(或指令集合)。字符识别模块442可以将扫描图像444(诸如可流通票据的图像)上的财务信息转换为数字格式,其存储在财务交易434中。例如,财务交易434可以包括某一用户的财务信息A 436-1以及另一用户的财务信息B 436-2。
然后,错误分析模块432访问与财务交易434之一相关联的用户的期望的财务信息,诸如财务信息A 436-1。此期望的财务信息可以存储在财务历史438中并且可以与财务模块430相关联。
接下来,错误分析模块432可以通过将财务信息A 436-1与期望的财务信息进行比较以及针对潜在的错误合计一个或多个错误度量(诸如Levenshtein编辑距离)来确定财务信息A 436-1中的潜在错误。可以使用针对不同错误操作的权重440来确定这些错误度量。而且,错误分析模块432可以基于一个或多个合计错误度量,来纠正财务信息A 436-1中的一个或多个潜在错误,诸如与Levenshtein编辑距离的最小值或Levenshtein编辑距离的一个数值范围相关联的一个或多个潜在错误。
注意,可以由错误分析模块432基于潜在错误标识和纠正的准确性来为一个或多个用户确定权重440,和/或可以预先确定权重。例如,权重可以与字符识别模块442的字符错误相关联。
在有些实施方式中,使用可选的加密模块446对存储在存储器424中的至少一些信息和/或使用通信模块428传送的至少一些信息进行加密。
在存储器424的各种模块中的指令可以通过以下语言实现:高级过程语言、面向对象编程语言和/或编译或机器语言。注意,编程语言可以被编译或解释,例如,可配置或配置成由一个或多个处理单元410来执行。
尽管将计算机系统400示出为具有多个分立部件,但是图4的意图在于可以提供给计算机系统400的各种特征的功能性描述,而不是此处所描述的实施方式的结构示意。在实践中,如本领域普通技术人员可以认识到的那样,计算机系统400的功能可以分布在大量服务器或计算机上,服务器和计算机的各种群组执行这些功能的特定子集。在有些实施方式中,计算机系统400的部分或全部功能可以通过一个或多个专用集成电路(ASIC)和/或一个或多个数字信号处理器(DSP)来实现。
计算机系统300(图3)和/或400可以包括更少的或附加的部件。而且,两个或更多部件可以合并成单个部件,和/或一个或多个部件的位置可以改变。在有些实施方式中,如本领域所公知的,计算机系统400的功能可以大部分在硬件中实现,小部分在软件中实现,或者可以小部分在硬件中实现而大部分在软件中实现。
现在讨论可以在计算机系统300(图3)和/或400中使用的数据结构。图5提供了示出了数据结构500的框图。此数据结构可以包括一个或多个用户的财务历史510。例如,用户的财务历史510-1可以包括:该用户的客户512-1,客户地址514-1,厂商516-1,厂商地址518-1,存货清单520-1和发票522-1。
图6提供了示出了数据结构600的框图。此数据结构可以包括用于一个或多个字符识别技术的错误度量贡献610,其可以用来确定合计错误度量。例如,错误度量贡献610-1可以包括多对操作612与相关联的权重614。
注意,在数据结构500(图5)和/或600的有些实施方式中,可以有更少或附加的部件。而且,两个或更多部件可以合并成一个部件,和/或一个或多个部件的位置可以改变。
仅处于示意性和描述的目的提供了本发明实施方式的前述描述。这些描述的意图不在于穷尽或限制本发明于所公开的形式。因此,很多变形和改变对于本领域技术人员将是很明显的。而且,上述公开的意图不在于限制本发明。本发明的范围由所附权利要求限定。
Claims (21)
1.一种用于纠正财务信息中的错误的方法,包括:
接收与财务交易相关联的财务信息,其中所述财务信息是之前使用字符识别软件提取的;
取回与所述财务交易相关联的用户的期望的财务信息;
通过将接收的所述财务信息与所述期望的财务信息进行比较,以及合计潜在错误的错误度量,来标识接收的所述财务信息中的潜在错误;以及
基于对应于接收的所述财务信息中的一个或多个潜在错误的合计错误度量,来纠正接收的所述财务信息。
2.如权利要求1的方法,其中所述期望的财务信息包括所述用户的财务历史。
3.如权利要求2的方法,其中所述财务历史与财务软件相关联。
4.如权利要求2的方法,其中所述期望的财务信息包括用户的客户列表、客户地址、厂商列表、厂商地址、存货清单或发票。
5.如权利要求1的方法,其中所述字符识别软件包括光字符识别软件。
6.如权利要求1的方法,其中所述字符识别软件包括智能字符识别软件。
7.如权利要求1的方法,其中所述财务交易与可流通票据相关联。
8.如权利要求7的方法,其中所述可流通票据包括支票。
9.如权利要求1的方法,其中给定合计错误度量包括接收的所述财务信息中的字符与所述期望的财务信息中的字符之间的Levenshtein编辑距离。
10.如权利要求9的方法,其中对应于所述一个或多个潜在错误的所述合计错误度量具有所述合计错误度量的极值。
11.如权利要求9的方法,其中在确定所述给定合计错误度量时,对于不同的潜在错误使用不同的权重。
12.如权利要求9的方法,其中所述不同的潜在错误与不同的操作相关联。
13.如权利要求12的方法,其中所述不同的操作包括字符插入、字符删除、字符替换或字符换位。
14.如权利要求1的方法,还包括:接收有关经过纠正的财务信息的反馈;以及
基于所述反馈,修改对后续接收的财务信息中潜在错误的确定。
15.一种与计算机系统结合使用的计算机程序产品,所述计算机程序产品包括计算机可读存储介质以及嵌入在其中的计算机程序机制,其用于配置所述计算机系统以纠正财务信息中的错误,所述计算机程序机制包括:
用于接收与财务交易相关联的财务信息的指令,其中所述财务信息是之前使用字符识别软件提取的;
用于取回与所述财务交易相关联的用户的期望的财务信息的指令;
用于通过将接收的所述财务信息与所述期望的财务信息进行比较以及合计潜在错误的错误度量来标识接收的所述财务信息中的潜在错误的指令;以及
用于基于对应于接收的所述财务信息中的一个或多个潜在错误的合计错误度量来纠正接收的所述财务信息的指令。
16.如权利要求15的计算机程序产品,其中所述期望的财务信息包括所述用户的财务历史。
17.如权利要求16的计算机程序产品,其中所述财务历史与财务软件相关联。
18.如权利要求15的计算机程序产品,其中所述字符识别软件包括光字符识别软件。
19.如权利要求15的计算机程序产品,其中所述字符识别软件包括智能字符识别软件。
20.如权利要求15的计算机程序产品,其中给定合计错误度量包括接收的所述财务信息中的字符与所述期望的财务信息中的字符之间的Levenshtein编辑距离。
21.一种计算机系统,包括:
处理器;
存储器;
程序模块,其中所述程序模块存储在所述存储器中并且配置用于由所述处理器执行,所述程序模块包括用于纠正财务信息中的错误的指令,其中所述指令包括:
用于接收与财务交易相关联的财务信息的指令,其中所述财务信息是之前使用字符识别软件提取的;
用于取回与所述财务交易相关联的用户的期望的财务信息的指令;
用于通过将接收的所述财务信息与所述期望的财务信息进行比较以及合计潜在错误的错误度量来标识接收的所述财务信息中的潜在错误的指令;以及
用于基于对应于接收的所述财务信息中的一个或多个潜在错误的合计错误度量来纠正接收的所述财务信息的指令。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/235,463 | 2008-09-22 | ||
US12/235,463 US8150161B2 (en) | 2008-09-22 | 2008-09-22 | Technique for correcting character-recognition errors |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101685499A true CN101685499A (zh) | 2010-03-31 |
CN101685499B CN101685499B (zh) | 2016-10-12 |
Family
ID=41277892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910172883.3A Active CN101685499B (zh) | 2008-09-22 | 2009-09-07 | 用于纠正字符识别错误的技术 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8150161B2 (zh) |
CN (1) | CN101685499B (zh) |
AU (1) | AU2009206157B2 (zh) |
DE (1) | DE102009041257A1 (zh) |
GB (1) | GB2463577B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103000052A (zh) * | 2011-09-16 | 2013-03-27 | 上海先先信息科技有限公司 | 人机互动的口语对话系统及其实现方法 |
CN103514668A (zh) * | 2012-06-25 | 2014-01-15 | 冲电气工业株式会社 | 交易装置以及程序 |
CN106557747A (zh) * | 2016-11-15 | 2017-04-05 | 平安科技(深圳)有限公司 | 识别保险单号码的方法及装置 |
CN106934918A (zh) * | 2015-12-30 | 2017-07-07 | 航天信息股份有限公司 | 利用基本语料库辅助进行票据字符识别的方法和装置 |
CN108064385A (zh) * | 2015-08-16 | 2018-05-22 | 谷歌有限责任公司 | 比较所提取的用户名与所存储的用户数据 |
CN108875738A (zh) * | 2018-06-13 | 2018-11-23 | 深圳市云识科技有限公司 | 一种智能摄像表的云识别纠错系统及其方法 |
CN111626118A (zh) * | 2020-04-23 | 2020-09-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9990674B1 (en) | 2007-12-14 | 2018-06-05 | Consumerinfo.Com, Inc. | Card registry systems and methods |
US8312033B1 (en) | 2008-06-26 | 2012-11-13 | Experian Marketing Solutions, Inc. | Systems and methods for providing an integrated identifier |
US8060424B2 (en) | 2008-11-05 | 2011-11-15 | Consumerinfo.Com, Inc. | On-line method and system for monitoring and reporting unused available credit |
US20110106671A1 (en) * | 2009-10-30 | 2011-05-05 | Bank Of America Corporation | Financial Transaction Error Detection |
US20110161250A1 (en) * | 2009-12-31 | 2011-06-30 | Koeppel Adam R | Distributed energy generator monitor and method of use |
US10693622B2 (en) * | 2010-06-23 | 2020-06-23 | Oracle International Corporation | Product management system that extracts modifications |
US8472727B2 (en) | 2011-01-07 | 2013-06-25 | Yuval Gronau | Document comparison and analysis for improved OCR |
US8472726B2 (en) | 2011-01-07 | 2013-06-25 | Yuval Gronau | Document comparison and analysis |
US9483606B1 (en) | 2011-07-08 | 2016-11-01 | Consumerinfo.Com, Inc. | Lifescore |
US9106691B1 (en) | 2011-09-16 | 2015-08-11 | Consumerinfo.Com, Inc. | Systems and methods of identity protection and management |
US8738516B1 (en) | 2011-10-13 | 2014-05-27 | Consumerinfo.Com, Inc. | Debt services candidate locator |
US20130204783A1 (en) * | 2012-01-09 | 2013-08-08 | Ace Cash Express, Inc. | System and method for performing remote check presentment (rcp) transactions by a check cashing company |
US9853959B1 (en) | 2012-05-07 | 2017-12-26 | Consumerinfo.Com, Inc. | Storage and maintenance of personal data |
US8655075B2 (en) | 2012-07-05 | 2014-02-18 | Sureprep, Llc | Optical character recognition verification and correction system |
US9654541B1 (en) | 2012-11-12 | 2017-05-16 | Consumerinfo.Com, Inc. | Aggregating user web browsing data |
US9916621B1 (en) | 2012-11-30 | 2018-03-13 | Consumerinfo.Com, Inc. | Presentation of credit score factors |
US9305150B2 (en) * | 2012-12-10 | 2016-04-05 | Lookout, Inc. | Method and system for managing user login behavior on an electronic device for enhanced security |
US10102570B1 (en) | 2013-03-14 | 2018-10-16 | Consumerinfo.Com, Inc. | Account vulnerability alerts |
US9406085B1 (en) | 2013-03-14 | 2016-08-02 | Consumerinfo.Com, Inc. | System and methods for credit dispute processing, resolution, and reporting |
US10685398B1 (en) | 2013-04-23 | 2020-06-16 | Consumerinfo.Com, Inc. | Presenting credit score information |
US9846879B2 (en) | 2013-07-08 | 2017-12-19 | Visa International Service Association | Bank account number validation |
US9477737B1 (en) | 2013-11-20 | 2016-10-25 | Consumerinfo.Com, Inc. | Systems and user interfaces for dynamic access of multiple remote databases and synchronization of data based on user rules |
US20160104129A1 (en) * | 2014-10-09 | 2016-04-14 | Bank Of America Corporation | Artificial intelligence research tool |
US10366458B2 (en) * | 2017-03-01 | 2019-07-30 | Bank Of America Corporation | Live reporting of check image keying issues |
US20190156428A1 (en) * | 2017-11-20 | 2019-05-23 | Accenture Global Solutions Limited | Transaction reconciliation system |
US11544799B2 (en) | 2017-12-05 | 2023-01-03 | Sureprep, Llc | Comprehensive tax return preparation system |
US11238540B2 (en) | 2017-12-05 | 2022-02-01 | Sureprep, Llc | Automatic document analysis filtering, and matching system |
US11314887B2 (en) | 2017-12-05 | 2022-04-26 | Sureprep, Llc | Automated document access regulation system |
US10586133B2 (en) * | 2018-07-23 | 2020-03-10 | Scribe Fusion, LLC | System and method for processing character images and transforming font within a document |
US11265324B2 (en) | 2018-09-05 | 2022-03-01 | Consumerinfo.Com, Inc. | User permissions for access to secure data at third-party |
US10776583B2 (en) * | 2018-11-09 | 2020-09-15 | International Business Machines Corporation | Error correction for tables in document conversion |
US11315179B1 (en) | 2018-11-16 | 2022-04-26 | Consumerinfo.Com, Inc. | Methods and apparatuses for customized card recommendations |
US11238656B1 (en) | 2019-02-22 | 2022-02-01 | Consumerinfo.Com, Inc. | System and method for an augmented reality experience via an artificial intelligence bot |
SG10201904554TA (en) | 2019-05-21 | 2019-09-27 | Alibaba Group Holding Ltd | Methods and devices for quantifying text similarity |
US11941065B1 (en) | 2019-09-13 | 2024-03-26 | Experian Information Solutions, Inc. | Single identifier platform for storing entity data |
CN111783757A (zh) * | 2020-06-01 | 2020-10-16 | 成都科大极智科技有限公司 | 一种基于ocr技术的复杂场景下身份证识别方法 |
CN112800752B (zh) * | 2020-12-31 | 2023-12-01 | 科大讯飞股份有限公司 | 纠错方法、装置、设备以及存储介质 |
US11860950B2 (en) | 2021-03-30 | 2024-01-02 | Sureprep, Llc | Document matching and data extraction |
US11861923B2 (en) | 2021-12-31 | 2024-01-02 | Huawei Technologies Co., Ltd. | Methods, apparatuses, and computer-readable storage media for image-based sensitive-text detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1131302A (zh) * | 1994-10-28 | 1996-09-18 | 惠普公司 | 进行串匹配的方法 |
CN1383516A (zh) * | 2000-07-05 | 2002-12-04 | 八万系统有限公司 | 采用一对一比较的汉字校对系统 |
CN1892642A (zh) * | 2005-07-06 | 2007-01-10 | 国际商业机器公司 | 处理表格的方法和系统 |
CN101088108A (zh) * | 2005-01-06 | 2007-12-12 | 国际商业机器公司 | 在销售点站中的支票码字行识别的联机纠正 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5850480A (en) * | 1996-05-30 | 1998-12-15 | Scan-Optics, Inc. | OCR error correction methods and apparatus utilizing contextual comparison |
JPH10222603A (ja) * | 1997-01-31 | 1998-08-21 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
EP0923043A1 (en) | 1997-12-11 | 1999-06-16 | Cadix Inc. | Handwritten character verification method and apparatus therefor |
GB2434477A (en) | 2006-01-23 | 2007-07-25 | Lockheed Corp | Modified levenshtein distance algorithm for coding |
US7664343B2 (en) * | 2006-01-23 | 2010-02-16 | Lockheed Martin Corporation | Modified Levenshtein distance algorithm for coding |
-
2008
- 2008-09-22 US US12/235,463 patent/US8150161B2/en active Active
-
2009
- 2009-08-04 AU AU2009206157A patent/AU2009206157B2/en active Active
- 2009-09-07 CN CN200910172883.3A patent/CN101685499B/zh active Active
- 2009-09-11 DE DE102009041257A patent/DE102009041257A1/de active Pending
- 2009-09-17 GB GB0916353.6A patent/GB2463577B/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1131302A (zh) * | 1994-10-28 | 1996-09-18 | 惠普公司 | 进行串匹配的方法 |
CN1383516A (zh) * | 2000-07-05 | 2002-12-04 | 八万系统有限公司 | 采用一对一比较的汉字校对系统 |
CN101088108A (zh) * | 2005-01-06 | 2007-12-12 | 国际商业机器公司 | 在销售点站中的支票码字行识别的联机纠正 |
CN1892642A (zh) * | 2005-07-06 | 2007-01-10 | 国际商业机器公司 | 处理表格的方法和系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103000052A (zh) * | 2011-09-16 | 2013-03-27 | 上海先先信息科技有限公司 | 人机互动的口语对话系统及其实现方法 |
CN103514668A (zh) * | 2012-06-25 | 2014-01-15 | 冲电气工业株式会社 | 交易装置以及程序 |
CN103514668B (zh) * | 2012-06-25 | 2016-04-13 | 冲电气工业株式会社 | 交易装置以及程序 |
CN108064385A (zh) * | 2015-08-16 | 2018-05-22 | 谷歌有限责任公司 | 比较所提取的用户名与所存储的用户数据 |
CN106934918A (zh) * | 2015-12-30 | 2017-07-07 | 航天信息股份有限公司 | 利用基本语料库辅助进行票据字符识别的方法和装置 |
CN106557747A (zh) * | 2016-11-15 | 2017-04-05 | 平安科技(深圳)有限公司 | 识别保险单号码的方法及装置 |
CN108875738A (zh) * | 2018-06-13 | 2018-11-23 | 深圳市云识科技有限公司 | 一种智能摄像表的云识别纠错系统及其方法 |
CN108875738B (zh) * | 2018-06-13 | 2022-03-08 | 深圳市云识科技有限公司 | 一种智能摄像表的云识别纠错系统及其方法 |
CN111626118A (zh) * | 2020-04-23 | 2020-09-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
GB2463577B (en) | 2012-08-15 |
GB2463577A (en) | 2010-03-24 |
AU2009206157A1 (en) | 2010-04-08 |
CN101685499B (zh) | 2016-10-12 |
US8150161B2 (en) | 2012-04-03 |
DE102009041257A1 (de) | 2010-04-01 |
GB0916353D0 (en) | 2009-10-28 |
US20100074509A1 (en) | 2010-03-25 |
AU2009206157B2 (en) | 2015-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101685499A (zh) | 用于纠正字符识别错误的技术 | |
US8958605B2 (en) | Systems, methods and computer program products for determining document validity | |
US7020320B2 (en) | Extracting text written on a check | |
US8326761B1 (en) | System and method for MICR-based duplicate detection and management | |
US20060219773A1 (en) | System and method for correcting data in financial documents | |
US20140153830A1 (en) | Systems, methods and computer program products for processing financial documents | |
US7711176B2 (en) | Computer-implemented method of processing a substitute check and an apparatus therefor | |
US20050281450A1 (en) | System and method for correcting data in financial documents | |
JP5202677B2 (ja) | レシートデータ認識装置およびそのプログラム | |
US10509958B2 (en) | Systems and methods for capturing critical fields from a mobile image of a credit card bill | |
US11501344B2 (en) | Partial perceptual image hashing for invoice deconstruction | |
JP5810568B2 (ja) | 情報処理装置、プログラム、およびデータの抽出方法 | |
CN113065939A (zh) | 无人值守财务票据报销方法、系统、电子设备及存储介质 | |
US7792746B2 (en) | Method and system for matching remittances to transactions based on weighted scoring and fuzzy logic | |
US20080252924A1 (en) | System and method for transferring invoice data output of a print job source to an automated data processing system | |
TWI716761B (zh) | 智能會計帳務系統與會計憑證的辨識入帳方法 | |
CN114445079A (zh) | 单据处理方法、装置、设备和存储介质 | |
US20090192810A1 (en) | Fraud detection system & method | |
CN111768565B (zh) | 一种增值税发票中发票代码识别后处理方法 | |
CN113469005A (zh) | 一种银行回单的识别方法、相关装置及存储介质 | |
WO2020136778A1 (ja) | 書類分類システム、書類分類装置、書類分類方法、書類分類プログラム | |
TWM575887U (zh) | 智能會計帳務系統 | |
US8792751B1 (en) | Identifying and correcting character-recognition errors | |
US20230055042A1 (en) | Partial Perceptual Image Hashing for Document Deconstruction | |
EP3955130A1 (en) | Template-based document extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |