CN111985519B

CN111985519B - 文本相似度量化方法、设备及系统

Info

Publication number: CN111985519B
Application number: CN202010313564.6A
Authority: CN
Inventors: 李若愚
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2019-05-21
Filing date: 2020-04-17
Publication date: 2021-07-27
Anticipated expiration: 2040-04-17
Also published as: US20200372293A1; PH12019000463A1; US10929710B2; CN113723466A; MY189246A; SG10201904554TA; US11210553B2; US20210174136A1; PH12019000463B1; CN113723466B; CN111985519A

Abstract

本发明提供了文本相似度量化方法、设备及系统。该设备包括：处理器；包括计算机程序代码的存储器。存储器和计算机程序代码与处理器一起促使该设备：获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径，其中，每个最短操作路径包括一个或多个编辑对，每个编辑对表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作；确定多个相似度得分，每个相似度得分对应所述多个最短操作路径之一，其中每个相似度得分是通过对每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的；选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。

Description

文本相似度量化方法、设备及系统

技术领域

本发明通常涉及文本相似度量化方法、设备及系统。

背景技术

光学字符识别(通常缩写为OCR)是一种识别图像或物理文档中的文本并将识别出的文本转换为机器编码文本的技术。机器编码文本通常被称为OCR文本。

eKYC(electronic-Know Your Customer，电子了解您的客户)是一种数字尽职调查过程，由企业执行以验证其客户的身份并评估在业务关系上是否存在非法意图(例如洗钱)的潜在风险。

当执行eKYC时，OCR可用于识别例如身份证、护照等官方身份(ID)文件中的文本内容(例如，姓名、地址、身份证号等)。通常，在用户界面上显示OCR文本，以用于用户进行确认或编辑。如果用户使用编辑文本来更正OCR文本，则出于风险控制考虑，有必要先验证编辑文本是否合理，再接受更正。因此，评估OCR文本与用户编辑文本之间的相似度以验证编辑文本是否合理变得有用。

目前，编辑距离(Edit Distance)技术和杰卡德距离(Jaccard Distance)技术用于评估两个文本字符串之间的相似度。然而，编辑距离技术基于将一个文本字符串转换为另一个文本字符串所需的最少操作次数来评估相似度，但是忽略了两个文本字符串之间的视觉相似度；另一方面，杰卡德距离技术忽略了视觉相似度和两个文本字符串中字符的顺序。

下表1中显示了如何根据编辑距离技术评估2个文本字符串之间的相似度的示例。

如表1所示，在编辑距离技术中，编辑距离用于指示将文本字符串A转换为文本字符串B所需的最少操作次数。在示例1中，需要一次操作：用字母“O”替换数字“0”，以将“B0B”转换为“BOB”。在示例2中，需要一次操作：用数字“1”替换字母“B”，以将“BOB”转换为“1OB”。示例1和示例2中的编辑距离相同，即每个编辑距离等于1。这样，在编辑距离技术中，“B0B”和“BOB”之间的相似度以及“BOB”和“1OB”之间的相似度被认为是相同的。这样的相似度评估仅考虑最少操作次数，而忽略了每次操作中的字符对之间的视觉相似度，不正确地将“0”和“O”与“B”和“1”视为相同。

因此，存在提供如下方法和设备的需求，该方法和设备不仅评估将一个文本字符串转换为另一文本字符串所需的最少操作次数，而且还评估两个文本字符串之间的相关性，即这些操作在这两个文本字符串之间发生的可能性，从而提供改进文本相似度评估的整体综合机制。

借助于改进的文本相似度评估机制，本发明中的方法和设备不仅用于评估(即确定“是否相似”)两个文本字符串之间的文本相似度，还用于量化(即确定“有多相似”)这两个文本字符串之间的文本相似度，从而便于eKYC系统以及其他任何采用OCR技术的电子系统以更高的准确性和可靠性来对OCR文本的手动更正进行自动验证。

发明内容

在一个实施例中，提供文本相似度量化设备，该设备包括：处理器；以及包括计算机程序代码的存储器。该存储器和该计算机程序代码被配置为与所述处理器一起促使所述设备：将编辑对收集到历史数据库中；计算所述历史数据库中所述编辑对的频率；确定所述历史数据库中所述编辑对的历史相似度得分，其中当确定所述历史相似度得分时，所述设备被促使：对所述历史数据库中的每个所述编辑对执行log(频率)计算；根据以下公式将所述log(频率)计算归一化到0.0到1.0的范围：得分(p)＝1.0–(log(p)–最小得分)/(最大得分–最小得分)，其中p表示每个所述编辑对，log(p)表示log(p的频率)计算，最大得分表示log(p的频率)计算的最大得分，且最小得分表示log(p的频率)计算的最小得分。其中，所述设备进一步被促使：获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径，其中，所述多个最短操作路径中的每一个包括一个或多个编辑对，所述一个或多个编辑对中的每一个编辑对表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作；确定多个相似度得分，所述多个相似度得分中的每个所述相似度得分对应所述多个最短操作路径之一，其中所述多个相似度得分中的每个所述相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的，其中从所述历史数据库取得所述一个或多个编辑对的所述历史相似度得分；选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。

在另一实施例中，提供量化文本相似度的计算机实现方法，包括：将编辑对收集到历史数据库中；计算所述历史数据库中所述编辑对的频率；确定所述历史数据库中所述编辑对的历史相似度得分，其中，计算历史相似度得分包括：对所述历史数据库中的每个编辑对执行log(频率)计算；根据以下公式将所述log(频率)计算归一化到0.0到1.0的范围：得分(p)＝1.0–(log(p)–最小得分)/(最大得分–最小得分)，其中p表示每个所述编辑对，log(p)表示log(p的频率)计算，最大得分表示log(p的频率)计算的最大得分，且最小得分表示log(p的频率)计算的最小得分，其中，该方法还包括：获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径，其中，所述多个最短操作路径中的每一个包括一个或多个编辑对，所述一个或多个编辑对中的每一个表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作；确定所述多个最短操作路径的多个相似度得分，其中所述多个相似度得分中的每个所述相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的，其中从所述历史数据库取得所述一个或多个编辑对的所述历史相似度得分；选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。

在又一实施例中，提供文本相似度量化系统，包括：用于从数字图像中捕获OCR文本字符串的OCR设备；用于捕获用户编辑字符串的输入设备；用于对文本相似度进行量化的文本相似度量化设备，其中，所述文本相似度量化设备包括历史相似度得分确定设备，其中，所述文本相似度量化设备被配置为：将编辑对收集到历史数据库中；计算所述历史数据库中编辑对的频率；通过所述历史相似度得分确定设备，确定所述历史数据库中所述编辑对的历史相似度得分，其中，所述历史相似度得分确定设备被促使：对所述历史数据库中的每个所述编辑对执行log(频率)计算；根据以下公式将所述log(频率)计算归一化到0.0到1.0的范围：得分(p)＝1.0–(log(p)–最小得分)/(最大得分–最小得分)，其中p表示每个所述编辑对，log(p)表示log(p的频率)计算，最大得分表示log(p的频率)计算的最大得分，且最小得分表示log(p的频率)计算的最小得分，其中，所述文本相似度量化设备，进一步被配置为：获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径，其中，所述多个最短操作路径中的每一个包括一个或多个编辑对，所述一个或多个编辑对中的每一个表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作；确定所述多个最短操作路径的多个相似度得分，其中所述多个相似度得分中的每个所述相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的，其中从所述历史数据库取得所述一个或多个编辑对的所述历史相似度得分；选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度；以及输出设备，被配置为输出文本相似度量化结果。

附图说明

仅以示例的方式提供实施例，根据以下文字描述并结合附图，本领域的普通技术人员将更好地理解、更加清楚这些实施例：

图1是根据实施例的文本相似度量化设备的示意图。

图2是根据实施例的文本相似度量化系统的示意图。

图3是例示根据实施例的文本相似度量化方法的流程图。

图4示出描绘将OCR文本字符串更正为编辑文本字符串的最短操作路径计算的实施例的矩阵图。所描绘的示例基于编辑距离技术。

图5示出根据本发明实施方式描绘的表格图，在该表格图中描绘有实施例502和实施例504，其中实施例502获得如图4所示的用于将OCR文本字符串更正为编辑文本字符串的多个最短操作路径，实施例504确定该多个最短操作路径的多个相似度得分。

图6是示出根据实施例的编辑对的历史相似度得分的表格图。

图7是例示根据另一实施例的文本相似度量化方法的流程图。

图8示出了计算机系统的框图，该计算机系统适合用作图1所示的示例设备以及图2所示的示例系统中的设备，该计算机系统执行根据图3至图7所示实施例的文本相似度量化方法的至少一些步骤。

技术人员将理解，仅出于简洁清楚的目的而示出图中各要素，并不一定按比例绘制。例如，图示、框图或流程图中的部分要素，可以相对其他要素被放大尺寸，以帮助增进对本实施例的理解。

具体实施方式

将参考附图、仅以示例的方式来描述实施例。附图中相同的附图标记和字符表示相同的要素或等同要素。

按照对计算机存储器内数据进行运算的算法和功能或符号表示的方式，来明确地或隐含地呈现以下部分描述。这些算法描述和功能或符号表示是数据处理领域的技术人员用来向本领域其他技术人员最有效地传达其工作实质的手段。这里，算法通常被认为是导致期望结果的自相容的顺序步骤。这些步骤是需要对物理量进行物理处理的步骤，例如能够存储、传输、组合、比较和以其他方式处理的电、磁或光信号。

除非另有特别说明，并且从以下内容显现，否则可以理解，在整个说明书中，利用诸如“获取”、“表示”、“确定”、“选择”、“取得”、“计算”、“收集”、“执行”、“归一化”、“添加”、“更新”、“更正”、“维持”、“输出”、“捕获”、“接收”等术语所进行的讨论，是指计算机系统或类似电子设备的操作和过程，通过该操作或过程，将呈现为该计算机系统内物理量的数据，处理和转换为类似地呈现为该计算机系统、或其他信息存储、传输或显示设备内物理量的其他数据。

本说明书还公开了用于执行所述方法的操作的装置。该装置可以被专门构造用于所需目的，或者可以包括计算机或由存储在计算机中的计算机程序选择性地激活或重新配置的其他设备。本文提出的算法和显示与任何特定计算机或其他装置没有固有的关联。可以根据本文的教导利用程序来使用各种机器。在一种可选实施方式中，可以适当构造用于执行所需方法步骤的更专业的装置。将在下面的描述中示出适用于执行本文所述的各种方法/过程的计算机的结构。在本说明书中，术语“设备”和“模块”可互换地用于指代执行所述方法的操作的装置。

另外，本说明书还隐含地公开了计算机程序，因为对于本领域技术人员而言，本文所述方法的各个步骤显然可以通过计算机代码来实现。该计算机程序不旨在限于任何特定的编程语言及其实现。可以理解，各种编程语言及其编码可以用于实现本文所包含的本发明的教导。此外，该计算机程序并不旨在限于任何特定的控制流。计算机程序还有许多其他变体，这些变体可以使用不同的控制流而不会背离本发明的主旨或范围。

此外，计算机程序的一个或多个步骤可以并行而不是顺序地执行。该计算机程序可以存储在任何计算机可读介质上。该计算机可读介质可以包括诸如磁盘或光盘、存储芯片的存储设备，或适合于与计算机交互的其他存储设备。该计算机可读介质还可以包括诸如在因特网系统中例示的硬连线介质，或者诸如在GSM移动电话系统中例示的无线介质。当在这样的计算机上加载并执行该计算机程序时，有效地产生了实现优选方法的步骤的装置。

本发明的实施例提供了一种通过数据来驱动的方法，该方法利用从历史数据中获得的操作的频率，来更好地评估和量化(quantify)两个文本字符串之间的文本相似度。

这些操作包括插入操作、删除操作和/或替换操作，可对第一文本字符串中的字符执行这些操作，从而利用第二文本字符串来更正第一文本字符串。字符包括数字、字母、符号等。在OCR环境中，第一文本字符串包括从图像或物理文档的文本内容中识别出的OCR文本字符串。OCR文本字符串可以是姓名、地址、出生日期、身份证号等。第二文本字符串包括用户尝试用来更正OCR文本字符串的用户编辑字符串。

在本发明的各种实施例中，“编辑对”用于表示上述操作。例如，编辑对(“”，“a”)表示插入字符“a”的操作；编辑对(“a”，“”)表示删除字符“a”的操作；编辑对(“a”，“b”)表示用字符“b”替换字符“a”的操作。

图1示出根据本发明实施例的文本相似度量化设备100的示意图。设备100至少包括处理器模块102和存储器模块104。处理器模块102和存储器模块104是互连的。存储器模块104包括计算机程序代码(图1中未示出)。存储器模块104和计算机程序代码被配置为与处理器模块102一起促使设备100执行本发明所描述的文本相似度量化步骤。下面将参考图3描述这些步骤的细节，图3描绘了例示根据实施例的文本相似度量化方法300的流程图。

在一个实施例中，文本相似度量化设备100可以被实现为如图2所示的用于量化文本相似度的示例性系统200中的文本相似度量化模块206。

如图2所示，除了文本相似度量化模块206之外，系统200还可以包括OCR模块202、输入模块204、历史数据库208、历史相似度得分确定模块214和输出模块216。

OCR模块202可以包括获取模块和图像转换模块，两者均未在图2中示出。获取模块可以是光学扫描仪的形式，其被配置为获得物理文档的数字图像。图像转换模块可以被配置为与合适的OCR软件一起将物理文档的数字图像的至少部分文本内容转换为相应的机器可读文本(或代码)。在本发明中，机器可读文本(或代码)可互换地被称为OCR文本字符串。以这种方式，OCR模块202捕获到OCR文本字符串。

输入模块204可以包括键盘、鼠标、手写笔、语音识别用户界面等，用以捕获来自用户的输入。当OCR文本字符串被显示给输出模块216以供用户确认或编辑时，用户可以使用输入模块204来确认OCR文本字符串。如果用户使用输入模块204以利用编辑文本字符串更正OCR文本字符串，则编辑文本字符串可以被输入模块204捕获。

在一些实施例中，当编辑文本字符串被输入模块204捕获时，该系统可以指示(为简单起见，在图2中未示出)OCR模块202和输入模块204分别将OCR文本字符串和编辑文本字符串传输到文本相似度量化模块206。

文本相似度量化模块206可以接收(218)来自OCR模块202的OCR文本字符串，并且接收(220)来自输入模块204的编辑文本字符串，然后根据本发明的方法对OCR文本字符串和编辑文本字符串之间的文本相似度进行量化。当根据本发明的方法对OCR文本字符串和编辑文本字符串之间的文本相似度进行量化时，文本相似度量化模块206可以与历史数据库208通信(222)，以取得量化文本相似度所需的某些编辑对的历史相似度得分。

在图3至图6中描绘了文本相似度量化模块206量化OCR文本字符串和编辑文本字符串之间的文本相似度的方法的示例。如图3所示，当量化OCR文本字符串和编辑文本字符串之间的文本相似度时，文本相似度量化模块206被配置为执行至少以下步骤：

步骤302：获得用编辑文本字符串更正OCR文本字符串的多个最短操作路径，其中，多个最短操作路径中的每一个包括一个或多个编辑对，一个或多个编辑对中的每一个表示在用编辑文本字符串进行更正期间，对OCR文本字符串中的字符可执行的操作；

步骤304：确定多个相似度得分，每个相似度得分对应多个最短操作路径之一，其中，每个相似度得分是通过对每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的；和

步骤306：选择多个相似度得分中的最小相似度得分来量化OCR文本字符串与编辑文本字符串之间的文本相似度。

在下面的段落中，将参考图3、图4和图5描述上述步骤的细节。

再次参考图2，历史数据库208可以包括存储编辑对的编辑对数据库210和存储编辑对(被存储在编辑对数据库210中)的历史相似度得分的历史相似度得分数据库212。编辑对数据库210可以被配置为计算在特定时间段内编辑对被存储在编辑对数据库210中的频率。例如，根据实际需要，该特定时间段可以是一个月、六个月或任何其他时间段。

然后，可以将编辑对的频率从历史数据库208的编辑对数据库210传输(224)到历史相似度得分确定模块214。在接收到编辑对的频率时，历史相似度得分确定模块214被配置为基于从历史数据库208的编辑对数据库210接收的编辑对的频率来确定编辑对的历史相似度得分。然后，将编辑对的历史相似度得分传输(226)到历史数据库208的历史相似度得分数据库212，并存储在历史相似度得分数据库212中。

然后，根据文本相似度量化，文本相似度量化模块206可以将文本相似度量化结果输出(228)到输出模块216。文本相似度量化结果可以包括指示接受或拒绝编辑文本字符串的系统通知消息，或指示用户账户存在潜在风险或锁定用户账户的系统警报。

如果接受编辑文本字符串，则文本相似度量化模块206可以将具有最小相似度得分的最短操作路径中的编辑对添加(230)到历史数据库208的编辑对数据库210中。响应于这些编辑对的添加，历史数据库208可以被配置为与历史相似度得分确定模块214交互以更新历史数据库208中的编辑对的历史相似度得分。

在一些可选实施例中，历史相似度得分确定模块214可以被实现为包括在历史数据库208内的模块。

在一些可选实施例中，历史数据库208和/或历史相似度得分确定模块214可以被实现为包括在文本相似度量化模块206内的模块。

在一些可选实施例中，编辑对数据库210和历史相似度得分数据库212可以被实现为历史数据库208中的一个数据库，该数据库同时存储编辑对及其对应的历史相似度得分。

如上所述，图3描绘了例示根据实施例的文本相似度量化方法300的流程图。

在步骤302，设备100或文本相似度量化模块206获得用编辑文本字符串更正OCR文本字符串的多个最短操作路径。多个最短操作路径中的每一个包括一个或多个编辑对。一个或多个编辑对中的每一个表示在用编辑文本字符串进行更正期间，对OCR文本字符串中的字符可执行的操作。

可以各种方式获得多个最短操作路径。在一个实施例中，可以通过执行编辑距离计算来获得用编辑文本字符串更正OCR文本字符串的多个最短操作路径。在该实施例中，在用编辑文本字符串进行更正期间，对OCR文本字符串中的字符可执行的操作可以是插入操作、删除操作或替换操作中之一。对于本领域技术人员而言，可以理解的是，其他技术也可以用于获得多个最短操作路径。例如，可以定义更多的操作，例如交换两个相邻字符的操作，将文本字符串“AB”转换为另一文本字符串“BA”视为一个操作。

在本实施例中，利用编辑距离技术推导出OCR文本字符串和编辑文本字符串之间的编辑距离，从而获得多个最短操作路径。

基于编辑距离技术，针对两个文本字符串：长度为N的字符串X和长度为M的字符串Y，字符串X的前i个字符和字符串Y的前j个字符之间的编辑距离被定义为D(i，j)，以及字符串X和字符串Y之间的编辑距离被定义为D(N，M)。

初始化D(i，0)＝i和D(0，j)＝j，

对于每个i＝1…N和每个j＝1…M，

D(i，j)可以基于以下式(1)得出：

基于式(1)，可以相应地得出字符串X和字符串Y之间的编辑距离D(N，M)。图4示出矩阵图400的实施例，该矩阵图400基于式(1)推导出OCR文本字符串402(即“Azaha”)与编辑文本字符串404(即“Aziz”)之间的编辑距离。该实施例中的示例文本字符串与用户名有关。本领域技术人员可以理解，OCR文本字符串和编辑文本字符串也可以与地址、身份证号、出生日期等相关。

如矩阵图400的单元格406所示，OCR文本字符串402(即“Azaha”)与编辑文本字符串404(即“Aziz”)之间的编辑距离是3。这意味着用“Aziz”更正“Azaha”所需的最少操作次数为3次。

在步骤302，基于编辑距离3，设备100或文本相似度量化模块206获得在3个操作步骤内即可将“Azaha”转换为“Aziz”的所有可能路径。这些可能路径被认为是多个最短操作路径。

在图5的表格图500中示出了获得最短操作路径的步骤304的实施例。如子表502所示，设备100或文本相似度量化模块206获得用编辑文本字符串404(即“Aziz”)更正OCR文本字符串402(即“Azaha”)的三个最短操作路径。三个最短操作路径包括：最短操作路径1、最短操作路径2和最短操作路径3。

如子表502所示，最短操作路径1包括三个操作，即用字符“i”替代字符“a”的操作1、用字符“z”替代字符“h”的操作2和删除字符“a”的操作3。最短操作路径1中的操作1、2、3分别表示为编辑对(“a”，“i”)、(“h”，“z”)和(“a”，“”)。

最短操作路径2包括三个操作，即删除字符“a”的操作1、用字符“i”替代字符“h”的操作2和用字符“z”替代字符“a”的操作3。最短操作路径2中的操作1、2、3分别表示为编辑对(“a”，“”)、(“h”，“i”)和(“a”，“z”)。

最短操作路径3包括三个操作，即用字符“i”替代字符“a”的操作1、删除字符“h”的操作2和用字符“z”替代字符“a”的操作3。最短操作路径3中的操作1、2、3分别表示为编辑对(“a”，“i”)、(“h”，“”)和(“a”，“z”)。

如以上实施例所示，三个最短操作路径中的每一个包括三个编辑对。每个编辑对表示在通过编辑文本字符串404(即“Aziz”)更正期间，对OCR文本字符串402中字符(即“Azaha”)可执行的操作。

对于本领域技术人员而言，最短操作路径的数量和最短操作路径中包括的编辑对的数量可因文本字符串的长度和/或所需的操作次数而改变。例如，当用编辑文本字符串“BOB”更正OCR文本字符串“B0B”时，编辑距离为1，这意味着仅需要执行一次操作。在这样的示例中，设备100或文本相似度量化模块206可以获得用编辑文本字符串“BOB”更正OCR文本字符串“B0B”的仅一条最短操作路径。这一条最短操作路径包括对OCR文本字符串“B0B”中字符可执行的一次操作，即用字符“O”替代字符“0”。该操作用编辑对(“0”，“O”)表示。

在步骤304，设备100或文本相似度量化模块206确定多个最短操作路径的多个相似度得分。多个相似度得分中的每一个对应于步骤302中确定的多个最短操作路径之一。通过对多个最短操作路径中每一个最短操作路径中一个或多个编辑对的历史相似度得分进行求和来确定多个相似度得分中的每一个相似度得分。

在图5的子表504中描绘了步骤304的实施例。如子表504所示，设备100或文本相似度量化模块206确定分别与三个最短操作路径相对应的三个相似度得分。即，确定最短操作路径1、最短操作路径2和最短操作路径3中每一个的相似度得分。在本实施例中，设备100或文本相似度量化模块206通过对每个最短操作路径中编辑对的历史相似度得分进行求和来确定这三个相似度得分中的每一个相似度得分。

例如，对于最短操作路径1，设备100或文本相似度量化模块206通过将对应的编辑对(“a”，“i”)、(“h”，“z”)和(“a”，“”)的历史相似度得分相加来确定相似度得分。

对于最短操作路径2，设备100或文本相似度量化模块206通过将对应的编辑对(“a”，“”)、(“h”，“i”)和(“a”，“z”)的历史相似度得分相加来确定相似度得分。

对于最短操作路径3，设备100或文本相似度量化模块206通过将对应的编辑对(“a”，“i”)、(“h”，“”)和(“a”，“z”)的历史相似度得分相加来确定相似度得分。

在一个示例中，当在步骤304对编辑对的历史相似度得分求和时，设备100或文本相似度量化模块206可以如图2所示，从历史数据库208中取得(222)编辑对的历史相似度得分。

在另一示例中，当在步骤304对编辑对的历史相似度得分求和时，设备100或文本相似度量化模块206可以从历史数据库中取得编辑对的历史相似度得分。历史数据库可以被实现为包括在设备100内的存储器模块104或文本相似度量化模块206。

在又一个示例中，历史数据库208可以被实现为包括在设备100或文本相似度量化模块206内的模块。在该示例中，当在步骤304对编辑对的历史相似度得分求和时，设备100或文本相似度量化模块206可以从自身包含的模块中取得编辑对的历史相似度得分。

在一些实施例中，编辑对的历史相似度得分的准备可以由历史数据库208、存储器模块104、或设备100或文本相似度量化模块206所包括的其他模块来进行。

历史数据库208、存储器模块104、或设备100或文本相似度量化模块206所包括的其他模块，可以包括如图2所示的编辑对数据库210和历史相似度得分数据库212。在准备历史相似度得分的实施例中，历史数据库208、存储器模块104、或设备100或文本相似度量化模块206所包括的其他模块被配置为收集用户在预定的时间段尝试的所有种类的编辑对。例如，响应于接收到由OCR设备/模块捕获的数字图像的OCR文本字符串和接收到由输入设备/模块捕获的对应于OCR文本字符串的编辑文本字符串，设备100或文本相似度量化模块206可以收集所有种类的编辑对。这些编辑对各自的相似度得分可以被初始化为等于值1.0，并且这些编辑对被存储到编辑对数据库210中。

根据实际需要，预定的时间段可以是一个月、六个月或任何其他时间。可以计算在预定的时间段内编辑对被存储到编辑对数据库210中的频率。编辑对存储得越频繁，该编辑对表示的操作发生的次数就越多，该编辑对表示的操作再次发生的可能性就越大。在这方面，利用编辑对被存储到编辑对数据库210中的频率，来确定存储在历史数据库208、存储器模块104、或设备100或文本相似度量化模块206中包含的其他模块的编辑对数据库210中的编辑对的历史相似度得分。

在一些实施例中，可以将编辑对的频率提供给历史相似度得分确定模块214，用于确定存储在历史数据库208、存储器模块104、或设备100或文本相似度量化模块206中包含的其他模块的编辑对数据库210中的编辑对的历史相似度得分。历史相似度得分确定模块214可以是如图2所示的独立模块，其可与历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块通信。在一种可选实施方式中，历史相似度得分确定模块214可以被实现为包括在历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块内的模块。

在一些实施例中，历史相似度得分确定模块214可以被配置为对历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块的编辑对数据库210中的每个编辑对计算log(频率)。然后，可以由历史相似度得分确定模块214将编辑对数据库210中的编辑对的log(频率)计算结果归一化为0.0至1.0的范围。归一化的log(频率)计算结果被认为是历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块的编辑对数据库210中的编辑对的历史相似度得分。在一些实施例中，编辑对的历史相似度得分可以从历史相似度得分确定模块214传输到历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块中的历史相似度得分数据库212，并存储在历史相似度得分数据库212中。在一些实施例中，相似度得分确定模块214和历史相似度得分数据库212可以被实现为单个模块。

在实施例中，log(频率)计算可以分为两个步骤。首先，对于每个编辑对p，计算p的频率的对数，即log(p的频率)。随后，对于从log(p的频率)计算得出的每个得分，将得分归一化为0.0到1.0的范围，这意味着log(p的频率)计算的最大得分被映射为0.0，并且log(p的频率)计算的最小得分被映射为1.0。以这种方式，例如，根据以下式(2)，确定每个编辑对的历史相似度得分：

得分(p)＝1.0-(log(p)–最小得分)/(最大得分–最小得分)式(2)

对于本领域技术人员来说，可以根据本发明以其他方式确定编辑对的历史相似度得分，例如，无需log(频率)计算。

在图6的表格图600中示出了实施例，以例示存储在历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块中的编辑对的历史相似度得分。

在表格图600所示的实施例中，最短操作路径1、最短操作路径2和最短操作路径3中每个编辑对可具有对应的历史相似度得分。例如，编辑对(“a”，“”)、(“a”，“i”)、(“a”，“z”)、(“h”，“”)、(“h”，“i”)和(“h”，“z”)的历史相似度得分分别为0.6、0.5、0.4、0.6、0.4和0.8。历史相似度得分越小，由编辑对表示的操作发生的次数就越多，并且由编辑对表示的操作再次发生的可能性和合理性就越大。

如果找不到特定编辑对的历史相似度得分，则可能意味着该特定编辑对表示的操作从未在用户进行即时尝试之前发生。在这方面，历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块可以将值1.0返回给设备100或文本相似度量化模块206作为该特定编辑对的历史相似度得分。

基于表格图600的示例并且根据图5的子表504中所示的实施例，可以将最短操作路径1的相似度得分确定为0.5+0.8+0.6等于1.9。可以将最短操作路径2的相似度得分确定为0.6+0.4+0.4等于1.4。类似地，可以将最短操作路径3的相似度得分确定为0.5+0.6+0.4等于1.5。

表格图600可以包括其他编辑对的历史相似度得分。为了简单起见，这些历史相似度得分未在图6中显示。

本领域技术人员可以理解，编辑对的历史相似度得分可以其他格式存储在历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块中。

在步骤306，设备100或文本相似度量化模块206选择针对多个最短操作路径确定的多个相似度得分中的最小相似度得分。所选的最小相似度得分用于量化OCR文本字符串和编辑文本字符串之间的文本相似度。

在一些示例中，如果多个相似度得分中的最小相似度得分低于预定阈值，则设备100或文本相似度量化模块206可以用编辑文本字符串更正OCR文本字符串。预定阈值可以通过不同应用的某些要求来确定。例如，我们可以将预定阈值设置为本实施例中所例示的1.5，或设置为0.5，设置为0.5时意味着要求操作总次数足够小并且操作的频率高。

在实施例中，对于如图5的子表504所示的、确定出的三个最短操作路径的三个相似度得分1.9、1.4和1.5，设备100或文本相似度量化模块206可以在这三个相似度得分中选择最小相似度得分1.4作为OCR文本字符串402(即“Azaha”)和编辑文本字符串404(即“Aziz”)之间的文本相似度量化结果。如果预定阈值为1.5，则本实施例中的文本相似度量化结果低于预定阈值，因此设备100或文本相似度量化模块206可以用编辑文本字符串“Aziz”更正OCR文本字符串“Azaha”。

在该实施例中，设备100或文本相似度量化模块206还可以将具有最小相似度得分的最短操作路径中的编辑对，即具有最小相似度得分1.4的最短操作路径2中的编辑对(“a”，“”)、(“h”，“i”)和(“a”，“z”)，添加到历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其它模块中的编辑对数据库210内。另外，设备100或文本相似度量化模块206可以更新历史数据库中的编辑对的历史相似度得分。历史数据库中编辑对的历史相似度得分的更新包括以下一个或多个步骤：

-计算历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其它模块中的编辑对数据库210内与具有最小相似度得分的最短操作路径中的编辑对相对应的编辑对的频率；和

-通过以下步骤确定历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其它模块中的编辑对数据库210内与具有最小相似度得分的最短操作路径中的编辑对相对应的编辑对的历史相似度得分：对历史数据库208、存储器模块104或设备100、或文本相似度量化模块206包括的其它模块中与具有最小相似度得分的最短操作路径中的编辑对相对应的每个编辑对进行log(频率)计算，并将log(频率)计算结果归一化到0.0到1.0的范围。

例如，在本实施例中，设备100或文本相似度量化模块206可以将具有最小相似度得分1.4的最短操作路径2中的编辑对(“a”，“”)、(“h”，“i”)和(“a”，“z”)添加到历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其它模块中的编辑对数据库210内，并用以下步骤更新历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其它模块中的编辑对数据库210内的编辑对(“a”，“”)、(“h”，“i”)和(“a”，“z”)的历史相似度得分：计算编辑对(“a”，“”)、(“h”，“i”)和(“a”，“z”)的频率并通过对编辑对(“a”，“”)、(“h”，“i”)和(“a”，“z”)中的每个编辑对进行log(频率)计算，并将log(频率)计算结果归一化到0.0到1.0的范围来确定编辑对(“a”，“”)、(“h”，“i”)和(“a”，“z”)的历史相似度得分。

在一些示例中，如果多个相似度得分中最小相似度得分高于预定阈值，则设备100或文本相似度量化模块206可以维持OCR文本字符串不变。

在一种可选实施方式中，设备100或文本相似度量化模块206可以确定文本相似度量化结果，并将文本相似度量化结果输出到输出模块216。文本相似度量化结果可以包括指示“接受”(如果多个相似度得分中最小相似度得分低于预定阈值)编辑文本字符串的系统通知消息或指示“拒绝”(如果多个相似度得分中最小相似度得分高于预定阈值)编辑文本字符串的系统通知消息，或指示用户账号存在潜在风险或锁定用户账户的系统警报。

图7是根据另一实施例示出的文本相似度量化方法700的流程图。

在步骤702，由历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块将每个编辑对的相似度得分初始化为等于1.0。

在步骤704，将编辑对收集到历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块中。

在步骤706，基于收集的数据计算历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块中的编辑对的频率。

在步骤708，通过log(频率)计算，计算历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块中的编辑对的历史相似度得分，并将计算出的历史相似度得分归一化到0.0到1.0的范围。

在步骤710，编辑对的相似度得分被更新为历史相似度得分。

在步骤712，当用户试图更正时，设备100或文本相似度量化模块206接收OCR文本字符串和编辑文本字符串，并通过编辑距离技术找到这两个文本字符串的所有最短操作路径。

在步骤714，设备100或文本相似度量化模块206通过将编辑对的历史相似度得分相加来计算最短操作路径的相似度得分，并选出所计算出的相似度得分中的最小相似度得分，来量化OCR文本字符串和编辑文本字符串之间的文本相似度。

在步骤716，设备100或文本相似度量化模块206通过比较最小相似度得分和预定阈值，决定接受用户的更正。

在步骤718，如果最小相似度得分低于预定阈值，则设备100或文本相似度量化模块206接受用户的更正。设备100或文本相似度量化模块206还将具有最小相似度得分的最短操作路径的编辑对添加到历史数据库208、存储器模块104、或设备100或文本相似度量化模块206包括的其他模块中。

图8示出了适合用作图1和图2所示设备100和文本相似度量化模块206、或图2所示的系统200的计算机系统的框图，该计算机系统执行根据图3至图7所示实施例的文本相似度量化方法的至少一些步骤。

仅通过示例的方式提供了对计算机系统/计算设备800的以下描述，而无意于限制本发明。

如图8所示，示例计算设备800包括用于执行软件例程的处理器804。尽管为了清楚起见示出了单个处理器，但是计算设备800也可以包括多处理器系统。处理器804连接到通信基础设施806，以与计算设备800的其他组件进行通信。通信基础设施806可以包括例如通信总线、交叉开关(cross-bar)或网络。

计算设备800还包括诸如随机存取存储器(RAM)之类的主存储器808和辅助存储器810。辅助存储器810可以包括例如硬盘驱动器812和/或可移动存储驱动器814，可移动存储驱动器814可以包括磁带驱动器、光盘驱动器等。可移动存储驱动器814以常规方式对可移动存储单元818进行读取和/或写入。可移动存储单元818可以包括被可移动存储驱动器814读取和写入的磁带、光盘等。相关领域技术人员可以理解，可移动存储单元818包括其中存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。

在一种可选实施方式中，辅助存储器810可以额外包括或选择性包括用于允许计算机程序或其他指令加载到计算设备800中的其他类似装置。这样的装置可以包括例如可移动存储单元822和接口820。可移动存储单元822和接口820的示例包括可移动存储芯片(例如EPROM或PROM)和相关联的插槽，以及其他可移动存储单元822和允许软件和数据从可移动存储单元822传输到计算机系统800的接口820。

计算设备800还包括至少一个通信接口824。通信接口824允许软件和数据经由通信路径826在计算设备800和外部设备之间传输。在各种实施例中，通信接口824允许数据在计算设备800和数据通信网络(诸如公共数据或私有数据通信网络)之间传输。通信接口824可用于在不同的计算设备800之间交换数据，这些计算设备800形成互连的计算机网络的一部分。通信接口824的示例可以包括调制解调器、网络接口(诸如以太网卡)，通信端口、具有相关电路的天线等。通信接口824可以是有线的或者可以是无线的。软件和数据以信号的形式经由通信接口824传输，该信号可以是能够被通信接口824接收的电、电磁、光或其他信号。这些信号经由通信路径826被提供给通信接口。

在一种可选实施方式中，计算设备800进一步包括：显示器接口802，其执行用于将图像提供给关联的显示器830的操作；以及音频接口832，其执行用于经由关联的扬声器834播放音频内容的操作。

在本申请文件中，术语“计算机程序产品”部分程度上可以指代：可移动存储单元818、可移动存储单元822、安装在硬盘驱动器812中的硬盘，或通过通信路径826(无线链路或线缆)将软件传输到通信接口824的载波。计算机可读存储介质是指将记录的指令和/或数据提供给计算设备800以执行和/或处理的任何非暂时性有形存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、Blu-ray^TM盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘或诸如PCMCIA卡之类的计算机可读卡，这些部件无论是在计算设备800的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向计算设备800提供软件、应用程序、指令和/或数据。瞬态或非有形计算机可读传输介质的示例包括无线电或红外传输信道以及与其他计算机或网络设备的网络连接，以及包括电子邮件传输和在网站等上记录的信息的因特网或内部网。

计算机程序(也称为计算机程序代码)存储在主存储器808和/或辅助存储器810中。也可以经由通信接口824来接收计算机程序。此类计算机程序在被执行时使计算设备800能够实现本文所提供实施例中的一个或多个特征。在各种实施例中，计算机程序在被执行时使处理器804能够实现上述实施例的特征。因此，这样的计算机程序可以代表计算机系统800的控制器。

软件可以存储在计算机程序产品中，并使用可移动存储驱动器814、硬盘驱动器812或接口820加载到计算设备800中。在一种可选实施方式中，可以通过通信路径826将计算机程序产品下载到计算机系统800。该软件在由处理器804执行时使计算设备800执行本文描述的实施例的功能。

应该理解，图8的实施例仅以示例的方式给出。因此，在一些实施例中，可以省略计算设备800的一个或多个特征。而且，在一些实施例中，计算设备800的一个或多个特征可以被组合在一起。另外，在一些实施例中，计算设备800的一个或多个特征可以被分成一个或多个组成部分。

在一个实施例中，提供了一种文本相似度量化设备。该设备包括处理器(例如处理器804)和包括计算机程序代码的存储器(例如辅助存储器810)。存储器和计算机程序代码被配置为与处理器一起使设备至少：获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径，其中，所述多个最短操作路径中的每一个包括一个或多个编辑对，所述一个或多个编辑对中的每一个表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作；确定所述多个最短操作路径的多个相似度得分，其中所述多个相似度得分中的每个所述相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的；并选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串和所述编辑文本字符串之间的文本相似度。

本说明书中描述的技术产生一种或多种技术效果。具体地，本发明不仅评估将一个文本字符串转换为另一文本字符串所需的最少操作次数，而且还量化了两个文本字符串之间的相关性，即，这些操作在两个文本字符串之间发生的可能性。具体地，本发明利用编辑对的频率来确定编辑对的历史相似度得分，并且认为编辑对被存储得越频繁，该编辑对表示的操作发生的次数越多，并且该编辑对表示的操作再次发生的可能性就越大。在这方面，在本发明中考虑了字符对之间的历史改变的频率来量化相同的字符对之间的未来改变。即，在本实施例中，使用编辑对的历史频率来对它们各自的视觉相似度进行建模，这使得对OCR文本的手动更正的自动验证的准确度令人满意。

本领域技术人员可以理解，在不背离本发明主旨或范围的前提下，如具体实施方式所例示，可以对本发明进行多种变化和/或修改。因此，本发明的实施例在各方面仅为说明性的，而非意图限制本发明。

Claims

1.一种文本相似度量化设备，所述设备包括：

处理器；以及

包括计算机程序代码的存储器；

所述存储器和所述计算机程序代码被配置为，与所述处理器一起使得所述设备：

将编辑对收集到历史数据库中；

计算在预定的时间段内所述编辑对被存储到所述历史数据库中的频率，作为所述历史数据库中所述编辑对的频率；以及

确定所述历史数据库中所述编辑对的历史相似度得分，其中，当确定所述历史相似度得分时，所述设备被使得：

对所述历史数据库中的每个所述编辑对的频率执行log计算；以及

根据以下公式将所述log计算归一化到0.0到1.0的范围：

得分(p)＝1.0–(log(p)–最小得分)/(最大得分–最小得分)，

其中p表示每个所述编辑对，log(p)表示对p的频率执行log计算，最大得分表示对p的频率执行log计算的最大得分，且最小得分表示对p的频率执行log计算的最小得分，

其中，所述设备进一步被使得：

获得用编辑文本字符串更正光学字符识别OCR文本字符串的多个最短操作路径，其中，所述多个最短操作路径中的每一个最短操作路径包括一个或多个编辑对，所述一个或多个编辑对中的每一个编辑对表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作；

确定多个相似度得分，所述多个相似度得分中的每个相似度得分对应所述多个最短操作路径之一，其中所述多个相似度得分中的每个相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的所述一个或多个编辑对的历史相似度得分进行求和来确定的，其中从所述历史数据库中取得所述一个或多个编辑对的所述历史相似度得分；以及

选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。

2.根据权利要求1所述的设备，其中，所述设备进一步被使得：

将具有最小相似度得分的最短操作路径中的编辑对添加到所述历史数据库中；以及

更新所述历史数据库中所述编辑对的历史相似度得分，其中，当更新所述历史相似度得分时，所述设备被使得：

计算所述历史数据库中与具有最小相似度得分的最短操作路径中的编辑对对应的编辑对的频率；以及

通过以下步骤确定所述历史数据库中与具有最小相似度得分的最短操作路径中的编辑对对应的编辑对的历史相似度得分：

对所述历史数据库中与具有最小相似度得分的最短操作路径中的编辑对对应的每个所述编辑对的频率执行log计算；以及

将所述log计算归一化到0.0到1.0的范围。

3.根据权利要求1或2所述的设备，其中，当获得所述多个最短操作路径时，所述设备被使得：

执行编辑距离计算，以利用所述编辑文本字符串更正所述OCR文本字符串，其中在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作是插入操作、删除操作或替换操作中之一。

4.根据权利要求1或2所述的设备，其中，所述设备进一步被使得：

如果所述多个相似度得分中的最小相似度得分低于预定阈值，则用所述编辑文本字符串更正所述OCR文本字符串。

5.根据权利要求1或2所述的设备，其中，所述设备进一步被使得：

如果所述多个相似度得分中的最小相似度得分高于所述预定阈值，则维持所述OCR文本字符串。

6.根据权利要求1或2所述的设备，其中，所述设备进一步被使得：

扫描数字图像以捕获所述OCR文本字符串，以及

捕获所述编辑文本字符串。

7.一种量化文本相似度的计算机实现方法，包括：

将编辑对收集到历史数据库中；

确定所述历史数据库中所述编辑对的历史相似度得分，其中，计算所述历史相似度得分包括：

根据以下公式将所述log计算归一化到0.0到1.0的范围：

得分(p)＝1.0–(log(p)–最小得分)/(最大得分–最小得分)，

其中，该方法还包括：

确定所述多个最短操作路径的多个相似度得分，其中所述多个相似度得分中的每个相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的所述一个或多个编辑对的历史相似度得分进行求和来确定的，其中从所述历史数据库中取得所述一个或多个编辑对的所述历史相似度得分；以及

8.根据权利要求7所述的方法，其中，所述方法还包括：

更新所述历史数据库中所述编辑对的历史相似度得分，其中，更新所述历史相似度得分包括：

将所述log(频率)计算归一化到0.0到1.0的范围。

9.根据权利要求7至8中任一项所述的方法，其中，获得所述多个最短操作路径的步骤包括：

10.根据权利要求7至8中任一项所述的方法，还包括：

如果所述相似度得分中的最小相似度得分低于预定阈值，则用所述编辑文本字符串更正所述OCR文本字符串。

11.根据权利要求7至8中任一项所述的方法，还包括：

12.根据权利要求7-8任一项所述的方法，还包括：

扫描数字图像以捕获所述OCR文本字符串，以及

捕获所述编辑文本字符串。

13.一种文本相似度量化系统，包括：

OCR设备，被配置为从数字图像中捕获OCR文本字符串；

输入设备，被配置为捕获用户编辑字符串；

用于对文本相似度进行量化的文本相似度量化设备，其中，所述文本相似度量化设备包括历史相似度得分确定设备，其中，所述文本相似度量化设备被配置为：

将编辑对收集到历史数据库中；

通过所述历史相似度得分确定设备，确定所述历史数据库中所述编辑对的历史相似度得分，其中，所述历史相似度得分确定设备被使得：

根据以下公式将所述log计算归一化到0.0到1.0的范围：

得分(p)＝1.0–(log(p)–最小得分)/(最大得分–最小得分)，

其中，所述文本相似度量化设备，进一步被配置为：

选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度；以及

输出设备，被配置为输出文本相似度量化结果。

14.根据权利要求13所述的系统，其特征在于，所述文本相似度量化设备被使得：

响应于捕获到数字图像中的OCR文本字符串且捕获到与所述OCR文本字符串对应的编辑文本字符串，收集所述编辑对。