CN114694152B

CN114694152B - 基于三源ocr结果的印刷文本可信度融合方法及装置

Info

Publication number: CN114694152B
Application number: CN202210339155.2A
Authority: CN
Inventors: 熊一森; 杨季文; 朱晓旭; 胡沁涵
Original assignee: Jiangsu Xingshengyuan Technology Co ltd
Current assignee: Jiangsu Xingshengyuan Technology Co ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2023-03-24
Anticipated expiration: 2042-04-01
Also published as: CN114694152A

Abstract

本发明涉及一种基于三源OCR结果的印刷文本可信度融合方法，包括获取不同OCR引擎的识别结果，将不同的识别结果转换为相同格式的数据；将相同格式的数据进行融合；数据融合包括以行为单位对数据进行行匹配；遍历S21中获得的相同行的数据，对相同行的数据进行字匹配；基于字匹配的结果，利用OCR的识别结果进行字符匹配标记，得到字符的可信度，根据字符的可信度计算字符的融合可信度，按照融合可信度的高低进行排序，并根据排序结果进行数据组装。本发明显著提高了校对结果的准确率和可信度，从而能够满足对准确率要求极高的场合。

Description

基于三源OCR结果的印刷文本可信度融合方法及装置

技术领域

本发明涉及文档信息处理技术领域，尤其是指一种基于三源OCR结果的印刷文本可信度融合方法及装置。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术目前日趋成熟，但是不同的实现方法依旧存在一定的性能差异，这种差异主要指文字识别的准确性。在普通应用场景下，这种差异能够被接受。但是在准确率要求极高的场合下，这种差异不能够被接受。从OCR目前的实现程度上，暂时无法满足这种特定场合的需求。因此为了满足特定场合的需求，需要对OCR识别的结果进行进一步校对，尽可能提高文字的准确率，使得结果达到可用的标准。校对的方式可以通过人工，也可以通过计算机程序。校对内容包括以下几方面：1)判断OCR识别的字符是否是正确的字符；2)判断识别结果中是否存在漏字或者多识别字；3)尽可能将可能存在问题的字符进行标注或修正。

上述校对过程具有一定前提，需要有标注数据或原始数据进行校对，例如人工校对是通过人工识别原始图片中的文字，然后与OCR识别的字符一一校对。但是OCR识别的应用场景大部分在缺少标注数据或原始数据的情况下进行，如果仅依靠单个OCR识别根本无法实现校对。所以目前仅能通过人工校对，才能实现高精度的校对，但是人工校对存在效率低的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种基于三源OCR结果的印刷文本可信度融合方法及装置，其基于非标注的数据但接近于标注数据性能的数据用于校对，对校对的结果进行标记，计算出识别字符的可信度，并基于可信度对校对后的数据进行融合组装，显著提高了校对结果的准确率和可信度，从而能够满足对准确率要求极高的场合。

为解决上述技术问题，本发明提供一种基于三源OCR结果的印刷文本可信度融合方法，包括以下步骤：

S10：获取不同OCR引擎的识别结果，将不同的识别结果转换为相同格式的数据；

S20：将相同格式的数据进行融合；

其中，所述数据融合包括：

S21：以行为单位对数据进行行匹配；

S22：遍历S21中获得的相同行的数据，对相同行的所述数据进行字匹配；

S23：基于所述字匹配的结果，利用OCR的识别结果进行字符匹配标记，得到字符的可信度，根据所述字符的可信度计算字符的融合可信度，按照所述融合可信度的高低进行排序，并根据排序结果进行数据组装。

在本发明的一个实施例中，在S10中，将不同的识别结果转换为相同格式的数据，包括：

S11：按照OCR协议规范，向OCR服务器发送待识别的图片，并获取OCR服务器返回的识别结果；

S12：对返回结果进行解析并分离出与OCR识别有关的有效数据；

S13：根据OCR识别结果遍历有效的行坐标信息，获取行结构；

S14：在行结构内遍历有效的字信息；

S15：针对遍历获取的所有行坐标信息和字信息统一为格式相同的数据。

在本发明的一个实施例中，在S21中，以行为单位对数据进行行匹配包括：

将数据中的行构成矩阵，每一个行包含该行的纵坐标，对每个OCR识别结果中的所有行按照行的纵坐标进行排序；

先将相同的OCR识别结果中的行进行合并，再对不同的OCR识别结果中的行进行合并，得到多个不同源的OCR合并结果，其中，合并的方法为将排序后的纵坐标进行两两比较，若两个数据的纵坐标存在相交，且相交部分大于设定的阈值，则判定两个数据是同一行，如此重复操作，获得所有同一行的矩阵，对判定为同一行的行数据，按照行的横坐标进行排序，并将能框住左右同一行的矩形作为合并后的行矩形，并且识别的文字也进行合并；

对多个不同源的OCR合并结果进行行位置匹配，若行位置存在相交，且相交部分的面积大于设定的阈值，则判定不同源的OCR合并结果中的两行是同一行。

在本发明的一个实施例中，在S22中，对相同行的所述数据进行字匹配包括：

遍历获得的相同行数据，比对行内每一个字符的相交面积，若字符的相交面积大于设定的阈值，则判定为同一个字符；

框坐标采用匹配到的最左侧字符的坐标作为最终的OCR识别结果；

统计同一位置对应的OCR识别结果的匹配数量以及OCR识别结果对应的字符的异同情况，基于匹配数量和字符异同情况分别进行标识。

在本发明的一个实施例中，在S23中，单个字符的融合可信度计算方法如下：

同一个位置，三个OCR源识别的字符ch₁、ch₂、ch₃完全相同，融合可信度计算公式如下：

同一个位置，三个OCR源识别的字符ch₁、ch₂和ch₃互不相同，三者对应的可信度分别为CF₁、CF₂和CF₃，融合可信度的计算公式如下：

FCF₁＝w₁CF₁

FCF₂＝w₂CF₂

FCF₃＝w₃CF₃

FCF＝max{FCF₁，FCF₂，FCF₃}；

其中，FCF代表融合可信度，ch_n表示同一个位置上不同OCR源识别的字符，CF_n表示同一个位置上不同OCR源识别的字符对应的可信度，w_n表示不同OCR源的权重系数。

同一个位置，两个OCR源识别的字符ch₁和ch₂相同，两者对应的可信度分别为CF₁和CF₂，第三个OCR源未返回结果，融合可信度计算公式如下：

GF₃＝w₃

FCF＝max{FCF₁，FCF₃}；

同一个位置，两个OCR源识别的字符ch₁和ch₂不同，两者对应的可信度分别为CF₁和CF₂，第三个OCR源没有识别字符，融合可信度计算公式为：

FCF₁＝w₁CF₁

FCF₂＝w₂CF₂

FCF₃＝w₃w₃

FCF＝max{FCF₁，FCF₂，FCF₃}；

同一个位置，两个OCR源识别的字符ch₁和ch₂相同，两者对应的可信度分别为CF₁和CF₂，另外一个OCR源识别的字符ch₃与ch₁和ch₂均不相同，其可信度为CF₃，融合可信度计算公式为：

GF₃＝w₃CF₃

FCF＝max{FCF₁，FCF₃}；

对同一个位置，只有一个OCR源识别的字符为ch₁，其可信度为CF₁，融合可信度公式为：

FCF₁＝w₁CF₁

FCF＝max{FCF₁，FCF₂}

在本发明的一个实施例中，在S23中，数据组装包括：

按合并后的行为单位重新组装为融合数据的一行；

合并后的行内的字符自动归并在该行内，其中字符包括字符的框坐标、可能的字符以及融合可信度。

此外，本发明还提供一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述方法的步骤。

并且，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明基于非标注的数据但接近于标注数据性能的数据用于校对，对校对的结果进行标记，计算出识别字符的可信度，并基于可信度对校对后的数据进行融合组装，显著提高了校对结果的准确率和可信度，从而能够满足对准确率要求极高的场合。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明基于三源OCR结果的印刷文本可信度融合方法中数据融合的流程示意图。

图2是本发明计算机装置的硬件结构示意图。

其中，附图标记说明如下：10、处理器；11、存储器；12、通信接口；13、通信总线。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

请参阅图1所示，本实施例提供一种基于三源OCR结果的印刷文本可信度融合方法，包括以下步骤：

S20：将相同格式的数据进行融合；

其中，所述数据融合包括：

S21：以行为单位对数据进行行匹配；

在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中，对于实施方式S10而言，在S10中，将不同的识别结果转换为相同格式的数据，包括：

S13：根据OCR识别结果遍历有效的行坐标信息，获取行结构；

S14：在行结构内遍历有效的字信息；

具体地，在S10中，按照OCR协议规范，通过HTTP向OCR服务器发送待识别的图片，并获取OCR服务器返回的识别结果；对返回的识别结果进行解析，分离出与OCR识别有关的有效数据；根据OCR识别结果，遍历有效的行坐标信息，获取行结构，将行坐标信息进行保存；在行结构内遍历有效的字信息，将字信息进行保存；针对遍历获取的所有行信息和字信息，去掉多余信息，并将数据字段名称、数据类型以及数据尺寸全部统一为相同的格式。

在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中，对于实施方式S21而言，以行为单位对数据进行行匹配包括：

S21.1：将数据中的行构成矩阵，每一个行包含该行的纵坐标，对每个OCR识别结果中的所有行按照行的纵坐标进行排序；

S21.2：先将相同的OCR识别结果中的行进行合并，再对不同的OCR识别结果中的行进行合并，得到多个不同源的OCR合并结果，其中，合并的方法为将排序后的纵坐标进行两两比较，若两个数据的纵坐标存在相交，且相交部分大于设定的阈值，则判定两个数据是同一行，如此重复操作，获得所有同一行的矩阵，对判定为同一行的行数据，按照行的横坐标进行排序，并将能框住左右同一行的矩形作为合并后的行矩形，并且识别的文字也进行合并；

S21.3：对多个不同源的OCR合并结果进行行位置匹配，若行位置存在相交，且相交部分的面积大于设定的阈值，则判定不同源的OCR合并结果中的两行是同一行。

具体地，在S21中，行排序：数据中的行构成一个矩阵，每一个行都包含了该行的纵坐标，将每个OCR识别结果中的行按照纵坐标进行升序排序；行合并：先对每个OCR识别结果内的行合并，然后再对不同结果的行进行合并。合并的方法如下：将排序后的纵坐标进行两两比较，如果两者存在相交，且相交部分大于50％，则判定对应的两个数据是同一行。如此反复操作，获得所有同一行的矩阵。对判定为同一行的行数据，按照行的横坐标从左往右的顺序进行排序。最后，将能框住左右同一行的矩形作为合并后的行矩形，并且识别的文字也进行合并；行位置匹配：根据多个不同源的OCR合并结果，按照行进行匹配。如果存在相交，且相交部分面积大于阈值(相交部分占任意行的70％以上，或者相交部分占所有行的50％以上)，则判定对应的两行是同一行。

在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中，对于实施方式S22而言，在S22中，对相同行的所述数据进行字匹配包括：

具体地，在S22中，字位置匹配：遍历上一步获得的相同行数据，比对行内每一个字符的相交面积，如果字符相交面积大于阈值(相交部分占任意字符的60％以上，或者相交部分占所有字符的50％)，判定为同一个字符；框坐标融合：框坐标采用匹配到的最左侧字符的坐标作为最终结果；字符比较：统计同一位置对应有几个OCR识别结果，以及这些结果对应的字符的异同情况。根据匹配数和字符异同情况，分别进行标识。例如表1所示。

表1

在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中，对于实施方式S23而言，在S23中，在字匹配的基础上利用OCR结果对应字符的可信度标记字符的可信程度；基于字符的可信度计算字符的融合可信度。

在基于字符的可信度计算字符的融合可信度之前，首先对计算过程中涉及到的符号进行说明如下：

(1)ch_n表示同一个位置上不同OCR源识别的字符；

(2)CF_n表示同一个位置上不同OCR源识别的字符对应的可信度，取值在0-1之间；

(3)w_n表示不同OCR源的权重系数，取值在0-1之间，各个OCR源的权重系数互不相等，该权重系数用来表征不同OCR源的相对可靠性；

(4)FCF表示融合可信度，FCF_n表示在计算融合可信度过程中产生的中间可信度数据；

(5)S_n表示融合状态标识，根据不同的融合情况，给每种情况一个标识，代表不同的融合状态，这个状态是对融合情况的客观描述；

(6)OCR源的可信度与融合可信度的表达方式相同，但含义不同；可信度描述了某个OCR源字符识别准确的概率，融合可信度描述了融合后的字符是否可信。

基于字符的可信度计算字符的融合可信度的具体内容如下：

(1)同一个位置，三个OCR源识别的字符ch₁、ch₂和ch₃完全相同，此时融合可信度计算公式如下：

融合识别字符为ch₁，融合状态标识为S₁。

(2)同一个位置，两个OCR源识别的字符ch₁和ch₂相同，两者对应的可信度分别为CF₁和CF₂，第三个OCR源未返回结果，此时融合可信度计算公式如下：

GF₃＝w₃

FCF＝max{FCF₁，FCF₃}

上述融合可信度为FCF₁、FCF₃中的最大值，当FCF₁>＝FCF₃时，融合识别字符为ch₁；当FCF₁<FCF₃时，融合识别字符为空，融合状态标识为S₂。

(3)同一个位置，两个OCR源识别的字符ch₁和ch₂不同，两者对应的可信度分别为CF₁和CF₂，第三个OCR源没有识别字符，此时融合可信度计算公式为：

FCF₁＝w₁CF₁

FCF₂＝w₂CF₂

FCF₃＝w₃w₃

FCF＝max{FCF₁，FCF₂，FCF₃}

上述融合可信度为FCF₁、FCF₂、FCF₃中的最大值，如果FCF₁最大，融合识别字符取ch₁；如果FCF₂最大，融合识别字符取ch₂；如果FCF₃最大，融合识别字符为空，如果FCF₁、FCF₂和FCF₃相等，则取权重系数最高的OCR源识别的字符，融合状态标识为S₃。

(4)同一个位置，两个OCR源识别的字符ch₁和ch₂相同，两者的可信度分别为CF₁和CF₂，另外一个OCR源识别的字符ch₃与ch₁、ch₂均不相同，其可信度为CF₃，此时融合可信度计算公式为：

GF₃＝w₃CF₃

FCF＝max{FCF₁，FCF₃}

上述融合可信度为FCF₁、FCF₃中的最大值，当FCF₁>＝FCF₃，融合识别字符为ch₁，融合状态标识为S₄；当FCF₁<FCF₃，融合识别字符为ch₃，融合状态标识为S₅。

(5)同一个位置，只有一个OCR源识别的字符ch₁，其可信度为CF₁，此时融合可信度公式为：

FCF₁＝w₁CF₁

FCF＝max{FCF₁，FCF₂}

上述融合可信度为FCF₁、FCF₂中的最大值，如果FCF₁>＝FCF₂,融合识别字符为ch₁；否则，融合识别字符为空，融合状态标识为S₆。

(6)对同一个位置，三个OCR源识别的字符分别为ch₁、ch₂、ch₃，三者互不相同，其对应的可信度分别为CF₁、CF₂、CF₃，此时融合可信度的计算公式如下：

FCF₁＝w₁CF₁

FCF₂＝w₂CF₂

FCF₃＝w₃CF₃

FCF＝max{FCF₁，FCF₂，FCF₃}

上述融合可信度为FCF₁、FCF₂、FCF₃中的最大值，融合识别字符为FCF₁、FCF₂、FCF₃中最大值所对应的字符，如果FCF₁、FCF₂和FCF₃相等，则取权重系数最高的OCR源识别的字符，融合状态标识为S₇。

作为示例地，例如根据表1的不同情况，按照下列方式计算融合可信度：

a)匹配到三个结果，且结果对应的字符均相同

根据CF模型，直接将三个结果对应的可信度进行融合，得出融合可信度。

b)匹配到三个结果，但存在2种不同的字符

首先对于相同的两个字符结果进行合成计算得到，然后对于不同的结果，分别考虑其可能性，设两种结果A，B。可信度分别是P_A,P_B，则A的融合可信度为：

P＝merge(P_A,P_B)

同理计算出B的融合可信度。该字符的融合识别结果按照可信度高低降序排列，结果包括2个可能的字符以及对应的融合可信度。

c)匹配到三个结果，但存在3种不同的字符

对于不同的结果，分别考虑其可能性，设两种结果A，B。可信度分别是P_A,P_B,P_C。则A的融合可信度公式为：P＝merge(P_A,P_B*P_C)，同理计算出B和C的融合可信度。将A，B，C中最大的作为返回结果。该字符的融合识别结果按照可信度高低降序排列，结果包括3个可能的字符以及对应的融合可信度。

d)匹配到2个结果，2个结果相同

根据CF模型，直接将结果对应的可信度进行融合，得出融合可信度。

e)匹配到2个结果，2个结果不相同

返回的第一个字符是可信度较大的那个结果。

f)匹配到1个结果

直接返回该结果及其可信度。

在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中，对于实施方式S23而言，在S23中，数据组装包括：

S23.1：按合并后的行为单位重新组装为融合数据的一行；

S23.2：合并后的行内的字符自动归并在该行内，其中字符包括字符的框坐标、可能的字符以及融合可信度。

在本发明实施例公开的一种基于三源OCR结果的印刷文本可信度融合方法中，本发明基于非标注的数据但接近于标注数据性能的数据用于校对，对校对的结果进行标记，计算出识别字符的可信度，并基于可信度对校对后的数据进行融合组装，显著提高了校对结果的准确率和可信度，从而能够满足对准确率要求极高的场合。

相应于上面的方法实施例，本发明实施例还提供了一种计算机装置，包括：

存储器，其用于存储计算机程序；

处理器，其用于执行计算机程序时实现上述基于三源OCR结果的印刷文本可信度融合方法的步骤。

请参阅图2所示，为计算机装置的组成结构示意图，计算机装置可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本发明实施例中，处理器10可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行快速计算三维偏振维度的方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图2所示的结构并不构成对本申请实施例中计算机装置的限定，在实际应用中计算机装置可以包括比图2所示的更多或更少的部件，或者组合某些部件。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述基于三源OCR结果的印刷文本可信度融合方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于三源OCR结果的印刷文本可信度融合方法，其特征在于，包括以下步骤：

S20：将相同格式的数据进行融合；

其中，所述数据融合包括：

S21：以行为单位对数据进行行匹配；

S23：基于所述字匹配的结果，利用OCR的识别结果进行字符匹配标记，得到字符的可信度，根据所述字符的可信度计算字符的融合可信度，按照所述融合可信度的高低进行排序，并根据排序结果进行数据组装；

在S22中，对相同行的所述数据进行字匹配包括：

2.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法，其特征在于，在S10中，将不同的识别结果转换为相同格式的数据，包括：

S13：根据OCR识别结果遍历有效的行坐标信息，获取行结构；

S14：在行结构内遍历有效的字信息；

3.根据权利要求1或2所述的基于三源OCR结果的印刷文本可信度融合方法，其特征在于，在S21中，以行为单位对数据进行行匹配包括：

4.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法，其特征在于，在S23中，单个字符的融合可信度计算方法如下：

FCF₁＝w₁CF₁

FCF₂＝w₂CF₂

FCF₃＝w₃CF₃

FCF＝max{FCF₁,FCF₂,FCF₃}；

其中，FCF_n，n＝1,2,3表示不同OCR源的融合可信度，ch_n，n＝1,2,3表示同一个位置上不同OCR源识别的字符，CF_n，n＝1,2,3表示同一个位置上不同OCR源识别的字符对应的可信度，w_n，n＝1,2,3表示不同OCR源的权重系数。

5.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法，

其特征在于，在S23中，单个字符的融合可信度计算方法如下：

FCF₃＝w₃CF₃

FCF＝max{FCF₁，FCF₃}；

FCF₁＝w₁CF₁

FCF₂＝w₂CF₂

FCF₃＝w₃CF₃

FCF＝max{FCF₁，FCF₂，FCF₃}；

FCF₃＝w₃CF₃

FCF＝max{FCF₁，FCF₃}；

其中，FCF_n，n＝1，2，3表示不同OCR源的融合可信度，ch_n，n＝1，2，3表示同一个位置上不同OCR源识别的字符，CF_n，n＝1，2，3表示同一个位置上不同OCR源识别的字符对应的可信度，w_n，n＝1，2，3表示不同OCR源的权重系数。

6.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法，其特征在于，在S23中，单个字符的融合可信度计算方法如下：

FCF₁＝w₁CF₁

FCF＝max{FCA₁，FCF₂}

7.根据权利要求1所述的基于三源OCR结果的印刷文本可信度融合方法，其特征在于，在S23中，数据组装包括：

按合并后的行为单位重新组装为融合数据的一行；

8.一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。