CN109389109B

CN109389109B - 一种ocr全文本识别正确率的自动化测试方法及设备

Info

Publication number: CN109389109B
Application number: CN201811058433.7A
Authority: CN
Inventors: 周文贵; 黄文英; 郭国强; 卢敏
Original assignee: Xiamen Shangji Network Technology Co ltd
Current assignee: Xiamen Shangji Network Technology Co ltd
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2021-05-28
Anticipated expiration: 2038-09-11
Also published as: CN109389109A

Abstract

本发明涉及一种OCR全文本识别正确率的自动化测试方法，包括：根据OCR全文本识别定义，创建对应的模板；收集多个用于OCR识别的样本；以样本为依据，利用模板创建与该样本对应的正确值文本；将样本和正确值文本导入服务器；样本与正确值文本一一对应，调用OCR识别接口，对各样本进行识别，得到各样本的OCR识别结果；将各样本的OCR识别结果分别与对应的正确值文本进行匹配，得到匹配结果；根据匹配结果，计算该次测试的识别正确率。本发明有益效果：当有新的样本需要测试时、当OCR版本更新时，均可依据新样本创建对应的正确值文本并导入服务器，即可快速地进行新一轮测试，提高测试效率并出具统计测试结果。

Description

一种OCR全文本识别正确率的自动化测试方法及设备

技术领域

本发明涉及一种OCR全文本识别正确率的自动化测试方法及设备，属于OCR识别领域。

背景技术

传统测试OCR识别正确率的方法，是由人工判断OCR识别正确与否，然后进行标记，最后再由人工统计测试结果，不仅耗时长，效率低，而且无法支持OCR版本升级及识别字段不断调整的及时响应测试。

传统的一个样本经过OCR识别后输出结果，需要人工比对输出结果和实际样本值，当样本数量较大时，工作量繁琐。

公开号为CN107992484A的发明专利《一种评测OCR系统的性能的方法、设备及存储介质》公开了一种借助第三方数据库对OCR系统的测试结果进行评测，以获得用于表征OCR系统性能的评测结果，其中所述借助第三方数据库对所述测试结果进行评测，包括：对所述测试结果中的文字进行单字或词组切分处理，得到单字或词组的切分结果；检测字典中是否存在有所述或词组；若存在，则确定所述文字为准确识别的文字。所述第三方数据库包括字典、翻译数据库和/或搜索引擎数据库。首先，该技术方案是将识别出的字或词组在字典或数据库中查找是否存在该字或者词组，而无法判断识别出的字或词组是否为文本上所记载的字或词组，例如车票上为“一等座”，但识别成“二等座”仍然可以从第三方数据库中找出“二等座”这些字，但实际上却已经识别错误，且该技术方案从第三方数据库中查找对应字或词组，其处理过程工作量大，对系统的运算能力要求较高，其次，该技术方案仅能判断OCR系统识别出的文字(包括字和词组)是否正确，而无法进一步判断识别出的文字所在的位置是否与样本是否一致，对于一个文本，识别出的文字正确，但该文字所在的位置不对，对于该文本而言依然是一种错误识别。因此，该技术方案对OCR识别性能的评测仍然存在不足之处。

有鉴于此，本发明提出了一种能够对OCR全文本识别正确率进行自动测试的方法，其创建与样本对应的正确值文本，然后将OCR识别值与正确值文本进行比对，不仅比对字段本身还比对字段定位是否准确，提升测试效率的同时大大提升测试准确率。

发明内容

为了解决上述技术问题，本发明提供一种OCR全文本识别正确率的自动化测试方法，其能够对任意文本的OCR识别正确率进行自动测试，本发明将OCR识别结果与正确值文本进行比对，且其中通过字段对应的坐标信息进行定位，定位无误再进行识别成功率判断，不仅测试效率高，且提升了测试准确率。

本发明的技术方案一：

一种OCR全文本识别正确率的自动化测试方法，包括如下步骤：

根据OCR全文本识别定义，创建对应的模板；

收集多个用于OCR识别的样本；

以样本为依据，利用模板创建与该样本对应的正确值文本；将样本和正确值文本导入服务器；样本与正确值文本一一对应，所述正确值文本包括该样本上的所有字段；

调用OCR识别接口，对各样本进行识别，得到各样本的OCR识别结果；

将各样本的OCR识别结果分别与对应的正确值文本进行匹配，得到匹配结果；

根据匹配结果，计算该次测试的识别正确率。

更优地，所述OCR全文本识别定义为按行识别，模板中包括复数个识别信息单元，各所述识别信息组包括：一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息；

创建正确值文本时，从样本中逐行选择字段，每选择一个字段，将其作为正确值输入模板中，且建立该正确值与编号的一一对应关系，同时记录该正确值的坐标信息；所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息；样本中所有字段均被框选处理完毕，生成该样本对应的正确值文本，将所述样本和正确值文本均导入服务器。

更优地，所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值；

所述匹配过程为：(1)判断是否定位：逐行判断，求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集，若交集占并集的比例超过预设的阈值，判定定位成功；(2)判断是否识别成功：获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对，若二者匹配，则识别成功；

根据定位情况和识别情况，得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。

更优地，所述坐标信息包括：一个区域的宽度值、高度值以及该区域的一个顶点坐标，通过坐标信息确定区域所在位置；对于正确值的坐标信息，其区域为正确值对应的字段在样本所占的区域；对于OCR全文本识别中定义的行的坐标信息，其区域为行所占的区域。

更优地，创建正确值文本时，通过画框工具生成正确值文本：将所述样本导入画框工具，然后加载所述模板，逐一选择该模板上的编号，对应地，在样本上逐行框选字段，每选择一个字段，画框工具显示该字段在样本中的坐标信息，将该字段作为正确值输入模板中，建立该正确值与编号的一一对应关系，同时记录该正确值在样本上的坐标信息；样本中所有字段均被框选处理完毕，生成该样本对应的正确值文本。

技术方案二

一种OCR全文本识别正确率的自动化测试设备，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

根据OCR全文本识别定义，创建对应的模板；

收集多个用于OCR识别的样本；

根据匹配结果，计算该次测试的识别正确率。

本发明具有如下有益效果：

1、创建模板并利用模板生成样本对应正确值文本，当有新的样本需要测试时，当OCR版本更新时，无需修改代码，仅利用现有模板生成对应正确值文本即可快速进行新一轮测试；

2、正确值文本包含待正确值以及对应的坐标信息，为准确定位字段位置提供基础；

3、将OCR识别结果与正确值文本比对时，先定位识别结果中字段所在区域与对应正确值所在区域的交集是否达到阈值，再进一步判断对应识别值和正确值是否一致从而得到的测试结果更真实准确；

4、通过画框工具生成正确值文本，提高工作效率；

5、本发明可以用于所有文本OCR识别结果正确率的自动化测试，不受识别对象、内容限制，适用范围广。

附图说明

图1为本发明OCR全文本识别正确率的自动化测试方法的流程示意图；

图2为本发明模板样例，以TXT文件为样例；

图3为本发明以画框工具为例生成正确值文本过程的示意图；

图4为本发明画框后生成的正确值文本，以TXT文件为样例；

图5为本发明为OCR识别结果中坐标信息和正确值坐标信息的交集、并集

示意图；

图6为本发明统计所有样本的定位准确率和识别成功率。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

请参阅图1，一种OCR全文本识别正确率的自动化测试方法，包括如下步骤：

根据OCR全文本识别定义，创建对应的模板；

收集多个用于OCR识别的样本；

根据匹配结果，计算该次测试的识别正确率。

本实施例中，创建样本对应的正确值文本，使得自动化比对时，调用OCR识别结果与对应的正确值文本进行比对，从而得到比对结果，完成OCR识别正确率的自动测试。当有新的样本需要测试时、当OCR版本更新时，可通过该自动化测试步骤，无须修改代码，快速地进行新一轮测试，极大提高测试效率以及出具统计测试结果，为OCR全文识别进一步改进提供基础。

实施例二

本实施例给出了本发明的一种较优的实施方式，其不仅能够快速完成测试，且提高了测试结果的准确性。

所述OCR全文本识别定义为按行识别，创建的模板中包括复数个识别信息单元，各所述识别信息组包括：一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息；所述识别信息单元的数量不限，为满足较长文本的自动测试，可以预留几百个识别信息单元；请参阅图2，图2中field1、field2…为编号，各编号对templatefield项用于输入正确值以及坐标信息；

收集多个用于OCR识别的样本；一般选用同一类文本，例如所有样本均为银行对账单，或者均为合同文本，这些样本可以不断补充；

创建正确值文本时，从样本中逐行选择字段，每选择一个字段，将其作为正确值输入模板中，且建立该正确值与编号的一一对应关系，同时记录该正确值的坐标信息；所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息；样本中所有字段均被框选处理完毕，生成该样本对应的正确值文本，将所述样本和正确值文本均导入服务器；

所述坐标信息包括：一个区域的宽度值、高度值以及该区域的一个顶点坐标，通过坐标信息确定区域所在位置；对于正确值的坐标信息，其区域为正确值对应的字段在样本所占的区域；对于OCR全文本识别中定义的行的坐标信息，其区域为行所占的区域。通过该坐标信息即可确定正确值在该样本上的方位，以及可以确定OSC识别结果中行在样本上的方位。

本步骤还可以通过画框工具生成正确值文本：将所述样本导入画框工具，然后加载所述模板，逐一选择该模板上的编号，对应地，在样本上逐行框选字段，每选择一个字段，画框工具显示该字段在样本中的坐标信息，将该字段作为正确值输入模板中，建立该正确值与编号的一一对应关系，同时记录该正确值在样本上的坐标信息；样本中所有字段均被框选处理完毕，生成该样本对应的正确值文本；

请参阅图3，选中“field2”，再选择样本上的“中国农业银行”字段，然后将“中国农业银行”这几个字输入至模板中，例如，图中右上角的“值：中国农业银行”，并记录该字段区域的坐标信息，包括X:176，Y:82，W：356，H：83，即完成一个信息识别单元输入。该样本上所有字段均输入完毕后，生成正确值文本，请参阅图4所示，以TXT文件格式作为样例；

调用OCR识别接口，对各样本进行识别，得到各样本的OCR识别结果；所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值；识别值为即OCR识别出的字段；

将各样本的OCR识别结果分别与对应的正确值文本进行匹配，所述匹配过程为：(1)判断是否定位：逐行判断，求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集，若交集占并集的比例超过预设的阈值，判定定位成功；若比例低于预设的阈值，则判定定位不成功，进行下一个正确值的定位判断，阈值选一般设定为交集50％设定为定位成功；一般地，将定位成功标记为1，定位失败标记为0，便于统计定位准确率；(2)判断是否识别成功：获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对，若二者匹配，则识别成功；一般地，将识别成功标记为1，识别失败标记为0；

请参阅图5，图中圆点方形框表示OCR识别结果返回的坐标信息定位的区域A，实线方形框表示对应的正确值对应的坐标信息定位的区域B，阴影部分为即表示两坐标信息产生的交集区域C；所述两坐标信息的并集为区域A和区域B，再加上两虚方形框区域D。

如图6所示，根据定位情况和识别情况，得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。

本实施不仅具备实施例一的有益效果，同时通过坐标信息定位字段所在位置，先比对OCR识别结果中的行坐标信息与对应的正确值的坐标信息是否满足阈值要求，再进一步比对识别值和正确值是否一致，其自动化测试结果更为真实、准确。

实施例三

请参阅图1，一种OCR全文本识别正确率的自动化测试设备，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

根据OCR全文本识别定义，创建对应的模板；

收集多个用于OCR识别的样本；

根据匹配结果，计算该次测试的识别正确率。

本实施例中，设置模板，进而通过创建样本对应的正确值文本，然后调用OCR识别结果与对应的正确值文本进行比对，从而得到比对结果，完成OCR识别正确率的自动测试。当有新的样本需要测试时、当OCR版本更新时，可通过该自动化测试步骤，无须修改代码，快速地进行新一轮测试，极大提高测试效率以及出具统计测试结果，为OCR全文识别进一步改进提供基础。

实施例四

所述OCR全文本识别定义为按行识别，模板中包括复数个识别信息单元，各所述识别信息组包括：一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息；所述识别信息单元的数量不限，为满足较长文本的自动测试，可以预留几百个识别信息单元；请参阅图2，图2中field1、field2…为编号，各编号对templatefield项用于输入正确值以及坐标信息；

所述坐标信息包括：一个区域的宽度值、高度值以及该区域的一个顶点坐标，通过坐标信息确定区域所在位置；对于正确值的坐标信息，其区域为正确值对应的字段在样本所占的区域；对于OCR全文本识别中定义的行的坐标信息，其区域为行所占的区域。通过该坐标信息即可确定正确值在该样本上的方位，以及可以确定OSC识别结果中行在样本上的方位；

正确值文本还可以通过画框工具生成：将所述样本导入画框工具，然后加载所述模板，逐一选择该模板上的编号，对应地，在样本上逐行框选字段，每选择一个字段，画框工具显示该字段在样本中的坐标信息，将该字段作为正确值输入模板中，建立该正确值与编号的一一对应关系，同时记录该正确值在样本上的坐标信息；样本中所有字段均被框选处理完毕，生成该样本对应的正确值文本。

所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值；

所述匹配过程为：(1)判断是否定位：逐行判断，求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集，若交集占并集的比例超过预设的阈值，判定定位成功；若比例低于预设的阈值，则判定定位不成功，进行下一个正确值的定位判断，阈值选一般设定为交集50％设定为定位成功；一般地，将定位成功标记为1，定位失败标记为0，便于统计定位准确率；(2)判断是否识别成功：获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对，若二者匹配，则识别成功；一般地，将识别成功标记为1，识别失败标记为0；

最后，如图6所示，根据定位情况和识别情况，得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。

本实施不仅具备实施例三的有益效果，同时通过坐标信息定位字段所在位置，先比对OCR识别结果中的行坐标信息与对应的正确值的坐标信息是否满足阈值要求，再进一步比对识别值和正确值是否一致，其自动化测试结果更为真实、准确。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包含在本发明的专利保护范围内。

Claims

1.一种OCR全文本识别正确率的自动化测试方法，其特征在于，包括如下步骤：

根据OCR全文本识别定义，创建对应的模板；

收集多个用于OCR识别的样本；

根据匹配结果，计算该次测试的识别正确率；

所述OCR全文本识别定义为按行识别，模板中包括复数个识别信息单元，各所述识别信息单元包括：一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息；

2.根据权利要求1所述的一种OCR全文本识别正确率的自动化测试方法，其特征在于：所述坐标信息包括：一个区域的宽度值、高度值以及该区域的一个顶点坐标，通过坐标信息确定区域所在位置；对于正确值的坐标信息，其区域为正确值对应的字段在样本所占的区域；对于OCR全文本识别中定义的行的坐标信息，其区域为行所占的区域。

3.根据权利要求2所述的一种OCR全文本识别正确率的自动化测试方法，其特征在于：创建正确值文本时，通过画框工具生成正确值文本：将所述样本导入画框工具，然后加载所述模板，逐一选择该模板上的编号，对应地，在样本上逐行框选字段，每选择一个字段，画框工具显示该字段在样本中的坐标信息，将该字段作为正确值输入模板中，建立该正确值与编号的一一对应关系，同时记录该正确值在样本上的坐标信息；样本中所有字段均被框选处理完毕，生成该样本对应的正确值文本。

4.一种OCR全文本识别正确率的自动化测试设备，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

根据OCR全文本识别定义，创建对应的模板；

收集多个用于OCR识别的样本；

根据匹配结果，计算该次测试的识别正确率；

5.根据权利要求4所述的一种OCR全文本识别正确率的自动化测试设备，其特征在于：所述坐标信息包括：一个区域的宽度值、高度值以及该区域的一个顶点坐标，通过坐标信息确定区域所在位置；对于正确值的坐标信息，其区域为正确值对应的字段在样本所占的区域；对于OCR全文本识别中定义的行的坐标信息，其区域为行所占的区域。

6.根据权利要求5所述的一种OCR全文本识别正确率的自动化测试设备，其特征在于：

创建正确值文本时，通过画框工具生成正确值文本：将所述样本导入画框工具，然后加载所述模板，逐一选择该模板上的编号，对应地，在样本上逐行框选字段，每选择一个字段，画框工具显示该字段在样本中的坐标信息，将该字段作为正确值输入模板中，建立该正确值与编号的一一对应关系，同时记录该正确值在样本上的坐标信息；样本中所有字段均被框选处理完毕，生成该样本对应的正确值文本。