CN109389109B - 一种ocr全文本识别正确率的自动化测试方法及设备 - Google Patents
一种ocr全文本识别正确率的自动化测试方法及设备 Download PDFInfo
- Publication number
- CN109389109B CN109389109B CN201811058433.7A CN201811058433A CN109389109B CN 109389109 B CN109389109 B CN 109389109B CN 201811058433 A CN201811058433 A CN 201811058433A CN 109389109 B CN109389109 B CN 109389109B
- Authority
- CN
- China
- Prior art keywords
- correct value
- sample
- recognition
- text
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种OCR全文本识别正确率的自动化测试方法,包括:根据OCR全文本识别定义,创建对应的模板;收集多个用于OCR识别的样本;以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;根据匹配结果,计算该次测试的识别正确率。本发明有益效果:当有新的样本需要测试时、当OCR版本更新时,均可依据新样本创建对应的正确值文本并导入服务器,即可快速地进行新一轮测试,提高测试效率并出具统计测试结果。
Description
技术领域
本发明涉及一种OCR全文本识别正确率的自动化测试方法及设备,属于OCR识别领域。
背景技术
传统测试OCR识别正确率的方法,是由人工判断OCR识别正确与否,然后进行标记,最后再由人工统计测试结果,不仅耗时长,效率低,而且无法支持OCR版本升级及识别字段不断调整的及时响应测试。
传统的一个样本经过OCR识别后输出结果,需要人工比对输出结果和实际样本值,当样本数量较大时,工作量繁琐。
公开号为CN107992484A的发明专利《一种评测OCR系统的性能的方法、设备及存储介质》公开了一种借助第三方数据库对OCR系统的测试结果进行评测,以获得用于表征OCR系统性能的评测结果,其中所述借助第三方数据库对所述测试结果进行评测,包括:对所述测试结果中的文字进行单字或词组切分处理,得到单字或词组的切分结果;检测字典中是否存在有所述或词组;若存在,则确定所述文字为准确识别的文字。所述第三方数据库包括字典、翻译数据库和/或搜索引擎数据库。首先,该技术方案是将识别出的字或词组在字典或数据库中查找是否存在该字或者词组,而无法判断识别出的字或词组是否为文本上所记载的字或词组,例如车票上为“一等座”,但识别成“二等座”仍然可以从第三方数据库中找出“二等座”这些字,但实际上却已经识别错误,且该技术方案从第三方数据库中查找对应字或词组,其处理过程工作量大,对系统的运算能力要求较高,其次,该技术方案仅能判断OCR系统识别出的文字(包括字和词组)是否正确,而无法进一步判断识别出的文字所在的位置是否与样本是否一致,对于一个文本,识别出的文字正确,但该文字所在的位置不对,对于该文本而言依然是一种错误识别。因此,该技术方案对OCR识别性能的评测仍然存在不足之处。
有鉴于此,本发明提出了一种能够对OCR全文本识别正确率进行自动测试的方法,其创建与样本对应的正确值文本,然后将OCR识别值与正确值文本进行比对,不仅比对字段本身还比对字段定位是否准确,提升测试效率的同时大大提升测试准确率。
发明内容
为了解决上述技术问题,本发明提供一种OCR全文本识别正确率的自动化测试方法,其能够对任意文本的OCR识别正确率进行自动测试,本发明将OCR识别结果与正确值文本进行比对,且其中通过字段对应的坐标信息进行定位,定位无误再进行识别成功率判断,不仅测试效率高,且提升了测试准确率。
本发明的技术方案一:
一种OCR全文本识别正确率的自动化测试方法,包括如下步骤:
根据OCR全文本识别定义,创建对应的模板;
收集多个用于OCR识别的样本;
以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,所述正确值文本包括该样本上的所有字段;
调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;
将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;
根据匹配结果,计算该次测试的识别正确率。
更优地,所述OCR全文本识别定义为按行识别,模板中包括复数个识别信息单元,各所述识别信息组包括:一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息;
创建正确值文本时,从样本中逐行选择字段,每选择一个字段,将其作为正确值输入模板中,且建立该正确值与编号的一一对应关系,同时记录该正确值的坐标信息;所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本,将所述样本和正确值文本均导入服务器。
更优地,所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值;
所述匹配过程为:(1)判断是否定位:逐行判断,求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集,若交集占并集的比例超过预设的阈值,判定定位成功;(2)判断是否识别成功:获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对,若二者匹配,则识别成功;
根据定位情况和识别情况,得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。
更优地,所述坐标信息包括:一个区域的宽度值、高度值以及该区域的一个顶点坐标,通过坐标信息确定区域所在位置;对于正确值的坐标信息,其区域为正确值对应的字段在样本所占的区域;对于OCR全文本识别中定义的行的坐标信息,其区域为行所占的区域。
更优地,创建正确值文本时,通过画框工具生成正确值文本:将所述样本导入画框工具,然后加载所述模板,逐一选择该模板上的编号,对应地,在样本上逐行框选字段,每选择一个字段,画框工具显示该字段在样本中的坐标信息,将该字段作为正确值输入模板中,建立该正确值与编号的一一对应关系,同时记录该正确值在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本。
技术方案二
一种OCR全文本识别正确率的自动化测试设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
根据OCR全文本识别定义,创建对应的模板;
收集多个用于OCR识别的样本;
以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,所述正确值文本包括该样本上的所有字段;
调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;
将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;
根据匹配结果,计算该次测试的识别正确率。
更优地,所述OCR全文本识别定义为按行识别,模板中包括复数个识别信息单元,各所述识别信息组包括:一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息;
创建正确值文本时,从样本中逐行选择字段,每选择一个字段,将其作为正确值输入模板中,且建立该正确值与编号的一一对应关系,同时记录该正确值的坐标信息;所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本,将所述样本和正确值文本均导入服务器。
更优地,所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值;
所述匹配过程为:(1)判断是否定位:逐行判断,求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集,若交集占并集的比例超过预设的阈值,判定定位成功;(2)判断是否识别成功:获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对,若二者匹配,则识别成功;
根据定位情况和识别情况,得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。
更优地,所述坐标信息包括:一个区域的宽度值、高度值以及该区域的一个顶点坐标,通过坐标信息确定区域所在位置;对于正确值的坐标信息,其区域为正确值对应的字段在样本所占的区域;对于OCR全文本识别中定义的行的坐标信息,其区域为行所占的区域。
更优地,创建正确值文本时,通过画框工具生成正确值文本:将所述样本导入画框工具,然后加载所述模板,逐一选择该模板上的编号,对应地,在样本上逐行框选字段,每选择一个字段,画框工具显示该字段在样本中的坐标信息,将该字段作为正确值输入模板中,建立该正确值与编号的一一对应关系,同时记录该正确值在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本。
本发明具有如下有益效果:
1、创建模板并利用模板生成样本对应正确值文本,当有新的样本需要测试时,当OCR版本更新时,无需修改代码,仅利用现有模板生成对应正确值文本即可快速进行新一轮测试;
2、正确值文本包含待正确值以及对应的坐标信息,为准确定位字段位置提供基础;
3、将OCR识别结果与正确值文本比对时,先定位识别结果中字段所在区域与对应正确值所在区域的交集是否达到阈值,再进一步判断对应识别值和正确值是否一致从而得到的测试结果更真实准确;
4、通过画框工具生成正确值文本,提高工作效率;
5、本发明可以用于所有文本OCR识别结果正确率的自动化测试,不受识别对象、内容限制,适用范围广。
附图说明
图1为本发明OCR全文本识别正确率的自动化测试方法的流程示意图;
图2为本发明模板样例,以TXT文件为样例;
图3为本发明以画框工具为例生成正确值文本过程的示意图;
图4为本发明画框后生成的正确值文本,以TXT文件为样例;
图5为本发明为OCR识别结果中坐标信息和正确值坐标信息的交集、并集
示意图;
图6为本发明统计所有样本的定位准确率和识别成功率。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
请参阅图1,一种OCR全文本识别正确率的自动化测试方法,包括如下步骤:
根据OCR全文本识别定义,创建对应的模板;
收集多个用于OCR识别的样本;
以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,所述正确值文本包括该样本上的所有字段;
调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;
将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;
根据匹配结果,计算该次测试的识别正确率。
本实施例中,创建样本对应的正确值文本,使得自动化比对时,调用OCR识别结果与对应的正确值文本进行比对,从而得到比对结果,完成OCR识别正确率的自动测试。当有新的样本需要测试时、当OCR版本更新时,可通过该自动化测试步骤,无须修改代码,快速地进行新一轮测试,极大提高测试效率以及出具统计测试结果,为OCR全文识别进一步改进提供基础。
实施例二
本实施例给出了本发明的一种较优的实施方式,其不仅能够快速完成测试,且提高了测试结果的准确性。
所述OCR全文本识别定义为按行识别,创建的模板中包括复数个识别信息单元,各所述识别信息组包括:一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息;所述识别信息单元的数量不限,为满足较长文本的自动测试,可以预留几百个识别信息单元;请参阅图2,图2中field1、field2…为编号,各编号对templatefield项用于输入正确值以及坐标信息;
收集多个用于OCR识别的样本;一般选用同一类文本,例如所有样本均为银行对账单,或者均为合同文本,这些样本可以不断补充;
创建正确值文本时,从样本中逐行选择字段,每选择一个字段,将其作为正确值输入模板中,且建立该正确值与编号的一一对应关系,同时记录该正确值的坐标信息;所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本,将所述样本和正确值文本均导入服务器;
所述坐标信息包括:一个区域的宽度值、高度值以及该区域的一个顶点坐标,通过坐标信息确定区域所在位置;对于正确值的坐标信息,其区域为正确值对应的字段在样本所占的区域;对于OCR全文本识别中定义的行的坐标信息,其区域为行所占的区域。通过该坐标信息即可确定正确值在该样本上的方位,以及可以确定OSC识别结果中行在样本上的方位。
本步骤还可以通过画框工具生成正确值文本:将所述样本导入画框工具,然后加载所述模板,逐一选择该模板上的编号,对应地,在样本上逐行框选字段,每选择一个字段,画框工具显示该字段在样本中的坐标信息,将该字段作为正确值输入模板中,建立该正确值与编号的一一对应关系,同时记录该正确值在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本;
请参阅图3,选中“field2”,再选择样本上的“中国农业银行”字段,然后将“中国农业银行”这几个字输入至模板中,例如,图中右上角的“值:中国农业银行”,并记录该字段区域的坐标信息,包括X:176,Y:82,W:356,H:83,即完成一个信息识别单元输入。该样本上所有字段均输入完毕后,生成正确值文本,请参阅图4所示,以TXT文件格式作为样例;
调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值;识别值为即OCR识别出的字段;
将各样本的OCR识别结果分别与对应的正确值文本进行匹配,所述匹配过程为:(1)判断是否定位:逐行判断,求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集,若交集占并集的比例超过预设的阈值,判定定位成功;若比例低于预设的阈值,则判定定位不成功,进行下一个正确值的定位判断,阈值选一般设定为交集50%设定为定位成功;一般地,将定位成功标记为1,定位失败标记为0,便于统计定位准确率;(2)判断是否识别成功:获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对,若二者匹配,则识别成功;一般地,将识别成功标记为1,识别失败标记为0;
请参阅图5,图中圆点方形框表示OCR识别结果返回的坐标信息定位的区域A,实线方形框表示对应的正确值对应的坐标信息定位的区域B,阴影部分为即表示两坐标信息产生的交集区域C;所述两坐标信息的并集为区域A和区域B,再加上两虚方形框区域D。
如图6所示,根据定位情况和识别情况,得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。
本实施不仅具备实施例一的有益效果,同时通过坐标信息定位字段所在位置,先比对OCR识别结果中的行坐标信息与对应的正确值的坐标信息是否满足阈值要求,再进一步比对识别值和正确值是否一致,其自动化测试结果更为真实、准确。
实施例三
请参阅图1,一种OCR全文本识别正确率的自动化测试设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
根据OCR全文本识别定义,创建对应的模板;
收集多个用于OCR识别的样本;
以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,所述正确值文本包括该样本上的所有字段;
调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;
将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;
根据匹配结果,计算该次测试的识别正确率。
本实施例中,设置模板,进而通过创建样本对应的正确值文本,然后调用OCR识别结果与对应的正确值文本进行比对,从而得到比对结果,完成OCR识别正确率的自动测试。当有新的样本需要测试时、当OCR版本更新时,可通过该自动化测试步骤,无须修改代码,快速地进行新一轮测试,极大提高测试效率以及出具统计测试结果,为OCR全文识别进一步改进提供基础。
实施例四
一种OCR全文本识别正确率的自动化测试设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
所述OCR全文本识别定义为按行识别,模板中包括复数个识别信息单元,各所述识别信息组包括:一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息;所述识别信息单元的数量不限,为满足较长文本的自动测试,可以预留几百个识别信息单元;请参阅图2,图2中field1、field2…为编号,各编号对templatefield项用于输入正确值以及坐标信息;
收集多个用于OCR识别的样本;一般选用同一类文本,例如所有样本均为银行对账单,或者均为合同文本,这些样本可以不断补充;
创建正确值文本时,从样本中逐行选择字段,每选择一个字段,将其作为正确值输入模板中,且建立该正确值与编号的一一对应关系,同时记录该正确值的坐标信息;所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本,将所述样本和正确值文本均导入服务器。
所述坐标信息包括:一个区域的宽度值、高度值以及该区域的一个顶点坐标,通过坐标信息确定区域所在位置;对于正确值的坐标信息,其区域为正确值对应的字段在样本所占的区域;对于OCR全文本识别中定义的行的坐标信息,其区域为行所占的区域。通过该坐标信息即可确定正确值在该样本上的方位,以及可以确定OSC识别结果中行在样本上的方位;
正确值文本还可以通过画框工具生成:将所述样本导入画框工具,然后加载所述模板,逐一选择该模板上的编号,对应地,在样本上逐行框选字段,每选择一个字段,画框工具显示该字段在样本中的坐标信息,将该字段作为正确值输入模板中,建立该正确值与编号的一一对应关系,同时记录该正确值在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本。
请参阅图3,选中“field2”,再选择样本上的“中国农业银行”字段,然后将“中国农业银行”这几个字输入至模板中,例如,图中右上角的“值:中国农业银行”,并记录该字段区域的坐标信息,包括X:176,Y:82,W:356,H:83,即完成一个信息识别单元输入。该样本上所有字段均输入完毕后,生成正确值文本,请参阅图4所示,以TXT文件格式作为样例;
所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值;
所述匹配过程为:(1)判断是否定位:逐行判断,求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集,若交集占并集的比例超过预设的阈值,判定定位成功;若比例低于预设的阈值,则判定定位不成功,进行下一个正确值的定位判断,阈值选一般设定为交集50%设定为定位成功;一般地,将定位成功标记为1,定位失败标记为0,便于统计定位准确率;(2)判断是否识别成功:获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对,若二者匹配,则识别成功;一般地,将识别成功标记为1,识别失败标记为0;
请参阅图5,图中圆点方形框表示OCR识别结果返回的坐标信息定位的区域A,实线方形框表示对应的正确值对应的坐标信息定位的区域B,阴影部分为即表示两坐标信息产生的交集区域C;所述两坐标信息的并集为区域A和区域B,再加上两虚方形框区域D。
最后,如图6所示,根据定位情况和识别情况,得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。
本实施不仅具备实施例三的有益效果,同时通过坐标信息定位字段所在位置,先比对OCR识别结果中的行坐标信息与对应的正确值的坐标信息是否满足阈值要求,再进一步比对识别值和正确值是否一致,其自动化测试结果更为真实、准确。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包含在本发明的专利保护范围内。
Claims (6)
1.一种OCR全文本识别正确率的自动化测试方法,其特征在于,包括如下步骤:
根据OCR全文本识别定义,创建对应的模板;
收集多个用于OCR识别的样本;
以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,所述正确值文本包括该样本上的所有字段;
调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;
将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;
根据匹配结果,计算该次测试的识别正确率;
所述OCR全文本识别定义为按行识别,模板中包括复数个识别信息单元,各所述识别信息单元包括:一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息;
创建正确值文本时,从样本中逐行选择字段,每选择一个字段,将其作为正确值输入模板中,且建立该正确值与编号的一一对应关系,同时记录该正确值的坐标信息;所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本,将所述样本和正确值文本均导入服务器;
所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值;
所述匹配过程为:(1)判断是否定位:逐行判断,求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集,若交集占并集的比例超过预设的阈值,判定定位成功;(2)判断是否识别成功:获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对,若二者匹配,则识别成功;
根据定位情况和识别情况,得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。
2.根据权利要求1所述的一种OCR全文本识别正确率的自动化测试方法,其特征在于:所述坐标信息包括:一个区域的宽度值、高度值以及该区域的一个顶点坐标,通过坐标信息确定区域所在位置;对于正确值的坐标信息,其区域为正确值对应的字段在样本所占的区域;对于OCR全文本识别中定义的行的坐标信息,其区域为行所占的区域。
3.根据权利要求2所述的一种OCR全文本识别正确率的自动化测试方法,其特征在于:创建正确值文本时,通过画框工具生成正确值文本:将所述样本导入画框工具,然后加载所述模板,逐一选择该模板上的编号,对应地,在样本上逐行框选字段,每选择一个字段,画框工具显示该字段在样本中的坐标信息,将该字段作为正确值输入模板中,建立该正确值与编号的一一对应关系,同时记录该正确值在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本。
4.一种OCR全文本识别正确率的自动化测试设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
根据OCR全文本识别定义,创建对应的模板;
收集多个用于OCR识别的样本;
以样本为依据,利用模板创建与该样本对应的正确值文本;将样本和正确值文本导入服务器;样本与正确值文本一一对应,所述正确值文本包括该样本上的所有字段;
调用OCR识别接口,对各样本进行识别,得到各样本的OCR识别结果;
将各样本的OCR识别结果分别与对应的正确值文本进行匹配,得到匹配结果;
根据匹配结果,计算该次测试的识别正确率;
所述OCR全文本识别定义为按行识别,模板中包括复数个识别信息单元,各所述识别信息单元包括:一编号、各编号对应的待输入的正确值以及该正确值在样本上的坐标信息;
创建正确值文本时,从样本中逐行选择字段,每选择一个字段,将其作为正确值输入模板中,且建立该正确值与编号的一一对应关系,同时记录该正确值的坐标信息;所述正确值对应的坐标信息为该正确值对应的字段在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本,将所述样本和正确值文本均导入服务器;
所述OCR识别结果中包括每行的坐标信息以及每行对应的识别值;
所述匹配过程为:(1)判断是否定位:逐行判断,求正确值的坐标信息与OCR识别结果中对应行的坐标信息的交集和并集,若交集占并集的比例超过预设的阈值,判定定位成功;(2)判断是否识别成功:获取定位成功的行对应的OCR识别值与正确值文本中对应的正确值进行比对,若二者匹配,则识别成功;
根据定位情况和识别情况,得到任意一所述样本的定位准确率和识别成功率和/或所有样本的定位准确率和识别成功率。
5.根据权利要求4所述的一种OCR全文本识别正确率的自动化测试设备,其特征在于:所述坐标信息包括:一个区域的宽度值、高度值以及该区域的一个顶点坐标,通过坐标信息确定区域所在位置;对于正确值的坐标信息,其区域为正确值对应的字段在样本所占的区域;对于OCR全文本识别中定义的行的坐标信息,其区域为行所占的区域。
6.根据权利要求5所述的一种OCR全文本识别正确率的自动化测试设备,其特征在于:
创建正确值文本时,通过画框工具生成正确值文本:将所述样本导入画框工具,然后加载所述模板,逐一选择该模板上的编号,对应地,在样本上逐行框选字段,每选择一个字段,画框工具显示该字段在样本中的坐标信息,将该字段作为正确值输入模板中,建立该正确值与编号的一一对应关系,同时记录该正确值在样本上的坐标信息;样本中所有字段均被框选处理完毕,生成该样本对应的正确值文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811058433.7A CN109389109B (zh) | 2018-09-11 | 2018-09-11 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811058433.7A CN109389109B (zh) | 2018-09-11 | 2018-09-11 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109389109A CN109389109A (zh) | 2019-02-26 |
CN109389109B true CN109389109B (zh) | 2021-05-28 |
Family
ID=65418844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811058433.7A Active CN109389109B (zh) | 2018-09-11 | 2018-09-11 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389109B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902530B (zh) * | 2019-03-04 | 2022-04-19 | 厦门商集网络科技有限责任公司 | 一种二维码解码方法及终端 |
CN110245576A (zh) * | 2019-05-21 | 2019-09-17 | 深圳壹账通智能科技有限公司 | Ocr识别准确率的检测方法、装置、设备及存储介质 |
CN111144402A (zh) * | 2019-11-27 | 2020-05-12 | 深圳壹账通智能科技有限公司 | Ocr识别准确率的计算方法、装置、设备以及存储介质 |
CN111144334B (zh) * | 2019-12-27 | 2023-09-26 | 北京天融信网络安全技术有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
CN111598099B (zh) * | 2020-05-18 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 图像文本识别性能的测试方法、装置、测试设备及介质 |
CN112287936B (zh) * | 2020-09-24 | 2024-10-15 | 深圳市智影医疗科技有限公司 | 光学字符识别测试方法、装置、可读存储介质及终端设备 |
CN113343816A (zh) * | 2021-05-31 | 2021-09-03 | 的卢技术有限公司 | 一种针对ocr简历识别算法的自动化测试方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0830834A (ja) * | 1994-07-16 | 1996-02-02 | Shigetaro Muraoka | 紙幣識別装置 |
CN103440507A (zh) * | 2013-09-03 | 2013-12-11 | 北京中电普华信息技术有限公司 | 一种票据信息验审设备和一种对票据信息进行验审的方法 |
CN106326887A (zh) * | 2016-08-29 | 2017-01-11 | 东方网力科技股份有限公司 | 一种光学字符识别结果的校验方法及装置 |
CN107516370A (zh) * | 2017-08-25 | 2017-12-26 | 四川长虹电器股份有限公司 | 一种票据识别的自动化测试及评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9361596B2 (en) * | 2011-10-04 | 2016-06-07 | Raf Technology, Inc. | In-field device for de-centralized workflow automation |
-
2018
- 2018-09-11 CN CN201811058433.7A patent/CN109389109B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0830834A (ja) * | 1994-07-16 | 1996-02-02 | Shigetaro Muraoka | 紙幣識別装置 |
CN103440507A (zh) * | 2013-09-03 | 2013-12-11 | 北京中电普华信息技术有限公司 | 一种票据信息验审设备和一种对票据信息进行验审的方法 |
CN106326887A (zh) * | 2016-08-29 | 2017-01-11 | 东方网力科技股份有限公司 | 一种光学字符识别结果的校验方法及装置 |
CN107516370A (zh) * | 2017-08-25 | 2017-12-26 | 四川长虹电器股份有限公司 | 一种票据识别的自动化测试及评价方法 |
Non-Patent Citations (1)
Title |
---|
机打普通商业发票识别系统研究;虞飞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215;I138-1511 * |
Also Published As
Publication number | Publication date |
---|---|
CN109389109A (zh) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389109B (zh) | 一种ocr全文本识别正确率的自动化测试方法及设备 | |
EP3432197B1 (en) | Method and device for identifying characters of claim settlement bill, server and storage medium | |
WO2018006294A1 (zh) | 一种基于图像模式识别技术的阅卷系统、装置和方法 | |
CN109408807A (zh) | Ocr识别正确率的自动化测试方法及测试设备 | |
CN111522951A (zh) | 一种基于图像识别的敏感数据识别与分类的技术方法 | |
CN112613569B (zh) | 图像识别方法、图像分类模型的训练方法及装置 | |
WO2021232670A1 (zh) | 一种pcb元件识别方法及装置 | |
CN110135225B (zh) | 样本标注方法及计算机存储介质 | |
US12051256B2 (en) | Entry detection and recognition for custom forms | |
CN110032654B (zh) | 一种基于人工智能的超市商品录入方法及系统 | |
CN112184679A (zh) | 一种基于YOLOv3的酒瓶瑕疵自动检测方法 | |
CN114972880A (zh) | 一种标签识别方法、装置、电子设备及存储介质 | |
CN112926621A (zh) | 数据标注方法、装置、电子设备及存储介质 | |
CN113778875B (zh) | 一种系统测试缺陷分类方法、装置、设备及存储介质 | |
CN114240928A (zh) | 板卡质量的分区检测方法、装置、设备及可读存储介质 | |
CN110210465A (zh) | 一种数据采集的方法及系统 | |
CN112613367A (zh) | 票据信息文本框获取方法、系统、设备及存储介质 | |
CN111126286A (zh) | 车辆动态检测方法、装置、计算机设备及存储介质 | |
CN114708445B (zh) | 一种商标相似度识别方法、装置、电子设备及存储介质 | |
CN116311299A (zh) | 表格的结构化数据识别方法、装置及系统 | |
CN114120057A (zh) | 一种基于PaddleDetection的混淆矩阵生成方法 | |
CN114494765A (zh) | 真假烟鉴别点的识别方法、装置、电子设备及存储介质 | |
CN112699886A (zh) | 一种字符识别方法、装置及电子设备 | |
CN116090006B (zh) | 一种基于深度学习的敏感识别方法及系统 | |
CN114022826B (zh) | 一种基于区块链的铁轨检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |