CN111144402A

CN111144402A - Ocr识别准确率的计算方法、装置、设备以及存储介质

Info

Publication number: CN111144402A
Application number: CN201911184085.2A
Authority: CN
Inventors: 刘丽珍
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-05-12

Abstract

本发明实施例公开了一种OCR识别准确率的计算方法、装置、设备以及存储介质，通过获取OCR识别结果中的文字信息，将OCR识别结果中的文字信息与原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计OCR识别结果中的文字信息中每行匹配失败的文字数量，根据正确文字信息的每行文字总数量与匹配失败的文字数量计算OCR识别结果中的文字信息中每行文字的OCR识别准确率；根据每行文字的OCR识别准确率计算所有行文字的OCR识别准确率。本发明基于数据处理提供了一种OCR识别准确率的计算方法，能够高效率地完成OCR文档识别的正确率的验证，可以提高OCR识别程序的性能以及识别率，同时也提高了测试的效率。

Description

OCR识别准确率的计算方法、装置、设备以及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种OCR识别准确率的计算方法、装置、设备以及存储介质。

背景技术

目前，传统的测试OCR(Optical Character Recognition，光学字符识别)识别准确率的计算方法是，首先将待测试图片传递给OCR识别程序，通过OCR识别程序将识别出来的文字经过人工标记，再将已标记的文字与原文字进行对比，最后再由人工统计对比结果，这种方式需要耗费大量的时间，工作量比较繁琐，而且测试效率低下。

发明内容

有鉴于此，本发明实施例提供一种OCR识别准确率的计算方法、装置、设备以及存储介质，能够高效率地完成OCR文档识别的正确率的验证，可以提高OCR识别程序的性能以及识别率，同时也提高了测试的效率。

一方面，本发明实施例提供了一种OCR识别准确率的计算方法，该方法包括：

获取测试样本的原始文本，所述原始文本包括正确文字信息；

将所述原始文本转化为待测试图像，并调用OCR(Optical CharacterRecognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果，所述OCR识别结果至少包括文字信息；

获取所述原始文本的文本ID，通过所述文本ID查询与所述原始文本相对应的OCR识别结果中的文字信息，并逐行获取所述OCR识别结果中的文字信息，将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率；

根据每行文字的OCR识别准确率计算所有行文字的OCR识别准确率。

另一方面，本发明实施例提供了一种OCR识别准确率的计算装置，所述装置包括：

第一获取单元，用于获取测试样本的原始文本，所述原始文本包括正确文字信息；

OCR识别单元，用于将所述原始文本转化为待测试图像，并调用OCR(OpticalCharacter Recognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果，所述OCR识别结果至少包括文字信息；

第一计算单元，用于获取所述原始文本的文本ID，通过所述文本ID查询与所述原始文本相对应的OCR识别结果中的文字信息，并逐行获取所述OCR识别结果中的文字信息，将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率；

第二计算单元，用于根据每行文字的OCR识别准确率计算所有行文字的OCR识别准确率。

又一方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的OCR识别准确率的计算方法。

再一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如上所述的OCR识别准确率的计算方法。

本发明实施例提供一种OCR识别准确率的计算方法、装置、计算机设备以及存储介质，其中方法包括：获取测试样本的原始文本，所述原始文本包括正确文字信息；将所述原始文本转化为待测试图像，并调用OCR(Optical Character Recognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果，所述OCR识别结果至少包括文字信息；获取所述原始文本的文本ID，通过所述文本ID查询与所述原始文本相对应的OCR识别结果中的文字信息，并逐行获取所述OCR识别结果中的文字信息，将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率；根据每行文字的OCR识别准确率计算所有行文字的OCR识别准确率。本发明基于数据处理提供一种OCR识别准确率的计算方法，能够高效率地完成OCR文档识别的正确率的验证，可以提高OCR识别程序的性能以及识别率，同时也提高了测试的效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种OCR识别准确率的计算方法的应用场景示意图；

图2是本发明实施例提供的一种OCR识别准确率的计算方法的示意流程图；

图3是本发明实施例提供的一种OCR识别准确率的计算方法的另一示意流程图；

图4是本发明实施例提供的一种OCR识别准确率的计算方法的另一示意流程图；

图5是本发明实施例提供的一种OCR识别准确率的计算方法的另一示意流程图；

图6是本发明实施例提供的一种OCR识别准确率的计算方法的另一示意流程图；

图7是本发明实施例提供的一种OCR识别准确率的计算装置的示意性框图；

图8是本发明实施例提供的一种OCR识别准确率的计算装置的另一示意性框图；

图9是本发明实施例提供的一种OCR识别准确率的计算装置的另一示意性框图；

图10是本发明实施例提供的一种OCR识别准确率的计算装置的另一示意性框图；

图11是本发明实施例提供的一种OCR识别准确率的计算装置的另一示意性框图；

图12是本发明实施例提供的一种计算机设备的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种OCR识别准确率的计算方法的应用场景示意图，所述应用场景包括：

(1)服务器，服务器用于提供数据传输的后端服务。服务器为一种计算机设备，可以为单台服务器或者服务器集群，也可以为云服务器，或者为专门的网页服务器，接收外部终端的访问，通过有线网络或者无线网络与终端连接。

(2)终端，图1所示终端包括终端1、终端2和终端3，所述终端通过访问服务器，从服务器上获取原始文本，在终端上将所获取的原始文本转化为测试图像并进行OCR识别，再对OCR识别的结果进行识别准确率计算。所述终端可以为智能手机、笔记本电脑、平板电脑或者台式电脑等电子设备，终端通过有线网络或者无线网络访问服务器。

请参阅图2，图2为本发明实施例提供的一种OCR识别准确率的计算方法的示意流程图。如图2所示，该方法包括以下步骤S101～S104。

S101，获取测试样本的原始文本，所述原始文本包括正确文字信息。

在本发明实施例中，该测试样本可以为word文档、PDF文档或者从互联网上下载的包含文字的文档，并将这些测试样本作为OCR识别准确率自动化计算的原始文本；在本实施例中，OCR(Optical Character Recognition，光学字符识别)识别的是上述各类型文档中的文字，所以原始文本中需要包括文字，其中文字可以是中文或者英文，也可以是其他语言的文字。

需要说明的是，本实施例将原始文本中的文字信息作为正确文字信息，所述正确文字信息可以用于后续步骤中与经过OCR识别得到的文字信息进行对比，从而通过对比以及相关的准确率计算方法得到OCR识别的准确率，同样的，所述正确文字信息可以包括中文文字、英文文字以及其他语言的文字。一般地，若存在多个不同的原始文本，则一个原始文本对应一个正确文字信息，每一个原始文本与其对应的正确文字信息之间形成一一对应的关系。

在一实施例中，如图3所示，在获取测试样本的原始文本之后，所述方法还包括以下步骤S202～S204：

S202，获取所述正确文字信息中每行文字、字母以及标点符号出现的次数。

在本发明实施例中，一般情况下，所述正确文字信息可以由文字、字母以及标点符号组成，以换行符作为所述正确文字信息中每行文字信息的换行标识对正确文字信息进行分行，然后提取所述正确文字信息中的每行文字信息中的每行文字、字母以及标点符号，并分别计算每行文字、字母以及标点符号出现的次数。

S204，根据所述正确文字信息中每行文字、字母以及标点符号出现的次数确定所述正确文字信息每行文字总数量。

在本发明实施例中，由于本实施例是针对所述正确文字信息中每行文字与经过OCR识别得到的文字信息进行对比，因此本实施例需要根据所述正确文字信息中每行文字确定所述正确文字信息每行文字总数量。本实施例通过确定所述正确文字信息中每行文字总数量，以及再通过计算后续步骤的匹配结果中的匹配失败的文字数量可以确定每行文字的OCR识别准确率。

需要说明的是，在另一实施例中，本发明还可以选择其它对象作为对比对象，例如，可以选取所述正确文字信息中的字母或者标点符号，若选取所述正确文字信息中的字母作为对比对象，则需要通过获取所述正确文字信息中每行字母的次数确定所述正确文字信息每行字母总数量；若选取所述正确文字信息中的标点符号作为对比对象，则需要通过获取所述正确文字信息中每行标点符号的次数确定所述正确文字信息每行标点符号总数量。

S102，将所述原始文本转化为待测试图像，并调用OCR(Optical CharacterRecognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果，所述OCR识别结果至少包括文字信息。

在本发明实施例中，在对原始文本进行OCR识别之前，需要先将原始文本转化为图像，得到所述待测试图像，具体的转化方法可以将原始文本中的每一页放置在摄像头下方，调用并运行摄像头拍摄原始文本中的每一页得到待测试图像，也可以利用截图工具对原始文本中的每一页进行截图得到待测试图像，因此，每个原始文本对应有一张或者多张待测试图像，在得到多张待测试图像后，需要对多张待测试图像中的每一张待测试图像进行标记，使得每一张待测试图像均对应一个原始文本，具体的方法可以为通过获取原始文本的文本名称，利用该文本名称对每一张待测试图像作标记，使得每一个原始文本与其对应的多张待测试图像形成一一对应的关系。

将原始文本转化为待测试图像之后，通过调用OCR识别接口对所述待测试图像进行OCR识别，所述OCR识别接口可以为任一现有的OCR识别接口，本实施例使用的OCR识别工具为FineReader识别工具，OCR识别接口为FineReader识别工具提供的OCR文档识别API接口，通过调用OCR识别接口将待测试图像传入至FineReader识别工具中进行OCR识别，由于OCR识别过程是利用OCR识别程序进行文字识别，并且OCR识别过程为现有的方案，因此，对于OCR识别过程在此不作具体的阐述。在本实施例中，所述待测试图像通过OCR识别后得到OCR识别结果，该OCR识别结果至少包括文字信息。

在一实施例中，如图4所示，所述在将所述原始文本转化为待测试图像，并调用OCR(Optical Character Recognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果之后，所述方法还包括以下步骤S302～S306：

S302，创建预设list集合；

在本发明实施例中，在得到OCR识别结果之后，需要将OCR识别结果中的文字信息进行存储，本实施例通过创建list集合存储OCR识别结果中的文字信息。具体的，通过调用JAVA的实现类ArrayList创建list集合对象，如List<String>list＝new ArrayList<String>()，在创建list集合对象后，利用list集合对象调用Add()方法向list集合对象中存入OCR识别结果中的文字信息，如list.Add("身份信息")。本实施例通过创建list集合实现对OCR识别后得到的文字信息的集中存储，并且在list集合中的存储长度可以动态变化，因此，在list集合中可以根据OCR识别后得到的文字信息的长度随意存储，用户不需要担心集合中的存储空间不足，导致文字信息无法存储的问题，也不需要担心多余的空间造成空间资源浪费。

S304，确定所述OCR识别结果中的文字信息中的换行符号；

在本发明实施例中，由于需要将文字信息分行存储至list集合中，因此需要对OCR识别结果中的文字信息进行分行，具体的方法是通过确定OCR识别结果中的文字信息中的换行符号，利用换行符号对OCR识别结果中的文字信息进行分行，然后再将每一行存储至list集合中。

S306，以所确定的换行符号作为行节点，将所述OCR识别结果中的文字信息存储至所述预设list集合中。

在本发明实施例中，通过换行符合作为OCR识别结果中的文字信息的行节点对文字信息进行分行，然后再将每一行按照先后顺序分别存储至list集合中，由于list集合可以根据文字信息的长度动态变化空间，因此，用户不需要担心集合中的存储空间不足，导致文字信息无法存储的问题，也不需要担心多余的空间造成空间资源浪费。

S103，获取所述原始文本的文本ID，通过所述文本ID查询与所述原始文本相对应的OCR识别结果中的文字信息，并逐行获取所述OCR识别结果中的文字信息，将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率。

在本发明实施例中，在需要计算OCR识别准确率时，由于每个原始文本都含有一个唯一的文本ID，可以通过原始文本的文本ID从文字信息的存储位置去获取OCR识别结果中的文字信息，例如原始文本的唯一文本ID是001，在进行OCR识别之后，通过传入文本ID(即001)逐行取得OCR识别结果中的文字信息，然后将OCR识别结果中的文字信息与对应的正确文字信息进行逐行匹配，具体的，采用OCR识别结果中的字段标识及其识别值逐个与正确文字信息中对应的字段标识与正确值进行逐行匹配的方式：将OCR识别结果中的文字信息对应的每行文字进行比较，即该文字信息中的每行文字“定义一个长度可变的对象”，与原始文本中正确文字信息对应的每行文字“定义一个长度可变的对象”进行匹配，在匹配过程中，当有一个字未对应上，将匹配失败的文字数量记为FailNum+1，FailNum的初始值为0，最终通过FailNum确定每行中匹配失败的文字数量；然后根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率，在每一行匹配完成后，根据正确文字信息的每行文字总数量与所述匹配失败的文字数量确定每行文字的OCR识别准确率，使用以下公式一进行统计：FailNum/Count*100得到每行文字的OCR识别准确率，其中，Count表示正确文字信息的每行文字总数量，FailNum表示匹配失败的文字数量。

在一实施例中，如图5所示，所述步骤S103包括以下步骤S402～S406：

S402，从所述预设list集合中逐行获取所述OCR识别结果中的文字信息后得到待匹配文本。

在本发明实施例中，在需要计算OCR识别准确率时，对存储在预设list集合中的OCR识别结果中的文字信息进行遍历，以文字信息中的换行符作为行节点逐行获取文字信息，将所获取的文字信息作为待匹配文本。

需要说明的是，在预设list集合中逐行获取OCR识别结果中的文字信息时，用户可以通过传入原始文本的文本ID，根据文本ID在预设list集合获取并得到经过OCR程序识别之后的OCR识别结果中的文字信息，然后再采用遍历行节点的方式逐行获取文字信息，将所获取的文字信息作为待匹配文本。通过这种方式，用户可以准确地从预设list集合中得到与原始文本相对应的经过OCR识别程序识别后的文字信息，同时也能防止由于文字匹配错乱而导致的OCR识别准确率的计算失败。

S404，将所述待匹配文本与所述原始文本中的正确文字信息进行逐行比对确定所述待匹配文本中每行匹配失败的文字数量。

在本发明实施例中，将原始文本中的正确文字信息的每一行与待匹配文本的每一行进行逐行比对，将每行中匹配失败的文字数量记为FailNum+1，FailNum的初始值记为0，将原始文本中的正确文字信息中的每一行文字的总为记为Count，最后通过记录FailNum的值确定每行匹配失败的文字数量。

S406，根据所述待匹配文本中每行匹配失败的文字数量以及所述正确文字信息的每行文字总数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率。

在本发明实施例中，在每一行匹配完成后，根据正确文字信息的每行文字总数量与所述匹配失败的文字数量确定每行文字的OCR识别准确率，使用以下公式一进行统计：FailNum/Count*100得到每行文字的OCR识别准确率，其中，Count表示正确文字信息的每行文字总数量，FailNum表示匹配失败的文字数量。

在一实施例中，如图6所示，在所述从所述预设list集合中逐行获取所述OCR识别结果中的文字信息后得到待匹配文本之前，所述方法还包括以下步骤S502～S504：

S502，预先针对每个原始文本配置文本标识，所述文本标识包括文本名称。

S504，若需要获取所述OCR识别结果中的文字信息，通过传入所述文本标识获取指定的OCR识别结果中的文字信息，并将所获取的指定的OCR识别结果中的文字信息与对应的原始文本中的正确文字信息进行逐行匹配。

S104，根据每行文字的OCR识别准确率计算所有行文字的OCR识别准确率。

在本发明实施例中，遍历每行文字的OCR识别准确率，并根据每行文字的OCR识别准确率进行统计，具体为通过计算每行文字的OCR识别准确率计算准确率的平均值，得到一个总的准确率，所得到的总的准确率即为针对所有行文字的OCR识别准确率。通过以上方案可以高效率的完成OCR识别的准确率的计算，可以提高OCR识别程序的性能及识别率，同时也提高了测试的效率。

由以上可见，本发明实施例获取测试样本的原始文本，所述原始文本包括正确文字信息；将所述原始文本转化为待测试图像，并调用OCR(Optical CharacterRecognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果，所述OCR识别结果至少包括文字信息；获取所述原始文本的文本ID，通过所述文本ID查询与所述原始文本相对应的OCR识别结果中的文字信息，并逐行获取所述OCR识别结果中的文字信息，将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率；根据每行文字的OCR识别准确率计算所有行文字的OCR识别准确率。本发明基于数据处理提供一种OCR识别准确率的计算方法，能够高效率地完成OCR文档识别的正确率的验证，可以提高OCR识别程序的性能以及识别率，同时也提高了测试的效率。

请参阅图7，对应上述一种OCR识别准确率的计算方法，本发明实施例还提出一种OCR识别准确率的计算装置，该装置100包括：第一获取单元101、OCR识别单元102、第一计算单元103、第二计算单元104。

其中，第一获取单元101，用于获取测试样本的原始文本，所述原始文本包括正确文字信息。在本发明实施例中，该测试样本可以为word文档、PDF文档或者从互联网上下载的包含文字的文档，并将这些测试样本作为OCR识别准确率自动化计算的原始文本；在本实施例中，OCR(Optical Character Recognition，光学字符识别)识别的是上述各类型文档中的文字，所以原始文本中需要包括文字，其中文字可以是中文或者英文，也可以是其他语言的文字。

OCR识别单元102，用于将所述原始文本转化为待测试图像，并调用OCR(OpticalCharacter Recognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果，所述OCR识别结果至少包括文字信息。在本发明实施例中，在对原始文本进行OCR识别之前，需要先将原始文本转化为图像，得到所述待测试图像，具体的转化方法可以将原始文本中的每一页放置在摄像头下方，调用并运行摄像头拍摄原始文本中的每一页得到待测试图像，也可以利用截图工具对原始文本中的每一页进行截图得到待测试图像，因此，每个原始文本对应有一张或者多张待测试图像，在得到多张待测试图像后，需要对多张待测试图像中的每一张待测试图像进行标记，使得每一张待测试图像均对应一个原始文本，具体的方法可以为通过获取原始文本的文本名称，利用该文本名称对每一张待测试图像作标记，使得每一个原始文本与其对应的多张待测试图像形成一一对应的关系。

第一计算单元103，用于获取所述原始文本的文本ID，通过所述文本ID查询与所述原始文本相对应的OCR识别结果中的文字信息，并逐行获取所述OCR识别结果中的文字信息，将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率。在本发明实施例中，在需要计算OCR识别准确率时，由于每个原始文本都含有一个唯一的文本ID，可以通过原始文本的文本ID从文字信息的存储位置去获取OCR识别结果中的文字信息，例如原始文本的唯一文本ID是001，在进行OCR识别之后，通过传入文本ID(即001)逐行取得OCR识别结果中的文字信息，然后将OCR识别结果中的文字信息与对应的正确文字信息进行逐行匹配，具体的，采用OCR识别结果中的字段标识及其识别值逐个与正确文字信息中对应的字段标识与正确值进行逐行匹配的方式：将OCR识别结果中的文字信息对应的每行文字进行比较，即该文字信息中的每行文字“定义一个长度可变的对象”，与原始文本中正确文字信息对应的每行文字“定义一个长度可变的对象”进行匹配，在匹配过程中，当有一个字未对应上，将匹配失败的文字数量记为FailNum+1，FailNum的初始值为0，最终通过FailNum确定每行中匹配失败的文字数量；然后根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率，在每一行匹配完成后，根据正确文字信息的每行文字总数量与所述匹配失败的文字数量确定每行文字的OCR识别准确率，使用以下公式一进行统计：FailNum/Count*100得到每行文字的OCR识别准确率，其中，Count表示正确文字信息的每行文字总数量，FailNum表示匹配失败的文字数量。

第二计算单元104，用于根据每行文字的OCR识别准确率计算所有行文字的OCR识别准确率。在本发明实施例中，遍历每行文字的OCR识别准确率，并根据每行文字的OCR识别准确率进行统计，具体为通过计算每行文字的OCR识别准确率计算准确率的平均值，得到一个总的准确率，所得到的总的准确率即为针对所有行文字的OCR识别准确率。通过以上方案可以高效率的完成OCR识别的准确率的计算，可以提高OCR识别程序的性能及识别率，同时也提高了测试的效率。

在一实施例中，如图8所示，所述装置100还包括第二获取单元105、第一确定单元106。

其中，第二获取单元105，用于获取所述正确文字信息中每行文字、字母以及标点符号出现的次数。在本发明实施例中，一般情况下，所述正确文字信息可以由文字、字母以及标点符号组成，以换行符作为所述正确文字信息中每行文字信息的换行标识对正确文字信息进行分行，然后提取所述正确文字信息中的每行文字信息中的每行文字、字母以及标点符号，并分别计算每行文字、字母以及标点符号出现的次数。

第一确定单元106，用于根据所述正确文字信息中每行文字、字母以及标点符号出现的次数确定所述正确文字信息每行文字总数量。在本发明实施例中，由于本实施例是针对所述正确文字信息中每行文字与经过OCR识别得到的文字信息进行对比，因此本实施例需要根据所述正确文字信息中每行文字确定所述正确文字信息每行文字总数量。本实施例通过确定所述正确文字信息中每行文字总数量，以及再通过计算后续步骤的匹配结果中的匹配失败的文字数量可以确定每行文字的OCR识别准确率。

在一实施例中，如图9所示，所述装置100还包括创建单元107、第二确定单元108、存储单元109。

其中，创建单元107，用于创建预设list集合。在本发明实施例中，在得到OCR识别结果之后，需要将OCR识别结果中的文字信息进行存储，本实施例通过创建list集合存储OCR识别结果中的文字信息。具体的，通过调用JAVA的实现类ArrayList创建list集合对象，如List<String>list＝new ArrayList<String>()，在创建list集合对象后，利用list集合对象调用Add()方法向list集合对象中存入OCR识别结果中的文字信息，如list.Add("身份信息")。本实施例通过创建list集合实现对OCR识别后得到的文字信息的集中存储，并且在list集合中的存储长度可以动态变化，因此，在list集合中可以根据OCR识别后得到的文字信息的长度随意存储，用户不需要担心集合中的存储空间不足，导致文字信息无法存储的问题，也不需要担心多余的空间造成空间资源浪费。

第二确定单元108，用于确定所述OCR识别结果中的文字信息中的换行符号。在本发明实施例中，由于需要将文字信息分行存储至list集合中，因此需要对OCR识别结果中的文字信息进行分行，具体的方法是通过确定OCR识别结果中的文字信息中的换行符号，利用换行符号对OCR识别结果中的文字信息进行分行，然后再将每一行存储至list集合中。

存储单元109，用于以所确定的换行符号作为行节点，将所述OCR识别结果中的文字信息存储至所述预设list集合中。在本发明实施例中，通过换行符合作为OCR识别结果中的文字信息的行节点对文字信息进行分行，然后再将每一行按照先后顺序分别存储至list集合中，由于list集合可以根据文字信息的长度动态变化空间，因此，用户不需要担心集合中的存储空间不足，导致文字信息无法存储的问题，也不需要担心多余的空间造成空间资源浪费。

在一实施例中，如图10所示，所述第一计算单元103具体包括：第二获取单元103a、比对单元103b、第一计算子单元103c。

其中，第二获取单元103a，用于从所述预设list集合中逐行获取所述OCR识别结果中的文字信息后得到待匹配文本。在本发明实施例中，在需要计算OCR识别准确率时，对存储在预设list集合中的OCR识别结果中的文字信息进行遍历，以文字信息中的换行符作为行节点逐行获取文字信息，将所获取的文字信息作为待匹配文本。

比对单元103b，用于将所述待匹配文本与所述原始文本中的正确文字信息进行逐行比对确定所述待匹配文本中每行匹配失败的文字数量。在本发明实施例中，将原始文本中的正确文字信息的每一行与待匹配文本的每一行进行逐行比对，将每行中匹配失败的文字数量记为FailNum+1，FailNum的初始值记为0，将原始文本中的正确文字信息中的每一行文字的总为记为Count，最后通过记录FailNum的值确定每行匹配失败的文字数量。

第一计算子单元103c，用于根据所述待匹配文本中每行匹配失败的文字数量以及所述正确文字信息的每行文字总数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率。在本发明实施例中，在每一行匹配完成后，根据正确文字信息的每行文字总数量与所述匹配失败的文字数量确定每行文字的OCR识别准确率，使用以下公式一进行统计：FailNum/Count*100得到每行文字的OCR识别准确率，其中，Count表示正确文字信息的每行文字总数量，FailNum表示匹配失败的文字数量。

在一实施例中，如图11所示，所述装置100还包括配置单元110、第三获取单元111。

其中，配置单元110，用于预先针对每个原始文本配置文本标识，所述文本标识包括文本名称。

第三获取单元111，用于若需要获取所述OCR识别结果中的文字信息，通过传入所述文本标识获取指定的OCR识别结果中的文字信息，并将所获取的指定的OCR识别结果中的文字信息与对应的原始文本中的正确文字信息进行逐行匹配。

由以上可见，本发明实施例提供一种OCR识别准确率的计算方法、装置、计算机设备以及存储介质，其中方法包括：获取测试样本的原始文本，所述原始文本包括正确文字信息；将所述原始文本转化为待测试图像，并调用OCR(Optical Character Recognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果，所述OCR识别结果至少包括文字信息；获取所述原始文本的文本ID，通过所述文本ID查询与所述原始文本相对应的OCR识别结果中的文字信息，并逐行获取所述OCR识别结果中的文字信息，将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率。本发明基于数据处理提供一种OCR识别准确率的计算方法，能够高效率地完成OCR文档识别的正确率的验证，可以提高OCR识别程序的性能以及识别率，同时也提高了测试的效率。

上述OCR识别准确率的计算装置与上述OCR识别准确率的计算方法一一对应，其具体的原理和过程与上述实施例所述方法相同，不再赘述。

上述OCR识别准确率的计算装置可以实现为一种计算机程序的形式，计算机程序可以在如图12所示的计算机设备上运行。

图12为本发明一种计算机设备的结构组成示意图。该设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑或者台式电脑等具有通信功能和语音输入功能的电子装置。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。参照图12，该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中，该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032，该计算机程序5032被执行时，可使得处理器502执行一种OCR识别准确率的计算方法。该计算机设备500的处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序被处理器执行时，可使得处理器502执行一种OCR识别准确率的计算方法。计算机设备500的网络接口505用于进行网络通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502执行所述计算机程序时实现如下操作：

在一个实施例中，所述处理器502执行所述计算机程序时还实现如下操作：

获取所述正确文字信息中每行文字、字母以及标点符号出现的次数；

根据所述正确文字信息中每行文字、字母以及标点符号出现的次数确定所述正确文字信息每行文字总数量。

创建预设list集合；

确定所述OCR识别结果中的文字信息中的换行符号；

以所确定的换行符号作为行节点，将所述OCR识别结果中的文字信息存储至所述预设list集合中。

在一个实施例中，所述获取所述原始文本的文本ID，通过所述文本ID查询与所述原始文本相对应的OCR识别结果中的文字信息，并逐行获取所述OCR识别结果中的文字信息，将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率，包括：

从所述预设list集合中逐行获取所述OCR识别结果中的文字信息后得到待匹配文本；

将所述待匹配文本与所述原始文本中的正确文字信息进行逐行比对确定所述待匹配文本中每行匹配失败的文字数量；

根据所述待匹配文本中每行匹配失败的文字数量以及所述正确文字信息的每行文字总数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率。

预先针对每个原始文本配置文本标识，所述文本标识包括文本名称；

若需要获取所述OCR识别结果中的文字信息，通过传入所述文本标识获取指定的OCR识别结果中的文字信息，并将所获取的指定的OCR识别结果中的文字信息与对应的原始文本中的正确文字信息进行逐行匹配。

本领域技术人员可以理解，图12中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图12所示实施例一致，在此不再赘述。

本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现以下步骤：

在一个实施例中，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，还以实现以下步骤：

创建预设list集合；

确定所述OCR识别结果中的文字信息中的换行符号；

本发明前述的存储介质包括：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等各种可以存储程序代码的介质。

本发明所有实施例中的单元可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

本发明实施例OCR识别准确率的计算方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例OCR识别准确率的计算装置中的单元可以根据实际需要进行合并、划分和删减。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种OCR识别准确率的计算方法，其特征在于，所述方法包括：

将所述原始文本转化为待测试图像，并调用OCR(Optical Character Recognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果，所述OCR识别结果至少包括文字信息；

2.如权利要求1所述的方法，其特征在于，在获取测试样本的原始文本之后，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述在将所述原始文本转化为待测试图像，并调用OCR(Optical Character Recognition，光学字符识别)识别接口对所述待测试图像进行OCR识别，得到OCR识别结果之后，所述方法还包括：

创建预设list集合；

确定所述OCR识别结果中的文字信息中的换行符号；

4.如权利要求3所述的方法，其特征在于，所述将所获取的OCR识别结果中的文字信息与所述原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计所述OCR识别结果中的文字信息中每行匹配失败的文字数量，根据所述正确文字信息的每行文字总数量与所述匹配失败的文字数量计算所述OCR识别结果中的文字信息中每行文字的OCR识别准确率，包括：

5.如权利要求4所述的方法，其特征在于，在所述从所述预设list集合中逐行获取所述OCR识别结果中的文字信息后得到待匹配文本之前，所述方法还包括：

6.一种OCR识别准确率的计算装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取所述正确文字信息中每行文字、字母以及标点符号出现的次数；

第一确定单元，用于根据所述正确文字信息中每行文字、字母以及标点符号出现的次数确定所述正确文字信息每行文字总数量。

8.如权利要求6所述的装置，其特征在于，所述装置还包括：

创建单元，用于创建预设list集合；

第二确定单元，用于确定所述OCR识别结果中的文字信息中的换行符号；

存储单元，用于以所确定的换行符号作为行节点，将所述OCR识别结果中的文字信息存储至所述预设list集合中。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的OCR识别准确率的计算方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如权利要求1-5任一项所述的OCR识别准确率的计算方法。