CN111598099B

CN111598099B - 图像文本识别性能的测试方法、装置、测试设备及介质

Info

Publication number: CN111598099B
Application number: CN202010422167.2A
Authority: CN
Inventors: 曾璇; 王小叶
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-10-24
Anticipated expiration: 2040-05-18
Also published as: CN111598099A

Abstract

本发明实施例公开了一种图像文本识别性能的测试方法、装置、测试设备及介质，其中方法包括：获取对文本图像进行文本标注得到的标注文本，以及采用识别引擎对所述文本图像进行文本识别得到的识别文本；根据所述文本图像的图像类型，确定对所述识别引擎的文本识别性能进行评测的评测策略，并确定所述评测策略的关联评测参数；从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值；根据所述评测策略和所述评测参数值，确定所述识别引擎的文本识别性能，可实现对识别引擎的文本识别性能进行全面评测。

Description

图像文本识别性能的测试方法、装置、测试设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像文本识别性能的测试方法、装置、测试设备及介质。

背景技术

文本识别是指利用计算机自动识别字符的技术，由于在人们的生产和生活中，需要处理大量的文字、报表和文本，为了减轻人们的文本处理压力，从而提升工作效率，可采用文本识别引擎辅助用户进行文本识别工作，该识别引擎例如可以是光学字符识别引擎等。当前市面存在由不同厂家提供的识别引擎，由于各厂家提供的识别引擎的商业用途不同，因此，不同厂家提供的识别引擎对图像文本进行识别时的性能存在一定的差异性，如有的识别引擎对亮光下的文本图像进行识别时的性能较好，而有的识别引擎对暗光下的文本图像的识别性能较好，而用户在选取识别引擎时，是基于各识别引擎的性能差异进行选取的，因此，如何实现对不同识别引擎的文本识别性能进行全面评测，成为了当前的研究热点。

发明内容

本发明实施例提供了一种图像文本识别性能的测试方法、装置、测试设备及介质，可实现对识别引擎的文本识别性能进行全面评测。

一方面，本发明实施例提供了一种图像文本识别性能的测试方法，包括：

获取对文本图像进行文本标注得到的标注文本，以及采用识别引擎对所述文本图像进行文本识别得到的识别文本；

根据所述文本图像的图像类型，确定对所述识别引擎的文本识别性能进行评测的评测策略，并确定所述评测策略的关联评测参数；

从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值；

根据所述评测策略和所述评测参数值，确定所述识别引擎的文本识别性能。

再一方面，本发明实施例提供了一种图像文本识别性能的测试装置，包括：

获取单元，用于获取对文本图像进行文本标注得到的标注文本，以及采用识别引擎对所述文本图像进行文本识别得到的识别文本；

确定单元，用于根据所述文本图像的图像类型，确定对所述识别引擎的文本识别性能进行评测的评测策略，并确定所述评测策略的关联评测参数；

所述确定单元，还用于从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值；

所述确定单元，还用于根据所述评测策略和所述评测参数值，确定所述识别引擎的文本识别性能。

在一个实施例中，所述确定单元，具体用于：

根据所述文本图像的图像类型，从所述文本图像中获取多个字段，以及每个字段的字段内容；

若获取的各字段中的字段内容相互关联，则获取第一评测指标集，并根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略，所述第一评测指标集包括：字段粒度评测指标、告警功能评测指标、响应速率评测指标中的任意一个或多个；

若从所述文本图像中获取字段失败，则获取第二评测指标集，并根据所述第二评测指标集确定对所述识别引擎的字符识别性能进行评测的第二评测策略，所述第二评测指标集包括：字符粒度评测指标或响应速率评测指标中的任意一个或两个。

在一个实施例中，所述字段粒度评测指标包括：字段识别召回维度，字段识别准确维度，字段召回均值维度和字段准确均值维度中的至少一个评测维度；

所述根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略，包括：

根据所述第一评测指标集确定字段评测参数，并根据所述字段评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略；其中，所述字段评测参数包括以下一种或多种：

所述字段识别召回维度的字段召回参数和字段总召回之间的比值；

所述字段识别准确维度的字段准确参数和输出总字段之间的比值；

所述字段召回均值维度的字段召回均值参数和字段总召回之间的比值；

所述字段准确均值维度的字段准确均值参数和输出总字段之间的比值。

在一个实施例中，所述告警功能评测指标包括：告警维度，或误告警维度中的至少一个评测维度；

根据所述第一评测指标集确定告警评测参数，并根据所述告警评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略；其中，所述告警评测参数包括以下一种或多种：

所述告警维度的正确告警参数和需要告警总参数之间的比值；

所述误告警维度的误告警参数和不需要总告警参数之间的比值。

在一个实施例中，所述响应速率评测指标包括：识出率维度，平均耗时维度和最大耗时维度中的至少一个评测维度；

根据所述第一评测指标集确定速率评测参数，并根据所述速率评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略；其中，所述速率评测参数包括以下一种或多种：

所述识出率维度的字段识出参数和字段总识别之间的比值；

所述平均耗时维度的字段识出耗时参数和识出总耗时之间的比值；

所述最大耗时维度的最大耗时参数。

在一个实施例中，所述字符粒度评测指标包括：字符识别召回维度，字段识别召回维度，字符最小编辑距离维度和全图编辑距离维度中的至少一个评测维度；

所述根据所述第二评测指标集确定对所述识别引擎的字符识别性能进行评测的第二评测策略，包括：

根据所述第二评测指标集确定字符评测参数，并根据所述字符评测参数确定对所述识别引擎的字符识别性能进行评测的第二评测策略；其中，所述字符评测参数包括以下一种或多种：

所述字符识别召回维度的字符召回参数和字符总召回之间的比值；

所述字符识别准确维度的字符准确参数和输出总字符之间的比值；

所述字符最小编辑距离维度的修改字符参数；

所述全图编辑距离维度的修改总字符。

在一个实施例中，所述文本标注文本包括：标签标注，

所述获取单元，还用于获取对所述文本图像进行文本标注得到的标注文本包括的标签标注，并根据所述标签标注确定所述文本图像的图像类型；

其中，所述图像类型包括第一类型和第二类型，所述第一类型的文本图像包括的字段对应的字段内容相互关联；所述第二类型的文本图像的字段内容不存在所述关联关系。

在一个实施例中，所述装置还包括：处理单元。

处理单元，用于对所述标注文本和所述识别文本的文本格式进行标准化处理，使所述标注文本的文本格式和所述识别文本的文本格式保持一致；

其中，所述文本格式包括以下一种或多种：日期格式，数字格式和符号格式。

在一个实施例中，所述装置还包括：添加单元和更新单元。

添加单元，用于为所述第一评测指标集中的各评测指标添加第一标记，并为所述第二评测指标集中的各评测指标添加第二标记；

更新单元，用于响应于对所述第一评测指标集中各评测指标的更新指令，对所述第一标记进行更新；或者，

所述更新单元，还用于响应于对所述第二评测指标集中各评测指标的更新指令，对所述第二标记进行更新。

再一方面，本发明实施例提供了一种测试设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下步骤：

再一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有第一程序指令和第二程序指令，所述第一程序指令被处理器执行时，用于执行如第一方面所述的图像文本识别性能的测试方法，所述第二程序指令被处理器执行时，用于执行如第二方面所述的图像文本识别性能的测试方法。

在本发明实施例中，测试设备在对识别引擎的文本识别性能进行测试时，可先获取标注用户对文本图像进行文本标注得到的标注文本，以及采用识别引擎对文本图像进行文本识别得到的识别文本，进一步地，该测试设备可根据该文本图像的图像类型，确定对识别引擎的文本识别性能进行评测的评测策略，以及该评测策略的关联评测参数，在该测试设备从该标注文本和该识别文本中确定出该关联评测参数对应的评测参数值后，可根据该评测策略和该评测参数值，确定识别引擎的文本识别性能，实现了基于文本图像的图像类型的差异，获取不同的评测策略对识别引擎的文本识别性能进行评测，可对识别引擎对不同类型的文本图像的识别性能进行分别评测，提升了识别引擎进行文本识别时的全面性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像文本识别性能的测试系统的示意图；

图2是本发明实施例提供的一种图像文本识别性能的测试方法的示意流程图；

图3a是本发明实施例提供的一种识别引擎对文本图像进行识别后得到识别文本的示意图；

图3b是本发明实施例提供的一种识别引擎对文本图像进行识别后得到识别文本的示意图；

图3c是本发明实施例提供的一种识别引擎对文本图像进行识别后得到识别文本的示意图；

图4a是本发明实施例提供的一种卡证类文本图像的标签标注的示意图；

图4b是本发明实施例提供的一种票据类文本图像的标签标注的示意图；

图4c是本发明实施例提供的一种车牌类文本图像的标签标注的示意图；

图4d是本发明实施例提供的一种通用印刷类文本图像的标签标注的示意图；

图5是本发明实施例提供的一种图像文本识别性能的测试方法的示意流程图；

图6是本发明实施例提供的一种图像文本识别性能的测试方法的示意流程图；

图7是本发明实施例提供的一种图像文本识别性能的测试装置的示意性框图；

图8是本发明实施例提供的一种测试设备的示意性框图。

具体实施方式

本发明实施例提出了一种图像文本识别性能的测试方法，可对识别引擎在识别不同图像类型的文本图像时的识别性能进行分析，并准确得出识别引擎针对不同图像类型的文本图像的识别性能，在一个实施例中，该识别引擎对文本图像的识别性能主要体现在：该识别引擎是否能正确识别出文本图像中的文字，或者，该识别引擎对文本图像中文字的识出率的高低，可以理解的是，在该识别引擎可正确识别出文本图像中的文字时，或者该识别引擎对文本图像中的文字的识出率较高时，可认为该识别引擎针对文本图像的识别性能较好，而在该识别引擎无法正确识别出文本图像中的文字，或者，该识别引擎对文本图像中的文字的识出率较低时，则可认为该识别引擎针对文本图像的识别性能较差。为了确定识别引擎对文本图像进行识别后得到的文字是否为正确的文字，即为了确定该识别引擎是否正确识出文本图像中的文字，用于对所述识别引擎的识别性能进行测试的测试设备需要获取对文本图像的字符进行正确标注的标注文本，进一步的，该测试设备才可基于该标注文本判断该识别引擎对该文本图像进行文本识别得到的识别文本中文字的正确性。在一个实施例中，该测试设备可以是服务器设备，也可是终端设备，该识别引擎可以内置于服务器设备中，也可内置于终端设备中，在本发明实施例中，后续以该测试设备为服务器设备，且该识别引擎内置于服务器设备为例，对本发明实施例进行详细说明，在该测试设备和该识别引擎为其他设备时，可参见本发明实施例。

在一个实施例中，该图像文本识别性能的测试方法可应用于如图1所示的测试系统中，如图1所示，该测试系统包括测试设备10，标注用户11和识别引擎对应的服务器12，其中，该是被引擎例如可以是光学字符识别(Optical Character Recognition，OCR)引擎，标注用户11可对文本图像进行文本标注得到标注文本，识别引擎12可对该文本图像进行文本识别得到识别文本，且该标注用户11进行文本标注的文本图像和该识别引擎12进行文本识别的文本图像为同一文本图像，同一文本图像是指，该同一文本图像的文本内容，格式，类型等完全一致。在一个实施例中，测试设备10在对识别引擎的文本识别性能进行测试时，将标注用户11对文本图像进行标注得到的标注文本中的文字作为完全正确的参考文字，而将基于识别引擎12对文本图像进行识别得到的识别文本中的文字作为对比文字，基于将参考文字和对比文字的匹配，测试设备10可将对比文字中，和参考文字不匹配的作为错误文字，进一步地，测试设备可基于该错误文字对识别引擎的识别性能进行准确评测。

在一个实施例中，在标注用户11对文本图像进行标注得到标注文本，识别引擎12对该文本图像进行文本识别得到识别文本后，该测试设备10可从标注用户11处获取该标注文本，并从该识别引擎12处获取识别文本，在获得该标注文本和识别文本后，该测试设备10可基于该标注文本和识别文本对该识别引擎的文本识别性能进行评测，以确定出该识别引擎的文本识别性能。在具体实现中，为了提升测试设备对识别引擎的文本识别性能进行测试时的准确度，该测试设备在基于标注文本和识别文本确定识别引擎的文本识别性能时，可先确定出该文本图像的图像类型，并可基于该图像类型获取对该识别引擎的文本识别性能进行评测的不同评测策略，以及该评测策略的关联评测参数，进一步的，该测试设备可基于该标注文本和识别文本确定出该关联评测参数的评测参数值，从而可基于该评测策略和该评测参数值，确定出该识别引擎的文本识别性能。

在一个实施例中，该文本图像的图像类型是根据该文本图像中是否存在结构化字段确定的，结构化字段是指：文本图像中存在字段，且字段的字段内容之间相互关联，其中，若该文本图像中存在结构化字段，可认为该文本图像的图像类型为第一类型，并可将该文本图像中不存在结构化字段的文本图像的图像类型作为第二类型。在一个实施例中，测试设备获取的用于对识别引擎识别第一类型的文本图像的识别性能进行评测的评测策略为第一评测策略，该第一评测策略是基于第一评测指标集确定的，其中，该第一评测指标集包括：字段粒度评测指标、告警功能评测指标、响应速率评测指标中的任意一个或多个；此外，该测试设备获取的用户对识别引擎识别第二类型的文本图像的识别性能进行评测的评测策略为第二评测策略，该第二评测策略是基于第二评测指标集确定的，该第二评测指标集包括：符粒度评测指标或响应速率评测指标中的任意一个或两个。

在一个实施例中，存在结构化字段的第一类型的文本图像例如可以是卡证类图像或者票据类图像等，该卡证类图像例如可以是身份证、银行卡、营业执照、驾驶证、行驶证、护照或者道路运输证等对应的图像，该票据类图像例如可以是增值税发票、出租车发票、火车票、机票行程单、定额发票、车辆通行费发票、机动车销售发票、或法院传票等对应的图像；该不存在结构化字段的第二类的文本图像例如可以是车牌、通用印刷、或手写体等对应的图像，该通用印刷对应的图像例如可以是：菜单、表格、行业文档、电商广告图像等对应的图像。在测试设备基于不同文本图像的图像类型获取得到用于对识别引擎的文本识别性能进行测试的评测策略后，可基于该评测策略，以及该评测策略的关联评测参数的参数值，准确得出该识别引擎对不同类型的文本图像进行识别时的准确度，可更加准确地反映该识别引擎的文本识别性能。

请参见图2，是本发明实施例提出的一种图像文本识别性能的测试方法的示意流程图，该方法可应用于上述的用于对识别引擎的文本识别性能进行评测的测试设备中，如图2所示，该方法可包括：

S201，获取对文本图像进行文本标注得到的标注文本，以及采用识别引擎对所述文本图像进行文本识别得到的识别文本。

在一个实施例中，为了客观，全面地对识别引擎的文本识别性能进行测试，标注用户在对文本图像进行标注时，需要对标注的文本图像进行标准化规范，以使得测试设备可获取到得到规范的标注文本，从而可提升测试设备对识别引擎的文本识别性能进行测试的准确性。在实际应用场景中，输入到识别引擎(如上述的OCR引擎)进行文本识别的文本图像的图像类型具有差异性和多样性，其中，差异性主要体现在不同应用场景下的文本图像的图像特点不同，比如身份证、银行卡等卡证类图像中的文字是比较简单的结构化字段，而表格、文档等通用图像可能包含的则是大量的非结构化文本，且该表格、文档等通用图像的文本的版式也比结构化字段的图像(如卡证类图像)的文本版式复杂。其中，结构化字段是指对应图像中的文字是由特定的字段构成的，如每个中国公民的身份证对应图像中的文字字段都包括：姓名字段、性别字段、出生年月字段、名族字段、身份证号字段以及地址字段，而文档或表格等通用图像中非结构化文本是指该文档或表格等通用图像中的文字是不定的。

在一个实施例中，除了不同应用场景导致的文本图像之间的差异之外，在同一种应用场景中，输入到识别引擎进行文本识别的文本图像还具有多样性，以输入到识别引擎中进行识别的文本图像为车牌对应的图像为例，在停车场、收费站等约束场景下，车牌对应图像的拍摄角度基本为正拍，那么得到的车牌号码非常清晰，而在道路摄像头、行车记录仪、加油站等非约束场景下拍摄的车牌图像，存在正拍、侧拍、俯拍等不同的拍摄角度，再加上拍摄距离的远近程度不同，在非约束场景下拍摄得到的车牌图像存在车牌号码不清晰，车牌面积占比较小，以及拍摄得到的一张图像对应有多个车牌的问题，加大了识别引擎在非约束场景下对拍摄得到的文本图像进行准确识别的难度，因此，为了正确分析出识别引擎对文本图像进行识别时的识别性能，该识别引擎需要对不同角度，以及不同清晰程度的文本图像进行识别，以实现对识别引擎的文本识别性能的全面分析。如果该只使用正拍、清晰的文本图像对该识别引擎的文本识别性能进行分析，会导致对识别引擎的文本识别性能的分析过于理想化，即分析得到的识别引擎对文本图像的识别性能高于该识别引擎对文本图像的实际识别性能，而如果只使用侧拍、不清晰的文本图像对该识别引擎的文本识别性能进行分析，会导致对识别引擎的文本识别性能的分析过于负面，即分析得到的识别引擎对文本图像的识别性能远低于该识别引擎对文本图像的实际识别性能，可以理解的是，标注用户进行标注的，用于对该识别引擎的文本识别性能进行分析的文本图像应尽可能覆盖到应用场景的不同需求，便于衡量识别引擎对不同类型的文本图像的文字识别能力。

在一个实施例中，由于对识别引擎的文本识别性能进行测试时，需要获取不同应用场景下的文本图像，以实现对识别引擎性能的全面分析，因此，标注用户在为文本图像进行文本标注时，可基于该文本图像的应用场景添加不同的分类标签对该文本图像进行标签标注，其中，标签标注是指根据文本图像的类型(即应用场景)为该文本图像打标签，以便在对该识别引擎的文本识别性能进行测试时，可根据文本图像对应的标签标注，对识别引擎识别不同标签标注对应的文本图像的能力进行评测，以保证对识别引擎的文本识别性能的测试全面性，并在对识别引擎的文本识别性能进行测试时，对该识别引擎对不同图像类型的文本图像的识别能力进行分别评测，即执行步骤S202。在一个实施例中，标注用户对文本图像进行的文本标注除了上述的标签标注外还包括字符标注，字符标注是指标注用户对文本图像上的字符进行人工标注，该字符包括文字和标点符号，进一步地，测试设备则可获取该标注用户对文本图像进行标注得到的标注文本，并可将该文本图像输入到识别引擎中，以得到该识别引擎输出的对该文本图像进行识别后得到的识别文本。

在一个实施例中，标注用户在对文本图像进行字符标注时，可基于文本图像的图像类型采取不同的标注方法，若文本图像的图像类型为包括结构化字段的第一类型，则标注用户在对第一类型的文本图像进行字符标注时，需要先定义待标注字段，以及字段标注顺序，再根据确定的字段标注顺序，并按照该文本图像的字段内容进行字符标注，其中，该字段标注顺序可以是由标注用户自行设定的，也可以是预设的标注顺序。如图3a所示，若文本图像为图3a中由30标记的图像，则标注用户在对由30标记的文本图像进行字符标注时，先确定的待标注字段包括身份证字段，以及字段标注顺序为姓名、性别、名字、出生日期、地址和身份证号的顺序从前往后进行标注，进一步地，标注用户可按照该字段标注顺序，对字段内容进行字符标注，进行字符标注后得到的文本可如图3a中由31标记的表格中的文本所示。

在一个实施例中，在文本图像中的字段为结构化中字段时，由于结构化字段中各字段的字段内容相互关联，如图3a中由30标记的文本图像中各字段的字段内容用于指示同一个中国公民小王，所以，测试设备在测试识别引擎对第一类型的文本图像的文本识别性能时，不能单一地通过该识别引擎对单个字符的识别正确率来确定该识别引擎的文本识别性能，而需要分析该识别引擎对每个字段中的字段内容的识别正确性，才能较为客观地分析出该识别引擎进行文本识别时性能的优劣。也就是说，测试设备在确定识别引擎对第一类型的文本图像中文本的识别性能时，需要根据识别引擎对第一类型的文本图像中字段的字段内容的识别正确性进行确定。

在一个实施例中，若文本图像的类型为不包括结构化字段的字符的第二类型，则标注用户在对第二类型的文本图像进行字符标注时，可按照预设标注顺序对该第二类型的文本图像进行标注，其中，该预设标注顺序例如可以是从上到下，再从左到右的顺序。如图3b所示，若文本图像为图3b中由32标记的图像所示，该文本图像中不包括字段内容相互关联的字段，所以，标注用户在图3b中由32标记的文本图像进行字符标注时，可按照从上到下，再从左到右的顺序进行标注，其中，标注用户对该文本图像进行字符标注后得到的文本可如图3b中由33标记的表格中的文本所示。或者，若该文本图像为图3c中由34标记的表格图像所示，标注用户对该表格图像进行字符标注后得到的文本可如图3c中由35标记的表格中的文本所示。在一个实施例中，测试设备在确定识别引擎对第二类型的文本图像进行文本识别的性能时，由于第二类型的文本图像中的字段不是相互关联的，那么，测试设备在确定识别引擎对第二类型的文本图像进行文本识别的性能时，可通过确定该识别引擎对第二类型的文本图像中各个字符的识别正确率来进行确定。可以理解的是，基于文本图像的图像类型的差异，测试设备需要采取不同的策略对识别引擎的文本识别性能进行测试。

S202，根据所述文本图像的图像类型，确定对所述识别引擎的文本识别性能进行评测的评测策略，并确定所述评测策略的关联评测参数。

在一个实施例中，该文本图像的图像类型可分为第一类型和第二类型，该第一类型的文本图像包括：存在结构化字段的卡证类的文本图像，以及票据类的文本图像等，其中，标注用户进行文本标注的文本图像，以及该识别引擎进行文本识别的文本图像的数量为多个，为了测试该识别引擎对卡证类的文本图像进行文本识别时的性能，可将有不同标签标注的卡证类文本图像输入到识别引擎中，其中，卡证类文本图像的不同标签标注如图4a所示，其中，卡证类文本图像对应的标签标注包括：拍摄角度，光线场景，文字清晰度低，边框不完整，少数名族卡证，包含生僻字，以及特殊样本中的一个或多个，卡证类文本图像的各个标签标注具体是指：

①拍摄角度不同是指：对卡证从不同角度进行拍摄得到的卡证类图像，可细化为正拍、倒排和斜拍等。

②光线场景不同是指：对卡证在不同光线环境中进行拍摄得到的卡证类图像，可细化为强光卡证类图像、弱光卡证类图像和阴阳光卡证类图像，其中，强光下的卡证面具有反光，可能导致拍摄得到的强光卡证类图像的卡面不清楚，弱光下的卡证面由于光线较暗，可能导致拍摄得到的弱光卡证类图像的卡面不清楚，而阴阳光下的卡证面由于处在一半亮一半暗的环境中，也存在拍摄得到的阴阳光卡证类图像不清楚的问题。

③文字清晰度低是指：由于对卡证类图像保存不当或使用时间较长导致的图像脏旧，污损问题，以及由于拍摄设备的性能问题，或者不当的拍摄方式导致的卡证类图像模糊，以及存在图像噪音的问题。

④边框不完整是指：卡证的边框没有完整出现在对应卡证类图像中。

⑤少数民族样本是指：带有少数名族文字的卡证类图像。

⑥包含生僻字是指：带有生僻字的卡证类图像。

⑦特殊样本是指：由于卡证类图像通常用于要求高安全性的场景中，因此对卡证类型的文本图像需要做告警检测，以防止不法分子利用卡证造假侵犯真实用户权益，特殊样本主要包括复印件/扫描件、屏幕翻拍件和PS(Photoshop，一种图像处理软件)组合得到的图像。

在一个实施例中，票据类文本图像的不同标签标注可如图4b所示，该票据类图像对应的标签标注包括：拍摄角度，光线场景，文字清晰度低，边框不完整，以及特殊样本中的一个或多个，票据类文本图像的各个标签标注具体是指：

①拍摄角度不同是指：对票据从不同角度进行拍摄得到的票据类图像，可细化为正拍、倒排和斜拍等。

②光线场景不同是指：在不同拍摄环境中拍摄得到的票据类文本图像，该拍摄环境具体可细分为亮光环境和暗光环境。

③文字清晰度低是指：除了图像模糊和图像噪音之外，票据类文本图像可能还存在纸质折叠产生的折痕问题，以及票据类文本印章对文本图像的干扰。

④边框不完整是指：票据的边框没有完整出现在对应票据类图像中。

⑤特殊样本是指：由于票据类图像通常用于要求高安全性的场景中，因此对票据类型的文本图像需要做告警检测，以防止不法分子利用卡证造假侵犯真实用户权益，特殊样本主要包括复印件/扫描件、屏幕翻拍件和PS组合得到的图像。

在一个实施例中，该文本图像的图像类型为第二类型时，第二类型的文本图像包括：车牌、通用印刷、或手写体等对应的图像，车牌类文本图像的不同标签标注可如图4c所示，其中，车牌类文本图像包括：警用车、港澳车、教练车、外交机构用车、临时车、双行车等车牌的图像，其对应的标签标注包括：拍摄角度，光线场景，车牌清晰度低，小车牌，多车牌，边框不完整，和特殊样本中的一个或多个，车牌类文本图像的各个标签标注具体是指：

①拍摄角度不同是指：对车牌从不同角度进行拍摄得到的车牌类图像，可细化为正面拍摄和侧面拍摄等。

②光线场景不同是指：对车牌在不同光线环境中进行拍摄得到的车牌类图像，该不同光线环境包括强光环境，弱光环境，和阴阳光环境，其中，阴阳光环境是指一部分强光一部分弱光的环境。

③车牌清晰度低是指：除了图像模糊和图像噪音之外，车牌类图像还可能存在由于脏旧或者雨雪遮挡导致的车牌类图像不清楚的问题。

④小车牌是指：由于对车牌拍摄距离较远所导致的车牌图像占整体面积较小。

⑤多车牌是指：车牌图像是包括多个车牌的图像。

⑥边框不完整是指：车牌的边框没有完整出现在对应车牌类图像中。

⑦特殊样本是指：特殊类型的车牌对应的车牌类图像，包括：警用车车牌、港澳台车车牌、教练车车牌、外交机构用车车牌、临时车牌和双行车牌。

在一个实施例中，通用印刷类文本图像的不同标签标注可参见图4d，该通用印刷类文本图像包括：菜单、表格、试卷、行业文档、电商广告等对应的文本图像，其对应的标签标注包括：基于字符内容的标签标注，基于字符量级的标签标注，图像清晰度，基于排版方向的标签标注，和生僻字或形近字的标签标注中的一个或多个，通用印刷类文本图像的各个标签标注具体是指：

①基于字符内容的标签标注是指：对包括简体汉字、繁体汉字、英文等不同字符类型以及不同字体、字号的通用印刷类文本图像进行标注。

②基于字符量级的标签标注是指：对包括句子、段落和长篇文档的通用印刷类文本图像进行标注。

③图像清晰度是指：对存在模糊、或者噪音问题的通用印刷类文本图像，以及文本图像的背景存在水印或者花纹干扰的进行标注。

④基于排版方向的标签标注是指：对包括横向文本、纵向文本或者弯曲文本的通用印刷类文本图像进行标注。

⑤生僻字或形近字是指：存在生僻字或形近字的通用印刷类文本图像进行标注。

在一个实施例中，基于各文本图像对应标注文本的标签标注，测试设备可基于该标签标注确定识别引擎进行文本识别的文本图像的图像类型，从而可基于该文本图像的图像类型，确定对该识别引擎的文本识别性能进行评测的评测策略，再执行步骤S203和步骤S204。其中，在文本图像对应标注文本的标签标注指示该文本图像的图像类型为：文本图像中各字段的字段内容相互关联的第一类型时，测试设备确定的用于对识别引擎识别该第一类型的文本图像的识别性能的评测策略是从该第一评测指标集确定的，其中，该第一评测指标集包括：字段粒度评测指标、告警功能评测指标、响应速率评测指标中的任意一个或多个；或者，若文本图像对应标注文本的标签标注指示该文本图像的图像类型为：文本图像中不包括字段内容相关联的字段的第二类型时，测试设备确定的用于对识别引擎识别该第二类型的文本图像的识别性能的评测策略是从该第二评测指标集确定的，其中，该第二评测指标集包括：字符粒度评测指标或响应速率评测指标中的任意一个或两个。

在一个实施例中，测试设备在从评测指标集中确定出对识别引擎的文本识别性能进行评测的评测策略时，由于评测指标集中各评测指标包括多个不同的评测维度，所以，该测试设备确定出的对识别引擎的文本识别性能进行评测的评测策略是针对该识别引擎的不同评测维度下的策略。其中，该字段粒度评测指标包括：字段识别召回维度，字段识别准确维度，字段召回均值维度和字段准确均值维度中的至少一个评测维度；告警功能评测指标包括：告警维度，或误告警维度中的至少一个评测维度；响应速率评测指标包括：识出率维度，平均耗时维度和最大耗时维度中的至少一个评测维度；字符粒度评测指标包括：字符识别召回维度，字段识别召回维度，字符最小编辑距离维度和全图编辑距离维度中的至少一个评测维度。对应的，测试设备在确定出包括不同评测维度的评测策略后，该测试设备在确定该评测策略的关联评测参数时，也是基于该不同评测维度进行分别确定的。

S203，从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值。

S204，根据所述评测策略和所述评测参数值，确定所述识别引擎的文本识别性能。

在步骤S203和步骤S204中，测试设备在确定用于对识别引擎识别不同图像类型的文本图像的识别性能进行测试的评测策略后，可先基于标注文本和识别文本确定该评测策略中关联评测参数对应的评测参数值，在一个实施例中，由于测试设备确定出的对识别引擎的文本识别性能进行评测的评测策略是包括多个评测维度下的评测策略，那么，该测试设备从标注文本和识别文本中确定出的该评测策略的关联评测参数的参数值也是在多个评测维度下的参数值，使得该测试设备可基于该评测策略和该评测参数值，确定出该识别引擎的文本识别性能。在一个实施例中，测试设备在确定出识别引擎的文本识别性能后，可将该识别性能输出到测试人员对应的用户终端，以使得测试人员可基于输出的性能对识别引擎的文本识别性能进行调试。

在一个实施例中，如图5所示，标注用户可先对文本图像进行标签标注和字符标注，得到该文本图像的标注文本，此外，还可将该文本图像输入到识别引擎中，该识别引擎对该文本图像进行文本识别后，将输出对该文本图像进行文本识别得到的识别文本，进一步的，测试设备则可获取该标注文本和识别文本。在测试设备获取到该标注文本和识别文本后，由于该标注文本和识别文本的文本格式可能不统一，需要先读该标注文本和识别文本的文本格式进行标准化处理，以保持该标注文本和识别文本的文本格式一致。

在一个实施例中，由于识别引擎输出的识别文本与标注用户标注得到的标注文本可能存在文本格式不统一的问题，比如身份证的出生日期字段，标注文本中可能为“1995年7月1日”，识别引擎输出的识别文本可能为“1995-07-01”，或“1995/07/01”，或“1995.07.01”等不同的文本格式，为了避免格式的不统一导致的对识别引擎的客观评测带来的影响，因此，测试设备在基于评测策略和关联评测参数对应的参数值计算识别引擎的文本识别性能之前，需要对识别文本和标注文本中的文本格式进行标准化处理，保证识别文本和标注文本中文本格式的统一。具体针对文本格式的标准化处理包括以下几个方面：

①涉及日期的文本格式，统一按“年-月-日”的文本格式进行格式转换，举例来说，文本格式为“20090801”的日期文本，转换为文本格式为“2009-08-01”的文本。

②涉及金额的文本格式，统一将文本格式转换为阿拉伯数字的格式，举例来说，文本格式为“伍拾万圆整”的金额文本，转换为文本格式为“500000元”的文本。

③涉及标点符号的文本格式，统一将全角符号转换为半角符号，如将全角符号“？”转换为“？”，将全角符号“【】”转化“[]”，具体地，全角半角符号转换可参见表1：

表1

全角

a

b

c

d

e

f

g

h

i

半角

a

b

c

d

e

f

g

h

i

全角

j

k

l

m

n

o

p

q

r

半角

j

k

l

m

n

o

p

q

r

全角

s

t

u

v

w

x

y

z

A

半角

s

t

u

v

w

x

y

z

A

全角

B

C

D

E

F

G

H

I

J

半角

B

C

D

E

F

G

H

I

J

全角

K

L

M

N

O

P

Q

R

S

半角

K

L

M

N

O

P

Q

R

S

全角

T

U

V

W

X

Y

Z

1

2

半角

T

U

V

W

X

Y

Z

1

2

全角

3

4

5

6

7

8

9

0

｀

半角

3

4

5

6

7

8

9

0

`

全角

“”

‘’

＿

－

～

＝

+

\

|

半角

""

”

_

-

～

＝

+

\

|

全角

/

()

[]

【】

{}

＜＞

.

，

；

半角

/

()

[]

{}

<>

.

,

；

全角

：

！

＾

％

#

＠

＄

&

？

半角

:

！

^

％

#

@

$

&

？

在测试设备对该标注文本和识别文本的文本格式进行标准化处理后，可根据该文本图像的图像类型获取对识别引擎的文本识别性能进行评测的评测策略，并采用该评测策略，以及该评测策略的关联评测参数对应的评测参数值，计算该识别引擎的性能参数，测试人员则可基于该性能参数对该识别引擎的文本识别性能进行确定，并可对该识别引擎的文本识别性能进行调试。

请参见图6，是本发明实施例提出的一种图像文本识别性能的测试方法的示意流程图，如图6所示，该方法可包括：

S601，获取对文本图像进行文本标注得到的标注文本，以及采用识别引擎对所述文本图像进行文本识别得到的识别文本。

在一个实施例中，步骤S601的具体实施方式可参见上述实施例中步骤S201的具体实施方式，在此不再赘述。

S602，根据所述文本图像的图像类型，从所述文本图像中获取多个字段，以及每个字段的字段内容。

S603，若获取的各字段中的字段内容相互关联，则获取第一评测指标集，并根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略。

S604，若从所述文本图像中获取字段失败，则获取第二评测指标集，并根据所述第二评测指标集确定对所述识别引擎的字符识别性能进行评测的第二评测策略。

在步骤S602～步骤S604中，测试设备在对识别引擎识别不同图像类型的文本图像的识别性能进行评测时，可先从该文本图像中获取多个字段，以及每个字段的字段内容，如果测试设备获取的各字段的字段内容相互关联，则说明测试设备需要测试的是识别引擎针对每个字段的识别性能，因此，测试设备可获取第一评测指标集，并从该第一评测指标集中确定该识别引擎针对字段的识别性能进行评测的第一评测策略，其中所述第一评测指标集包括：字段粒度评测指标、告警功能评测指标、响应速率评测指标中的任意一个或多个。在一个实施例中，该第一评测指标集中的各个评测指标包括一个或多个评测维度，对应地，测试设备在从该第一评测指标集中确定对识别引擎的字段识别性能进行评测的第一评测策略时，可从该第一评测指标集的评测指标包括的不同评测维度进行确定，在具体实现中，该第一评测指标集包括的字段粒度评测指标包括：字段识别召回维度，字段识别准确维度，字段召回均值维度和字段准确均值维度中的至少一个评测维度；那么测试设备在从所述字段粒度评测指标确定的第一评测策略时，可先根据所述第一评测指标集确定字段评测参数，从而可根据所述字段评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略；其中，所述字段评测参数包括以下一种或多种：所述字段识别召回维度的字段召回参数和字段总召回之间的比值；或，所述字段识别准确维度的字段准确参数和输出总字段之间的比值；或，所述字段召回均值维度的字段召回均值参数和字段总召回之间的比值；或，所述字段准确均值维度的字段准确均值参数和输出总字段之间的比值。

在一个实施例中，该第一评测指标集包括的告警功能评测指标包括：告警维度，或误告警维度中的至少一个评测维度，那么，测试设备在从所述告警功能评测指标确定的第一评测策略时，可先根据所述第一评测指标集确定告警评测参数，并根据所述告警评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略；其中，所述告警评测参数包括以下一种或多种：所述告警维度的正确告警参数和需要告警总参数之间的比值；或者，所述误告警维度的误告警参数值和不需要总告警参数之间的比值。该第一评测指标集包括的响应速率评测指标包括：识出率维度，平均耗时维度和最大耗时维度中的至少一个评测维度，那么所述测试设备在从所述响应速率评测指标确定的第一评测策略时，可先根据所述第一评测指标集确定速率评测参数，并根据所述速率评测参数确定对所述识别引擎的字段识别性能进行评测的第一评测策略；其中，所述速率评测参数包括以下一种或多种：所述识出率维度的字段识出参数和字段总识别之间的比值；或者，所述平均耗时维度的字段识出耗时参数和识出总耗时之间的比值；或者，所述最大耗时维度的最大耗时参数。

在一个实施例中，如果测试设备从所述文本图像中获取互相关联的字段内容失败，则测试设备可对该识别引擎识别各个字段的性能进行测试，因此，该测试设备可获取第二评测指标集，并从该第二评测指标集中确定出该识别引擎针对字符的识别性能进行评测的第二评测策略，其中，所述第二评测指标集包括：字符粒度评测指标或响应速率评测指标中的任意一个或两个。在一个实施例中，该第二评测指标集中各个评测指标也包括一个或多个评测维度，测试设备在从该第二评测指标集中确定对识别引擎的字符识别性能进行评测的第二评测策略时，也是从该第二评测指标集的评测指标包括的不同评测维度进行确定的。其中，该第二评测指标集包括的响应速率评测指标和该第一评测指标集包括的响应速率评测指标响应，所以，测试设备在根据响应速率评测指标确定第二评测策略时，和该测试设备基于响应速率评测指标确定第一评测策略相同，可参见上述的测试设备从响应速率评测指标确定第一评测策略的实施方式。

在一个实施例中，该第二评测指标集包括的字符粒度评测指标包括：字符识别召回维度，字段识别召回维度，字符最小编辑距离维度和全图编辑距离维度中的至少一个评测维度，测试设备在从该字符粒度评测指标确定的第二评测策略时，可先根据所述第二评测指标集确定字符评测参数，从而可根据所述字符评测参数确定对所述识别引擎的字符识别性能进行评测的第二评测策略；其中，所述字符评测参数包括以下一种或多种：所述字符识别召回维度的字符召回参数和字符总召回之间的比值；或，所述字符识别准确维度的字符准确参数和输出总字符之间的比值；或，所述字符最小编辑距离维度的修改字符参数；或，所述全图编辑距离维度的修改总字符。

在一个实施例中，测试设备在从第一评测指标集或第二评测指标集确定对识别引擎的文本识别性能进行评测的评测策略后，可进一步获取该评测策略的关联评测参数对应的评测参数值，从而基于该评测策略和该评测参数值，确定该识别引擎的文本识别性能，即转而执行步骤S605和步骤S606。

在一个实施例中，测试设备在确定出第一评测指标集或第二评测指标集后，可为所述第一评测指标集中的各评测指标添加第一标记，并为所述第二评测指标集中的各评测指标添加第二标记，使得测试设备在基于评测指标进行评测策略的选取时，可基于添加的标记进行评测策略的选取；进一步的，在测试设备检测到对所述第一评测指标集中各评测指标的更新指令，对所述第一标记进行更新；或者，在测试设备检测到对所述第二评测指标集中各评测指标的更新指令，对所述第二标记进行更新。

S605，确定所述评测策略的关联评测参数，并从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值。

S606，根据所述评测策略和所述评测参数值，确定所述识别引擎的文本识别性能。

在步骤S605和步骤S606中，根据所述第一评测指标集确定的字段评测参数包括字段召回率，所述字段粒度评测指标包括的字段召回维度可计算该识别引擎对包括字段的文本图像的字段召回率，该字段召回率用于指示识别引擎在识别的所有文本图像中，识别正确某个字段的字段内容的概率，可以理解的是，每个字段内容的字符数量大于或等于2，识别引擎在对字段内容进行识别时，需要对字段内容中的所有字符识别正确，才认为该识别引擎正确识别该字段内容，在识别引擎对该字段内容的识别存在错误字符时，则认为该识别引擎未正确识别该字段内容。具体地，字段召回率即是根据字段识别召回维度的字段召回参数和字段总召回之间的比值确定的，其计算公式如式1.1所示：

其中，识别正确的字段数即是该字段召回参数对应的参数值，该总的测试样本数量即是该字段总召回对应的参数值，在一个实施例中，字段召回率是针对某个特定的字段而言的，如图3a中由31标记的字段中的姓名字段或者性别字段等。

在一个实施例中，根据所述第一评测指标集确定的字段评测参数还包括字段准确率，所述字段粒度评测指标包括的字段准确维度可计算该识别引擎对包括字段的文本图像的字段准确率，该字段准确率用于指示该识别引擎在输出识别结果的文本图像中，识别正确某个字段的字段内容的概率，具体地，字段准确率是根据字段识别准确维度的字段准确参数和输出总字段之间的比值确定的，其计算公式如式1.2所示：

其中，该识别正确的字段数是字段准确参数对应的参数值，该返回识别结果的样本数即是输出总字段对应的参数值，其中，该字段准确率也是针对某个特定的字段而言的，字段召回率和字段准确率的区别在于，字段召回率用于指示识别引擎将识别的全部文本图像作为样本的情况下，对某个字段进行正确识别的概率，而字段准确率用于指示该识别引擎输出的识别结果中，对某个字段正确识别的概率。

在一个实施例中，根据所述第一评测指标集确定的字段评测参数还包括平均字段召回率，所述字段粒度评测指标包括的字段召回均值维度可计算该识别引擎基于所有输入的文本图像，对该文本图像中所有字段的平均字段召回率，该平均字段召回率是根据字段召回均值参数对应的参数值和字段总召回对应的参数值之间的比值确定的，其计算公式如式1.3所示：

其中，对所有字段的召回率总和即是字段召回均值参数对应的参数值，字段数量即是字段总召回对应的参数值，其中，该平均字段召回率是根据每个字段召回率确定出的均值。

在一个实施例中，根据所述第一评测指标集确定的字段评测参数还包括平均字段准确率，所述字段粒度评测指标包括的字段准确均值维度可计算该识别引擎基于输出识别结果的文本图像，对输出识别结果的文本图像中所有字段的平均字段准确率，该平均字段准确率是根据字段准确均值参数和输出总字段之间的比值确定的，其计算公式如式1.4所示：

其中，对所有字段的准确率总和即是字段准确均值参数对应的参数值，字段数量即是输出总字段对应的参数值，其中，该平均字段准确率是根据每个字段对应的字段准确率确定出的均值。

在一个实施例中，根据所述第一评测指标集确定的告警评测参数包括负样本正确告警率，所述告警功能评测指标包括的告警维度可确定识别引擎在对为负样本的文本图像进行文本识别时输出告警信息的概率，即负样本正确告警率，其中，负样本包括：复印的文本图像，扫描的文本图像，屏幕翻拍的文本图像和ps的文本图像，具体地，负样本正确告警率是根据正确告警参数和需要告警总参数之间的比值确定的，其计算公式如式1.5所示：

其中，负样本正确告警的数量即是正确告警参数对应的参数值，负样本的总数量即是需要告警总参数对应的参数值。

根据所述第一评测指标集确定的告警评测参数还包括正样本误告警概率，所述告警功能评测指标包括的误告警维度可确定识别引擎在对正样本的文本图像进行文本识别时错误输出告警信息的概率，即正样本误告警概率，其中，正样本是指正常的，没有ps的证件类文本图像或票据类文本图像的原件，具体地，正样本误告警率是根据误告警参数和不需要总告警参数之间的比值确定的，其计算公式如式1.6所示：

其中，正样本错误告警的数量即是误告警参数对应的参数值，正样本数量即是不需要总告警参数对应的参数值。

在一个实施例中，根据所述第一评测指标集确定的速率评测参数包括识出率，所述响应速率评测指标包括的识出率维度可指示识别引擎对文本图像进行识别后，成功输出识别文本的概率，即识出率，其中，识出率越高表示识别引擎对文本图像进行识别后输出识别文本的概率越大，具体地，识出率是根据字段识出参数和字段总识别之间的比值确定的，其计算公式如式1.7所示：

其中，成功返回的识别结果数量即是字段识出参数对应的参数值，总的样本数量即是识别引擎识别的文本图像中的字段总识别对应的参数值。

在一个实施例中，根据所述第一评测指标集确定的速率评测参数还包括平均耗时长度，所述响应速率评测指标包括的平均耗时维度可指示识别引擎对文本图像进行识别的平均速度，即平均耗时长度，其中，平均耗时长度越大说明识别引擎对文本图像进行识别后输出识别文本的速度越快，具体地，该平均耗时长度是根据字段识出耗时参数和识出总耗时之间的比值确定的，其计算公式如式1.8所示：

其中，成功调用引擎进行文本识别的总耗时即是字段识出耗时参数对应的参数值，成功调用引擎的文本图像的数量即是识出总耗时对应的参数值。

在一个实施例中，所述根据所述第一评测指标集确定的速率评测参数还包括最大耗时，响应速率评测指标包括的最大耗时维度可指示识别引擎成功被调用进行文本识别时，该识别引擎对应的最大耗时长度，该最大耗时长度也可称为TOP99耗时，是指在对识别引擎进行文本识别的耗时按照升序排列后，排序在第99％位的耗时数据，即采用该识别引擎进行文本识别时，识别引擎对应的99％的耗时都在这个时间范围内。

在一个实施例中，根据所述第二评测指标集确定的字符评测参数包括：字符召回率，所述字符粒度评测指标包括的字符识别召回维度可计算该识别引擎对文本图像中字符进行识别的字符召回率，该字符召回率用于指示该识别引擎在识别的所有文本图像中，正确识别字符的概率，可以反应识别引擎对字符进行错误识别或者漏识别字符的情况，其中，字符召回率是根据字符召回参数和字符总召回之间的比值确定的，其计算公式如式2.1所示：

其中，识别正确的字符数量即是字符召回参数对应的参数值，文本图像包括的总字符数即是字符总召回对应的参数值。

在一个实施例中，根据所述第二评测指标集确定的字符评测参数还包括：字符准确率，所述字符粒度评测指标包括的字符识别准确维度可指示该识别引擎对文本图像中字符进行识别的准确率，该字符准确率用于指示该识别引擎识别出的字符中，正确识别字符的概率，该字符准确率是根据字符准确参数和输出总字符之间的比值确定的，其计算公式如式2.2所示：

其中，该识别正确的字符数量即是字符准确参数对应的参数值，该识别出的总字符数即是输出总字符对应的参数值。在一个实施例中，测试设备在确定出字符召回率和字符准确率后，为了确定识别引擎对文本中字符的识别效果，可引入F_β-Score参数(一种综合字符召回率和准确率的计算公式)，F_β-Score的计算公式如式2.3所示：

其中，β表示权重系数，当β＝1时，称为F₁-Score，表示测试设备在对识别引擎的字符识别效果进行分析时，对识别引擎的识别准确率和召回率同等对待，而如果测试设备更偏向于识别引擎的准确率，则可将β值调整为大于1的值，在测试设备更偏向于识别引擎的召回率时，可将β值调整为小于1的值。

在一个实施例中，根据所述第二评测指标集确定的字符评测参数还包括：最小编辑距离，所述字符粒度评测指标包括的字符最小编辑距离维度可表示识别引擎输出的识别文本与标注用户进行标注得到的标注文本一致需要修改的字符数，如果文本图像为电商广告、手机截图等版式不规范的文本图像，采用识别引擎对该版式不规范的文本图像进行识别输出的识别文本和标注用户进行标注得到的标注文本的文本顺序存在差异，在计算字符最小编辑距离维度下计算最小编辑距离时，可忽略识别引擎输出的识别文本的顺序和标注文本的顺序差异，并从标注文本中任意选取一文本行作为基准文本行，将识别文本的各文本行依次和该基准文本行进行对比，确定识别文本中各文本行对应于该基准文本行需要修改的字符数，再从得到的各需要修改的字符数中选取最小值作为该基准文本行对应的最小编辑距离，测试设备可将标注文本中每一行依次选取为基准文本行，从而可确定出将识别文本中各行修改为标注文本对应的基准文本行的最小编辑距离。

在一个实施例中，根据所述第二评测指标集确定的字符评测参数还包括：全图编辑距离，所述字符粒度评测指标包括的全图编辑距离维度可表示识别引擎输出的识别文本与标注文本保持一致时需要修改的字符总数，如果该文本图像为文档、表格版式规范的文本图像，采用识别引擎对版式规范的文本图像进行识别输出得到的识别文本和标注用户进行标注得到的标注文本的文本顺序是一致的，所以，可将识别文本和标注文本的每行文本进行一一对比，确定出每行需要修改的字符数量，从而可将每行需要修改的字符数量相加，得到需要修改的字符总数。

在本发明实施例中，测试设备在获取到标注文本和识别文本，以对识别引擎的文本识别性能进行评测时，可先根据该文本图像的图像类型，从该文本图像中获取多个字段，以及每个字段的字段内容，如果测试设备获取的字段中的字段内容相互关联，则可从该第一评测指标集中确定出对识别引擎的文本识别性能进行评测的第一评测策略，而如果测试设备获取相互关联的字段内容失败，则可从第二评测指标集中获取第二评测指标集，并从该第二评测指标集中确定出对所述识别引擎的字符识别性能进行评测的第二评测策略，实现了基于文本图像的图像类型进行不同评测策略的获取，保证了对识别引擎文本识别性能的全面评测。进一步的，测试设备可基于获取第一评测参数或者第二评测参数对应的关联评测参数，并从标注文本和识别文本中确定该关联评测参数对应的评测参数值，从而可基于该评测策略和该评测参数值，确定出该识别引擎的文本识别性能，可有效提升对识别引擎的文本识别性能进行分析时的准确度。

基于上述图像文本识别性能的测试方法实施例的描述，本发明实施例还提出了一种图像文本识别性能的测试装置，该图像文本识别性能的测试装置可以是运行于上述测试设备中的一个计算机程序(包括程序代码)。该图像文本识别性能的测试装置可用于执行如图2和图6所述的图像文本识别性能的测试方法，请参见图7，该图像文本识别性能的测试装置包括：获取单元701和确定单元702。

获取单元701，用于获取对文本图像进行文本标注得到的标注文本，以及采用识别引擎对所述文本图像进行文本识别得到的识别文本；

确定单元702，用于根据所述文本图像的图像类型，确定对所述识别引擎的文本识别性能进行评测的评测策略，并确定所述评测策略的关联评测参数；

所述确定单元702，还用于从所述标注文本和所述识别文本中确定出所述关联评测参数所对应的评测参数值；

所述确定单元702，还用于根据所述评测策略和所述评测参数值，确定所述识别引擎的文本识别性能。

在一个实施例中，所述确定单元702，具体用于：

在一个实施例中，所述字段粒度评测指标包括：字段识别召回维度，字段识别准确维度，字段召回均值维度和字段准确均值维度中的至少一个评测维度；所述确定单元702，具体用于：

在一个实施例中，所述告警功能评测指标包括：告警维度，或误告警维度中的至少一个评测维度；所述确定单元702，具体用于：

在一个实施例中，所述响应速率评测指标包括：识出率维度，平均耗时维度和最大耗时维度中的至少一个评测维度；所述确定单元702，具体用于：

所述识出率维度的字段识出参数和字段总识别之间的比值；

所述最大耗时维度的最大耗时参数。

在一个实施例中，所述字符粒度评测指标包括：字符识别召回维度，字段识别召回维度，字符最小编辑距离维度和全图编辑距离维度中的至少一个评测维度；所述确定单元702，具体用于：

所述字符最小编辑距离维度的修改字符参数；或，

所述全图编辑距离维度的修改总字符。

在一个实施例中，所述文本标注文本包括：标签标注，

所述获取单元701，还用于获取对所述文本图像进行文本标注得到的标注文本包括的标签标注，并根据所述标签标注确定所述文本图像的图像类型；

在一个实施例中，所述装置还包括：处理单元703。

处理单元703，用于对所述标注文本和所述识别文本的文本格式进行标准化处理，使所述标注文本的文本格式和所述识别文本的文本格式保持一致；

在一个实施例中，所述装置还包括：添加单元704和更新单元705。

添加单元704，用于为所述第一评测指标集中的各评测指标添加第一标记，并为所述第二评测指标集中的各评测指标添加第二标记；

更新单元705，用于响应于对所述第一评测指标集中各评测指标的更新指令，对所述第一标记进行更新；或者，

所述更新单元705，还用于响应于对所述第二评测指标集中各评测指标的更新指令，对所述第二标记进行更新。

在本发明实施例中，在对识别引擎的文本识别性能进行测试时，获取单元701可先获取标注用户对文本图像进行文本标注得到的标注文本，以及采用识别引擎对文本图像进行文本识别得到的识别文本，进一步地，确定单元702可根据该文本图像的图像类型，确定对识别引擎的文本识别性能进行评测的评测策略，以及该评测策略的关联评测参数，在确定单元702从该标注文本和该识别文本中确定出该关联评测参数对应的评测参数值后，可根据该评测策略和该评测参数值，确定识别引擎的文本识别性能，实现了基于文本图像的图像类型的差异，获取不同的评测策略对识别引擎的文本识别性能进行评测，可对识别引擎对不同类型的文本图像的识别性能进行分别评测，提升了识别引擎进行文本识别时的全面性。

请参见图8，是本发明实施例提供的一种测试设备的结构示意性框图，所述测试设备可以是服务器设备，也可是终端设备，服务器设备可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器，终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等。如图8所示的本实施例中的测试设备可包括：一个或多个处理器801；一个或多个输入设备802，一个或多个输出设备803和存储器804。上述处理器801、输入设备802、输出设备803和存储器804通过总线805连接。存储器804用于存储计算机程序，所述计算机程序包括程序指令，处理器801用于执行所述存储器804存储的程序指令。

所述存储器804可以包括易失性存储器(volatile memory)，如随机存取存储器(random-access memory，RAM)；存储器804也可以包括非易失性存储器(non-volatilememory)，如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储器804还可以包括上述种类的存储器的组合。

所述处理器801可以是中央处理器(central processing unit，CPU)。所述处理器801还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)等。所述处理器801也可以为上述结构的组合。

本发明实施例中，所述存储器804用于存储计算机程序，所述计算机程序包括程序指令，处理器801用于执行存储器804存储的程序指令，用来实现上述如图2和图6中相应方法的步骤。

在一个实施例中，所述处理器801被配置调用所述程序指令，用于执行：

所述处理器801被配置调用所述程序指令，用于执行：

所述识出率维度的字段识出参数和字段总识别之间的比值；

所述最大耗时维度的最大耗时参数。

所述处理器801被配置调用所述程序指令，用于执行：

所述字符最小编辑距离维度的修改字符参数；

所述全图编辑距离维度的修改总字符。

在一个实施例中，所述文本标注文本包括：标签标注，所述处理器801被配置调用所述程序指令，用于执行：

获取对所述文本图像进行文本标注得到的标注文本包括的标签标注，并根据所述标签标注确定所述文本图像的图像类型；

对所述标注文本和所述识别文本的文本格式进行标准化处理，使所述标注文本的文本格式和所述识别文本的文本格式保持一致；

为所述第一评测指标集中的各评测指标添加第一标记，并为所述第二评测指标集中的各评测指标添加第二标记；

响应于对所述第一评测指标集中各评测指标的更新指令，对所述第一标记进行更新；或者，

响应于对所述第二评测指标集中各评测指标的更新指令，对所述第二标记进行更新。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的局部实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种图像文本识别性能的测试方法，其特征在于，包括：

获取对文本图像进行文本标注得到的标注文本，以及采用识别引擎对所述文本图像进行文本识别得到的识别文本；其中，所述标注文本是通过对文本图像进行标签标注和字符标注后得到的，不同应用场景的文本图像添加有不同类型的分类标签；

根据所述文本图像的图像类型，确定对所述识别引擎的文本识别性能进行评测的评测策略，并确定所述评测策略的关联评测参数；所述图像类型是根据该文本图像中是否存在结构化字段来确定的，不同的图像类型对应有不同的评测策略，并且不同评测测量的关联评测参数不相同；

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本图像的图像类型，确定对所述识别引擎的文本识别性能进行评测的评测策略，包括：

从所述文本图像中获取多个字段，以及每个字段的字段内容；

若从所述文本图像中获取到字段，且获取的各字段中的字段内容相互关联，则确定该文本图像的图像类型为第一类型，获取第一评测指标集，并根据所述第一评测指标集确定对所述识别引擎的字段识别性能进行评测的第一评测策略，所述第一评测指标集包括：字段粒度评测指标、告警功能评测指标、响应速率评测指标中的任意一个或多个；

若从所述文本图像中获取字段失败，则确定该文本图像的图像类型为第二类型，获取第二评测指标集，并根据所述第二评测指标集确定对所述识别引擎的字符识别性能进行评测的第二评测策略，所述第二评测指标集包括：字符粒度评测指标或响应速率评测指标中的任意一个或两个。

3.根据权利要求2所述的方法，其特征在于，所述字段粒度评测指标包括：字段识别召回维度，字段识别准确维度，字段召回均值维度和字段准确均值维度中的至少一个评测维度；

4.根据权利要求2所述的方法，其特征在于，所述告警功能评测指标包括：告警维度，或误告警维度中的至少一个评测维度；

5.根据权利要求2所述的方法，其特征在于，所述响应速率评测指标包括：识出率维度，平均耗时维度和最大耗时维度中的至少一个评测维度；

所述识出率维度的字段识出参数和字段总识别之间的比值；

所述最大耗时维度的最大耗时参数。

6.根据权利要求2所述的方法，其特征在于，所述字符粒度评测指标包括：字符识别召回维度，字段识别召回维度，字符最小编辑距离维度和全图编辑距离维度中的至少一个评测维度；

所述字符最小编辑距离维度的修改字符参数；

所述全图编辑距离维度的修改总字符。

7.根据权利要求1所述的方法，其特征在于，所述标注文本包括：标签标注，所述方法还包括：

其中，所述图像类型包括第一类型和第二类型，所述第一类型的文本图像包括的字段对应的字段内容相互关联，表明文本图像中存在结构化字段；所述第二类型的文本图像的字段内容不存在所述关联关系，表明文本图像中不存在结构化字段。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求2所述的方法，其特征在于，所述方法还包括：

10.一种图像文本识别性能的测试装置，其特征在于，包括：

获取单元，用于获取对文本图像进行文本标注得到的标注文本，以及采用识别引擎对所述文本图像进行文本识别得到的识别文本；其中，所述标注文本是通过对文本图像进行标签标注和字符标注后得到的，不同应用场景的文本图像添加有不同类型的分类标签；

确定单元，用于根据所述文本图像的图像类型，确定对所述识别引擎的文本识别性能进行评测的评测策略，并确定所述评测策略的关联评测参数；所述图像类型是根据该文本图像中是否存在结构化字段来确定的，不同的图像类型对应有不同的评测策略，并且不同评测测量的关联评测参数不相同；

11.一种测试设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1～9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～9任一项所述的方法。