CN113343816A

CN113343816A - 一种针对ocr简历识别算法的自动化测试方法和系统

Info

Publication number: CN113343816A
Application number: CN202110598969.3A
Authority: CN
Inventors: 谈梁河
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-03

Abstract

本发明公开了一种针对OCR简历识别算法的自动化测试方法，包括以下步骤：(1)导入简历相关信息；(2)随机生成简历；(3)文字内容比对；(4)输出测试报告。本发明还公开了一种针对OCR简历识别算法的自动化测试系统，包括导入模块、生成模块、内容比对模块和输出模块。本发明高效生成简历，人工干预阶段仅需完成搜集输入工作，减轻了测试人员的负担，提升了测试效率，且通过本测试方法可以对有限的数据重组出多种形式的简历，也减少了所需要的数据量；本发明高效对比简历内容，无需自主对比分析OCR算法的结果，大大降低了测试人员的门槛，也减少了因人为原因而产生的误判，测试结果的可靠性有所提升，为算法的进一步优化提供了良好的指导效果。

Description

一种针对OCR简历识别算法的自动化测试方法和系统

技术领域

本发明涉及简历识别，特别是一种针对OCR简历识别算法的自动化测试方法，以及使用该方法的系统。

背景技术

传统OCR主要指对输入扫描的文档图形进行分析和处理，检测并识别出图像中的文字信息，并将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如今的OCR技术则更多用于自然场景下文字识别，例如招聘网站在接收到求职者各类排版的简历时，需要将其转化为标准格式的简历以方便招聘者查阅，在简历识别过程中如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，也成为衡量一个OCR简历识别系统性能好坏的主要指标。

然而长期以来对于OCR简历识别算法的测试却很难实现，更多的测试活动是停留在前期的白盒测试，例如代码走读、静态检查等，而黑盒测试则依赖于人工的导入识别。很多测试活动又因人力资源的限制，无法开展大规模的测试，很难评估一个OCR简历识别系统的识别正确率，只能匆忙上线交由实际用户去评估，造成了该系统风险的存在。

发明内容

发明目的：本发明的目的是提供一种识别率高的针对OCR简历识别算法的自动化测试方法，本发明的另一目的是提供一种可用性强的针对OCR简历识别算法的自动化测试系统。

技术方案：本发明所述的一种针对OCR简历识别算法的自动化测试方法，包括以下步骤：

(1)导入简历相关信息；

(2)随机生成简历：将导入的文字内容打乱重排以模拟生成新的简历内容，并且随机填充至之前导入的简历模板中；

(3)文字内容比对；

(4)输出测试报告。

所述步骤(1)具体为：

(1.1)导入简历版式：提供一个或多个标准A4尺寸页面，在此页面上支持以手动方式绘制添加文字框，也支持自动生成简历版式，自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面，随后参考实际简历版式对每个文字框进行板块的人工或自动标注；

(1.2)导入简历内容：仅支持手工输入，所述简历内容包括必填内容和可选内容，所述必填内容包括个人资料、教育背景、工作经历，所述可选内容包括掌握技能、个人评估、联系方式、项目经历、获奖情况。

所述步骤(3)中的内容比对包括整段落的标题识别和段落内文字匹配率识别。

所述步骤(4)中的报告为图形化HTML格式的报告，报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确。

一种针对OCR简历识别算法的自动化测试系统，包括以下模块：

导入模块：包括简历版式导入和简历内容导入；

生成模块：将导入的文字内容打乱重排以模拟生成新的简历内容，并且随机填充至之前导入的简历模板中；

内容比对模块：包括整段落的标题识别和段落内文字匹配率识别；

输出模块：将内容比对模块中计算出的结果进行加权平均，最后计算出总体的比对正确率，再结合计算的总数量输出图形化HTML格式的报告。

所述简历版式导入具体为提供一个或多个标准A4尺寸页面，在此页面上支持以手动方式绘制添加文字框，也支持自动生成简历版式，自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面，随后参考实际简历版式对每个文字框进行板块的人工或自动标注。

所述简历内容导入仅支持手工输入，所述简历内容包括必填内容和可选内容，所述必填内容包括个人资料、教育背景、工作经历，所述可选内容包括掌握技能、个人评估、联系方式、项目经历、获奖情况。

所述文字匹配率识别采用DIFF算法。

所述报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确率。

有益效果：与现有技术相比，本发明具有如下优点：

1、本发明覆盖了各种类型的简历版式，一方面采用手动绘制来模仿现有的简历版式，方便测试人员对一些经典版式的识别率计算，另一方面自动生成简历版式，能够模拟一些小众的简历版式，提高识别率；

2、在有限的数据下尽可能地模拟生成了大量简历数据，实际测试中基于小数据量计算而得到的匹配成功率没有太多实际意义，而重组后大数据量的输入可以有效测试算法的识别成功率；

3、整体系统的匹配性能较高，实际测试耗时时间极短，极大地提高了工作效率；

4、友好的报告模板，可以让测试人员快速评估OCR算法的可用性。

附图说明

图1为测试方法的步骤流程图；

图2为测试系统的结构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，一种针对OCR简历识别算法的自动化测试方法，包括以下步骤：

(1)导入简历相关信息；

(1.1)导入简历版式：提供一个或多个标准A4尺寸页面，在此页面上支持以手动方式绘制添加文字框，也可以选择直接自动生成简历版式，自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面，随后可参考实际简历版式对每个文字框进行板块人工或自动标注，这里的标注要对应上述简历内容库的子板块来实行，即最少要标注必填的几个板块；

(1.2)导入简历内容：需要人工分板块导入简历内容，其中分为必填和可选两类，默认情况下必填的内容为个人资料、教育背景、工作经历；选填的内容为掌握技能、个人评估、联系方式、项目经历、获奖情况，另外可根据测试需求自行增加内容库模块，填写内容时需要人工将简历内容分成基本的段落，以便于后续的重组；

(2)随机生成简历：将简历内容进行重组并填充，对于输入的同一板块的简历文字内容会被系统按段落进行随机的组合以拼接成一份全新的内容块并按照标注的名字填充到一个确定的简历模板中，这样系统就生成了一份新的简历，此时还需要对当前简历的模块名以及内容做本地持久化操作，用于后续比对系统，如此反复即可批量生成简历；

(3)文字内容比对，包括整段落的标题识别和段落内文字匹配率识别，在测试系统将简历导入算法接口后，根据算法的接口文档可以明确知晓算法对简历识别后返回的参数格式，依据算法参数格式我们仅需要将之前存储的简历的模块名与算法返回参数的关键字做对比，如果标题与关键字无法对应则整段判断为识别错误，如果两者匹配则将模块内容与接口关键字返回值对比，此处对比算法会引入市面上开源的算法DIFF，此处不对算法做过多介绍，据此即可获取两段文字的匹配比率；

(4)输出测试报告，报告为图形化HTML格式的报告，报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确率；其中，对于整段落匹配率可以根据以下公式计算：

对于文字部分匹配的成功率直接采用算法的返回值，另外需要根据文字的总数量对该成功率做加权平均值，最终得到总的文字识别正确率。

如图2所示，一种针对OCR简历识别算法的自动化测试系统，包括以下模块：

导入模块：包括简历版式导入和简历内容导入；

所述简历版式导入主要功能是提供一个或多个标准A4尺寸页面，在此页面上支持以手动方式绘制添加文字框，也可以选择直接自动生成简历版式，自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面，随后可参考实际简历版式对每个文字框进行板块人工或自动标注，这里的标注要对应上述简历内容库的子板块来实行，即最少要标注必填的几个板块。

所述简历内容导入需要人工分板块导入简历内容，其中分为必填和可选两类，默认情况下必填的内容为个人资料、教育背景、工作经历；选填的内容为掌握技能、个人评估、联系方式、项目经历、获奖情况，另外可根据测试需求自行增加内容库模块，填写内容时需要人工将简历内容分成基本的段落，以便于后续的重组。

生成模块：为本系统的核心模块，主要是将简历内容进行重组并填充，对于输入的同一板块的简历文字内容会被系统按段落进行随机的组合以拼接成一份全新的内容块并按照标注的名字填充到一个确定的简历模板中，这样系统就生成了一份新的简历，此时还需要对当前简历的模块名以及内容做本地持久化操作，用于后续比对系统，如此反复即可批量生成简历；

内容比对模块：包括整段落的标题识别和段落内文字匹配率识别，在测试系统将简历导入算法接口后，根据算法的接口文档可以明确知晓算法对简历识别后返回的参数格式，依据算法参数格式我们仅需要将之前存储的简历的模块名与算法返回参数的关键字做对比，如果标题与关键字无法对应则整段判断为识别错误，如果两者匹配则将模块内容与接口关键字返回值对比，此处对比算法会引入市面上开源的算法DIFF，此处不对算法做过多介绍，据此即可获取两段文字的匹配比率；

输出模块：将内容比对模块中计算出的结果进行加权平均，最后计算出总体的比对正确率，再结合计算的总数量输出图形化HTML格式的报告；

对于整段落匹配率可以根据以下公式计算：

报告输出使用HTML格式，主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确率，且以饼状图的形式标明其百分比。

Claims

1.一种针对OCR简历识别算法的自动化测试方法，其特征在于，包括以下步骤：

(1)导入简历相关信息；

(3)文字内容比对；

(4)输出测试报告。

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)具体为：

3.根据权利要求1所述的方法，其特征在于，所述步骤(3)中的内容比对包括整段落的标题识别和段落内文字匹配率识别。

4.根据权利要求1所述的方法，其特征在于，所述步骤(4)中的报告为图形化HTML格式的报告，报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确。

5.一种使用如权利要求1所述方法的自动化测试系统，其特征在于，包括以下模块：

导入模块：包括简历版式导入和简历内容导入；

6.根据权利要求5所述的系统，其特征在于，所述简历版式导入具体为提供一个或多个标准A4尺寸页面，在此页面上支持以手动方式绘制添加文字框，也支持自动生成简历版式，自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面，随后参考实际简历版式对每个文字框进行板块的人工或自动标注。

7.根据权利要求5所述的系统，其特征在于，所述简历内容导入仅支持手工输入，所述简历内容包括必填内容和可选内容，所述必填内容包括个人资料、教育背景、工作经历，所述可选内容包括掌握技能、个人评估、联系方式、项目经历、获奖情况。

8.根据权利要求5所述的系统，其特征在于，所述文字匹配率识别采用DIFF算法。

9.根据权利要求5所述的系统，其特征在于，所述报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确率。